Forscher haben eine auf das Dark Web spezialisierte KI entwickelt. DarkBERT wurde mithilfe von Daten zur dunklen Seite des Internets geschult und soll Behörden und Cybersicherheitsexperten dabei helfen, Kriminelle besser zu verstehen.
Nach Microsoft Bings chatgpt, Bard, Claude oder Prometheus ist in den letzten Monaten eine Vielzahl von Chatbots entstanden. Die meisten Unternehmen versuchen tatsächlich, auf der Welle der künstlichen Intelligenz mitzureiten, indem sie entweder eigene Sprachmodelle entwickeln oder bestehende Sprachmodelle nutzen.
Unter dieser Welle unterschiedlicher Chatbots finden wir DarkBERT. Der von einem Team südkoreanischer Forscher entwickelte Chatbot soll die Recherche im Dark Web beschleunigen. Die Entstehung ist ausführlich in einem auf Arxiv verfügbaren Bericht dokumentiert „Eine wertvolle Ressource für zukünftige Forschung“, sagen die Wissenschaftler hinter dem Projekt. Im Detail basiert der Chatbot auf der RoBERTa-Architektur von Meta, die selbst auf basiert BERT (Bidirektionale Encoderdarstellungen von Transformatoren).). Dieses Sprachmodell ist Teil der großen Auswahl an Deep-Learning-orientierten Modellen von google.
Lesen Sie auch: Besser als ChatGPT? Meta präsentiert eine KI, die der menschlichen Intelligenz nahekommt
Daten ausschließlich aus dem Dark Web
Um den Chatbot zu entwickeln, haben die Forscher das Sprachmodell mit gefüttert ein Datenkorpus ausschließlich aus dem Dark Web. Im Gegensatz zu einem Modell wie GPT-4 oder PaLM 2 wurde es nicht mit den verfügbaren Daten trainiert klares Netzdie von Suchmaschinen indizierte Version des Webs.
Dem Bericht der Forscher zufolge wurden 5,83 GB Rohtext von der dunklen Seite des Webs zum Trainieren von DarkBERT verwendet. Um die Daten zu sammeln, die das Herzstück der Funktionsweise des KI-Modells bilden, durchsuchten die Forscher dunkle Websites über Tor, das dezentrale Netzwerk, das alle Verbindungen anonymisiert. Dies ist für den Zugriff auf das Darknet unerlässlich. Anschließend sammelten die Wissenschaftler Millionen von Informationen, darunter Schriften, die in Dialekten verfasst waren, die für bestimmte kriminelle Gemeinschaften spezifisch sind. Beispielsweise „lesen“ die Algorithmen Dokumente aus Schwarzmärkten, darunter gestohlene Datenbanken, in Foren ausgetauschte Nachrichten.
Es überrascht nicht, dass die Designer gezwungen waren, die gesammelten Daten zu sortieren „um potenzielle ethische Bedenken in Texten zu sensiblen Informationen auszuräumen“. Die Datenbank wurde von Inhalten bereinigt, die die Privatsphäre von Internetnutzern gefährden, beispielsweise sensible persönliche Daten. Im Dark Web gibt es tatsächlich viele Dateien, die gestohlene Benutzernamen oder Passwörter oder Informationen zu Betrug, Betrug oder Drogenproduktion enthalten. Ebenso wurden die Experten mit einer Lawine strafrechtlich verwerflicher Inhalte, insbesondere Kinderpornografie, konfrontiert. Um zu verhindern, dass diese Daten in das Modell einfließen, beschränkten sich die Forscher auf die Sammlung von Texten und schlossen Bilder und Videos aus:
„Unser automatisierter Webcrawler entfernt alle Nicht-Text-Medien und speichert nur Rohtextdaten. Auf diese Weise stellen wir sicher, dass wir keinen sensiblen Medien ausgesetzt sind, die möglicherweise illegal sind.“.
Wie die meisten Sprachmodelle verlässt sich DarkBERT stark darauf Daten in englischer Sprache, Mehrheit im Dark Web. Tatsächlich schätzen Experten, dass 90 % der verfügbaren Texte auf Englisch verfasst wurden.
Wozu dient DarkBERT?
Wie das Korea Advanced Institute of Science and Technology erklärt: „Dark Web-spezifische Sprachmodelle können wertvolle Erkenntnisse liefern“weil die Studien durchgeführt „erfordern im Allgemeinen eine Textanalyse der Domäne“. Vor diesem Hintergrund soll das Modell Behörden, Ermittlern und Forschern dabei helfen, besser zu werden Verstehen Sie, wie das Dark Web funktioniertdas von Kriminellen aller Art massiv genutzt wird.
DarkBERT muss vor allem Computersicherheitsforschern zu Hilfe kommen. Dank des Bergs an gesammelten Informationen ist die KI in der Lage, dies zu erkennen „Dark-Web-Diskussionen, Ransomware oder Leaks“. Das Online-Stellen einer neuen gestohlenen Datenbank oder das Erscheinen einer neuen Ransomware kann durch das linguistische Modell dokumentiert werden. Darüber hinaus wollen die Forscher die KI schrittweise verbessern, damit sie das Dark Web regelmäßig auf der Suche nach neuen Bedrohungen durchsuchen kann.
Arxiv