Wir befinden uns noch am Anfang des Schneeballeffekts, der durch die Veröffentlichung großer Sprachmodelle (LLMs) wie chatgpt ausgelöst wird. In Verbindung mit der Open-Source-Bereitstellung anderer GPT-Modelle (Generative Pre-Trained Transformer) explodiert die Zahl der Anwendungen, die KI nutzen; Und wie wir wissen, kann ChatGPT selbst zur Erstellung hochentwickelter Malware verwendet werden.

Im Laufe der Zeit wird es immer mehr angewandte LLMs geben, die sich jeweils auf ihren eigenen Bereich spezialisieren und anhand sorgfältig kuratierter Daten für einen bestimmten Zweck geschult werden. Und eine solche Anwendung wurde gerade eingestellt, eine, die auf Daten aus dem Dark Web selbst trainiert wurde. DarkBERT, wie seine südkoreanischen Entwickler es nannten, ist da – Folgen Sie diesem Link für das Veröffentlichungspapier, das eine umfassende Einführung in das Dark Web selbst bietet.

DarkBERT basiert auf der RoBERTa-Architektur, einem KI-Ansatz, der bereits 2019 entwickelt wurde. Es erlebte eine Art Renaissance, als Forscher herausfanden, dass es 2019 tatsächlich mehr Leistung zu bieten hatte, als aus ihm herausgeholt werden konnte. Es scheint Das Modell war bei der Veröffentlichung stark untertrainiertweit unter seinem maximalen Wirkungsgrad.

Um das Modell zu trainieren, durchsuchten die Forscher das Dark Web durch die anonymisierende Firewall des Tor-Netzwerks und filterten dann die Rohdaten (unter Anwendung von Techniken wie Deduplizierung, Kategorieausgleich und Datenvorverarbeitung), um eine Dark Web-Datenbank zu erstellen. DarkBERT ist das Ergebnis der Verwendung dieser Datenbank, um das RoBERTa Large Language Model zu speisen, ein Modell, das einen neuen Teil des Dark Web-Inhalts – geschrieben in seinen eigenen Dialekten und stark codierten Nachrichten – analysieren und daraus nützliche Informationen extrahieren kann.

Siehe auch  Experten warnen davor, dass die Eingabe persönlicher Daten in ChatGPT „den Kontrollverlust über sie“ bedeutet.

Zu sagen, dass Englisch die Geschäftssprache des Dark Web ist, wäre nicht ganz richtig, aber es ist eine so konkrete Erfindung, dass die Forscher davon ausgehen, dass ein bestimmter LLM darauf geschult werden musste. Am Ende hatten sie Recht: Die Forscher zeigten, dass DarkBERT anderen großen Sprachmodellen überlegen war, was es Sicherheitsforschern und Strafverfolgungsbehörden ermöglichen sollte, tiefer in die Tiefen des Webs vorzudringen. Dort findet schließlich die meiste Action statt.

Wie bei anderen LLMs bedeutet dies nicht, dass DarkBERT fertig ist, und durch weiteres Training und Tuning können die Ergebnisse weiter verbessert werden. Wie es genutzt wird und welche Erkenntnisse daraus gewonnen werden können, bleibt abzuwarten.

4.6/5 - (184 votes)
Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein