Laut einer am 6. November veröffentlichten Studie kann ein maschinelles Lerntool mithilfe des Chatbots ChatGPT leicht erkennen, wann Chemiearbeiten verfasst werden Zellberichte Physikalische Wissenschaft1. Der spezialisierte Klassifikator, der zwei vorhandene Detektoren für künstliche Intelligenz (KI) übertrifft, könnte wissenschaftlichen Verlagen dabei helfen, mit KI-Textgeneratoren erstellte Artikel zu identifizieren.
„Der größte Teil der Textanalyse benötigt einen wirklich allgemeinen Detektor, der bei allem funktioniert“, sagt Co-Autorin Heather Desaire, Chemikerin an der University of Kansas in Lawrence. Aber indem wir ein Werkzeug entwickelten, das sich auf eine bestimmte Papiersorte konzentrierte, „strebten wir wirklich nach Genauigkeit“.
Die Ergebnisse deuten darauf hin, dass die Bemühungen zur Entwicklung von KI-Detektoren durch die Anpassung der Software an bestimmte Schreibarten verstärkt werden könnten, sagt Desaire. „Wenn man etwas schnell und einfach erstellen kann, ist es nicht so schwer, etwas für verschiedene Domänen zu erstellen.“
Die Elemente des Stils
Desaire und ihre Kollegen beschrieben ihren ChatGPT-Detektor erstmals im Juni, als sie ihn auf Perspective-Artikel aus der Zeitschrift anwendeten Wissenschaft2. Mithilfe von maschinellem Lernen untersucht der Detektor 20 Merkmale des Schreibstils, darunter Variationen in der Satzlänge sowie die Häufigkeit bestimmter Wörter und Satzzeichen, um festzustellen, ob ein akademischer Wissenschaftler oder ChatGPT einen Text geschrieben hat. Die Ergebnisse zeigen, dass „man mit einem kleinen Satz an Funktionen ein hohes Maß an Genauigkeit erreichen könnte“, sagt Desaire.
Wie ChatGPT und andere KI-Tools das wissenschaftliche Publizieren stören könnten
In der neuesten Studie wurde der Detektor anhand der einleitenden Abschnitte von Artikeln aus zehn von der American Chemical Society (ACS) veröffentlichten Chemiezeitschriften trainiert. Das Team hat sich für die Einleitung entschieden, weil dieser Abschnitt einer Arbeit für ChatGPT relativ einfach zu schreiben ist, wenn es Zugang zu Hintergrundliteratur hat, sagt Desaire. Die Forscher trainierten ihr Tool anhand von 100 veröffentlichten Einleitungen, die als von Menschen geschriebener Text dienen sollten, und baten dann ChatGPT-3.5, 200 Einleitungen im ACS-Journalstil zu verfassen. Bei 100 davon wurde das Tool mit den Titeln der Aufsätze versehen, bei den anderen 100 mit deren Abstracts.
Beim Testen von Einleitungen, die von Menschen geschrieben wurden, und solchen, die von KI aus denselben Zeitschriften generiert wurden, identifizierte das Tool mit ChatGPT-3.5 geschriebene Abschnitte basierend auf Titeln mit 100-prozentiger Genauigkeit. Bei den von ChatGPT generierten Einführungen auf Basis von Abstracts war die Genauigkeit mit 98 % etwas geringer. Das Tool funktionierte genauso gut mit Texten, die von ChatGPT-4, der neuesten Version des Chatbots, geschrieben wurden. Im Gegensatz dazu identifizierte der KI-Detektor ZeroGPT KI-geschriebene Einleitungen mit einer Genauigkeit von nur etwa 35–65 %, je nachdem, welche Version von ChatGPT verwendet wurde und ob die Einleitung aus dem Titel oder der Zusammenfassung des Papiers generiert wurde. Ein Textklassifizierungstool von OpenAI, dem Hersteller von ChatGPT, schnitt ebenfalls schlecht ab – es konnte KI-geschriebene Einführungen mit einer Genauigkeit von etwa 10–55 % erkennen.
Der neue ChatGPT-Catcher schnitt sogar bei Einleitungen aus Zeitschriften, auf die er nicht trainiert wurde, gut ab und er fing KI-Text ab, der aus einer Vielzahl von Eingabeaufforderungen erstellt wurde, einschließlich einer, die darauf abzielte, KI-Detektoren zu verwirren. Allerdings ist das System stark auf wissenschaftliche Zeitschriftenartikel spezialisiert. Als ihm echte Artikel aus Universitätszeitungen vorgelegt wurden, erkannte er nicht, dass diese von Menschen geschrieben worden waren.
Größere Probleme
Was die Autoren machen, ist „etwas Faszinierendes“, sagt Debora Weber-Wulff, Informatikerin, die sich an der HTW Berlin mit akademischem Plagiat beschäftigt. Viele bestehende Tools versuchen, die Urheberschaft zu bestimmen, indem sie nach den prädiktiven Textmustern von KI-generiertem Schreiben suchen, anstatt sich auf Merkmale des Schreibstils zu konzentrieren, sagt sie. „Ich hätte nie daran gedacht, Stilometrie auf ChatGPT zu verwenden.“
Weber-Wulff weist jedoch darauf hin, dass es noch andere Probleme gibt, die den Einsatz von ChatGPT in der Wissenschaft vorantreiben. Sie stellt fest, dass viele Forscher unter dem Druck stehen, schnell Arbeiten zu verfassen, da sie sonst den Prozess des Verfassens einer Arbeit möglicherweise nicht als wichtigen Teil der Wissenschaft betrachten. KI-Erkennungstools werden diese Probleme nicht lösen und sollten nicht als „magische Softwarelösung für ein soziales Problem“ angesehen werden.