Denken wir daran, dass dies ein grundlegender Teil des Prozesses ist, durch den wissenschaftliche Erkenntnisse aufgebaut werden: Ob es sich nun um eine vermeintliche Entdeckung, eine Hypothese oder eine Behauptung handelt, all dies muss durch veröffentlichte Forschungsergebnisse gestützt werden. Und idealerweise sollte diese Forschung vor der Veröffentlichung von anderen Experten auf diesem Gebiet überprüft worden sein. Dies wird als „Peer-Review“ bezeichnet.
Dies hat jedoch seine Grenzen: Man muss Experten finden, die verstehen, worum es in der Forschung geht, und diese Experten müssen die Zeit haben. Traditionell vergehen Monate zwischen der Einreichung eines Artikels durch einen Forscher bei einer wissenschaftlichen Zeitschrift und dem Zeitpunkt der Veröffentlichung.
Abonniere unseren Newsletter!
So verpassen Sie keine wissenschaftlichen Nachrichten und erfahren alles über unsere Bemühungen im Kampf gegen Fake News und Desinformation!
Könnte chatgpt menschliche Prüfer ersetzen? Dies wollten Forscher um James Zou, einen Experten für maschinelles Lernen an der Stanford University in Kalifornien, testen. Sie baten ChatGPT-4 um „konstruktive Kritik“ an mehr als 3000 Studien, die in den Jahren 2022–2023 von einer der Zeitschriften der Nature-Gruppe veröffentlicht wurden (daher peer-reviewed), und an 1700 Artikeln eines Weltkongresses zum Thema maschinelles Lernen (Internationale Konferenz über Lernrepräsentationen). Und sie verglichen die Bewertungen der Roboter mit denen der Menschen. Im zweiten Schritt fragten sie ChatGPT dasselbe für ein paar hundert Artikel, die von niemandem rezensiert worden waren, und baten etwa 300 ihrer Autoren (alle im Bereich künstliche Intelligenz oder IT), die Kritik des Roboters an ihnen zu bewerten.
In der Zusammenfassung, welches bereits vorveröffentlicht wurde am 3. Oktober auf dem ArXiv-Server (was ironischerweise bedeutet, dass es nicht von Experten begutachtet wurde) schreiben sie zunächst einmal das für mehr als die Hälfte der veröffentlichten Texte und für mehr als drei Viertel (77 %) der In Konferenztexten wies der Roboter auf Dinge hin, auf die auch mindestens einer der Rezensenten hingewiesen hatte. Das stärkste Ergebnis liegt jedoch bei unveröffentlichten und nicht überarbeiteten Texten: 82 % der Autoren gaben an, dass sie die ChatGPT-Rezension für nützlicher hielten als Rezensionen, die sie in der Vergangenheit zu anderen Forschungsarbeiten erhalten hatten.
Die Arbeit weist jedoch erhebliche Nachteile auf: Im zweiten Teil der Forschung ist die Bewertung der Kritik des Roboters durch die Forscher rein subjektiv und lässt keinen Vergleich mit der Kritik zu, die ein Mensch an derselben Arbeit geäußert hätte. Was den ersten Teil der Untersuchung anbelangt, so gibt er nur wenige Einzelheiten darüber bekannt, um welche Informationen es sich handelt, die ChatGPT nicht identifiziert hat, die aber von Menschen gemeldet wurden. Es bleibt abzuwarten ob wissenschaftliche Fachzeitschriften mit diesen KI-Revisionen zufrieden sein könnten ohne die Gewissheit zu haben, dass der Roboter nichts Wichtiges „vergessen“ hat – aber dieses Hinterfragen gibt es auch im echten Peer-Review, das alles andere als unfehlbar ist.