Ein Wissenschaftlerpaar hat mit Hilfe von ChatGPT – einem auf künstlicher Intelligenz (KI) basierenden Tool, das menschenähnlichen Text verstehen und generieren kann – in weniger als einer Stunde eine Forschungsarbeit erstellt. Der Artikel war flüssig, aufschlussreich und in der für eine wissenschaftliche Arbeit erwarteten Struktur präsentiert, aber Forscher sagen, dass es viele Hürden zu überwinden gilt, bevor das Tool wirklich hilfreich sein kann.
Das Ziel bestand darin, die Fähigkeiten von ChatGPT als „Co-Pilot“ der Forschung zu erkunden und eine Debatte über seine Vorteile und Fallstricke anzustoßen, sagt Roy Kishony, Biologe und Datenwissenschaftler am Technion – Israel Institute of Technology in Haifa. „Wir brauchen eine Diskussion darüber, wie wir die Vorteile mit weniger Nachteilen nutzen können“, sagt er.
Kishony und sein Student Tal Ifargan, ein Datenwissenschaftler, der ebenfalls am Technion arbeitet, haben einen öffentlich zugänglichen Datensatz vom Behavioral Risk Factor Surveillance System des US-amerikanischen Centers for Disease Control and Prevention heruntergeladen, einer Datenbank mit gesundheitsbezogenen Telefonumfragen. Der Datensatz umfasst Informationen von mehr als 250.000 Menschen zu ihrem Diabetesstatus, ihrem Obst- und Gemüsekonsum sowie ihrer körperlichen Aktivität.
Die Bausteine einer Arbeit
Die Forscher baten ChatGPT, Code zu schreiben, mit dem sie Muster in den Daten aufdecken und weiter analysieren konnten. Beim ersten Versuch generierte der Chatbot Code, der voller Fehler war und nicht funktionierte. Aber als die Wissenschaftler die Fehlermeldungen weiterleiteten und es aufforderten, die Fehler zu korrigieren, produzierte es schließlich Code, der zur Untersuchung des Datensatzes verwendet werden konnte.
Mit einem strukturierteren Datensatz baten Kishony und Ifargan dann ChatGPT, ihnen bei der Entwicklung eines Studienziels zu helfen. Das Tool schlug vor, zu untersuchen, wie sich körperliche Aktivität und Ernährung auf das Diabetesrisiko auswirken. Nachdem mehr Code generiert wurde, lieferte ChatGPT die Ergebnisse: Mehr Obst und Gemüse zu essen und Sport zu treiben, ist mit einem geringeren Diabetesrisiko verbunden. ChatGPT wurde dann aufgefordert, die wichtigsten Ergebnisse in einer Tabelle zusammenzufassen und den gesamten Ergebnisabschnitt zu schreiben. Schritt für Schritt baten sie ChatGPT, die Zusammenfassung, die Einleitung, die Methoden und die Diskussionsabschnitte eines Manuskripts zu schreiben. Schließlich baten sie ChatGPT, den Text zu verfeinern. „Wir haben komponiert [the paper] aus der Ausgabe vieler Eingabeaufforderungen“, sagt Kishony. „Jeder Schritt baut auf den Produkten der vorherigen Schritte auf.“
Obwohl ChatGPT ein klar geschriebenes Manuskript mit solider Datenanalyse erstellte, war die Arbeit alles andere als perfekt, sagt Kishony. Ein Problem, auf das die Forscher stießen, war die Tendenz von ChatGPT, Lücken durch Erfinden zu füllen, ein Phänomen, das als Halluzination bekannt ist. In diesem Fall wurden gefälschte Zitate und ungenaue Informationen generiert. In dem Papier heißt es beispielsweise, dass die Studie „eine Lücke in der Literatur schließt“ – eine Formulierung, die in Veröffentlichungen häufig vorkommt, in diesem Fall jedoch unzutreffend ist, sagt Tom Hope, Informatiker an der Hebräischen Universität Jerusalem. Der Befund werde „keinen medizinischen Experten überraschen“, sagt er. „Es ist nicht annähernd neuartig.“
Vorteile und Bedenken
Kishony befürchtet auch, dass solche Tools es Forschern leichter machen könnten, sich an unehrlichen Praktiken wie z P-Hacking, bei dem Wissenschaftler mehrere Hypothesen anhand eines Datensatzes testen, aber nur diejenigen melden, die ein signifikantes Ergebnis liefern.
Eine weitere Sorge besteht darin, dass die einfache Erstellung von Artikeln mit generativen KI-Tools dazu führen könnte, dass Zeitschriften mit Artikeln von geringer Qualität überschwemmt werden, fügt er hinzu. Er sagt, dass sein Data-to-Paper-Ansatz, bei dem bei jedem Schritt die menschliche Aufsicht im Mittelpunkt steht, eine Möglichkeit sein könnte, sicherzustellen, dass Forscher die Methoden und Ergebnisse leicht verstehen, überprüfen und reproduzieren können.
Vitomir Kovanović, der an der University of South Australia in Adelaide KI-Technologien für die Bildung entwickelt, sagt, dass KI-Tools in Forschungsarbeiten stärker sichtbar sein müssen. Andernfalls sei es schwierig zu beurteilen, ob die Ergebnisse einer Studie korrekt seien, sagt er. „Wir werden in Zukunft wahrscheinlich mehr tun müssen, wenn die Herstellung gefälschter Papiere so einfach sein soll.“
Generative KI-Tools haben das Potenzial, den Forschungsprozess zu beschleunigen, indem sie einfache, aber zeitaufwändige Aufgaben ausführen – wie das Schreiben von Zusammenfassungen und das Erstellen von Code – sagt Shantanu Singh, Computerbiologe am Broad Institute of MIT und Harvard in Cambridge, Massachusetts. Sie könnten zur Erstellung von Arbeiten aus Datensätzen oder zur Entwicklung von Hypothesen verwendet werden, sagt er. Aber weil Halluzinationen und Vorurteile für Forscher schwer zu erkennen sind, sagt Singh: „Ich glaube nicht, dass das Schreiben ganzer Arbeiten – zumindest in absehbarer Zukunft – einen besonders guten Nutzen haben wird.“