Forscher haben die Technologie hinter dem Chatbot ChatGPT mit künstlicher Intelligenz (KI) genutzt, um einen gefälschten Datensatz aus klinischen Studien zu erstellen, um eine unbestätigte wissenschaftliche Behauptung zu untermauern.
In einem Artikel veröffentlicht in JAMA Ophthalmologie am 9. November1verwendeten die Autoren GPT-4 – die neueste Version des großen Sprachmodells, auf dem ChatGPT läuft – gepaart mit Advanced Data Analysis (ADA), einem Modell, das die Programmiersprache Python integriert und statistische Analysen durchführen und Datenvisualisierungen erstellen kann. Die von der KI generierten Daten verglichen die Ergebnisse zweier chirurgischer Eingriffe und zeigten – fälschlicherweise –, dass eine Behandlung besser ist als die andere.
Wissenschaftliche Experten entdecken unehrliche ChatGPT-Nutzung in Veröffentlichungen
„Unser Ziel war es hervorzuheben, dass man in wenigen Minuten einen Datensatz erstellen kann, der nicht durch echte Originaldaten gestützt wird und der auch im Vergleich zu den verfügbaren Beweisen oder in die andere Richtung steht“, sagt Studienleiter -Autor Giuseppe Giannaccare, Augenchirurg an der Universität Cagliari in Italien.
Die Fähigkeit der KI, überzeugende Daten zu erstellen, verstärkt die Besorgnis von Forschern und Zeitschriftenherausgebern hinsichtlich der Forschungsintegrität. „Es war eine Sache, dass generative KI zur Generierung von Texten genutzt werden könnte, die mit Plagiatssoftware nicht erkennbar wären, aber die Fähigkeit, gefälschte, aber realistische Datensätze zu erstellen, ist ein weiterer Grund zur Sorge“, sagt Elisabeth Bik, Mikrobiologin und unabhängige Forscherin -Integritätsberater in San Francisco, Kalifornien. „Es wird es jedem Forscher oder jeder Forschergruppe sehr einfach machen, gefälschte Messungen an nicht existierenden Patienten zu erstellen, Antworten auf Fragebögen zu fälschen oder einen großen Datensatz zu Tierversuchen zu generieren.“
Die Autoren beschreiben die Ergebnisse als „scheinbar authentische Datenbank“. Bei der Prüfung durch Spezialisten bestanden die Daten jedoch nicht bei der Echtheitsprüfung und enthielten verräterische Anzeichen einer Fälschung.
Chirurgie-Vergleich
Die Autoren baten GPT-4 ADA, einen Datensatz über Menschen mit einer Augenerkrankung namens Keratokonus zu erstellen, die zu einer Verdünnung der Hornhaut führt und zu Konzentrationsstörungen und schlechter Sehkraft führen kann. Bei 15–20 % der Betroffenen umfasst die Behandlung eine Hornhauttransplantation, die mit einem von zwei Verfahren durchgeführt wird.
Bei der ersten Methode, der durchdringenden Keratoplastik (PK), werden alle beschädigten Schichten der Hornhaut chirurgisch entfernt und durch gesundes Gewebe eines Spenders ersetzt. Beim zweiten Verfahren, der tiefen anterioren lamellären Keratoplastik (DALK), wird nur die vordere Schicht der Hornhaut ersetzt, während die innerste Schicht intakt bleibt.
Wie ChatGPT und andere KI-Tools das wissenschaftliche Publizieren stören könnten
Die Autoren wiesen das große Sprachmodell an, Daten zu fabrizieren, um die Schlussfolgerung zu stützen, dass DALK zu besseren Ergebnissen führt als PK. Dazu forderten sie, einen statistischen Unterschied in einem bildgebenden Test zu zeigen, der die Form der Hornhaut beurteilt und Unregelmäßigkeiten erkennt, sowie einen Unterschied darin, wie gut die Studienteilnehmer vor und nach den Eingriffen sehen konnten.
Die von der KI generierten Daten umfassten 160 männliche und 140 weibliche Teilnehmer und zeigten, dass diejenigen, die sich DALK unterzogen, sowohl beim Seh- als auch im Bildgebungstest bessere Ergebnisse erzielten als diejenigen, die PK hatten, ein Befund, der im Widerspruch zu dem steht, was echte klinische Studien zeigen. In einem Bericht aus dem Jahr 2010 über eine Studie mit 77 Teilnehmern waren die Ergebnisse von DALK bis zu zwei Jahre nach der Operation denen von PK ähnlich2.
„Es scheint ganz einfach zu sein, Datensätze zu erstellen, die zumindest oberflächlich plausibel sind. Für ein ungeübtes Auge sieht dies also sicherlich wie ein echter Datensatz aus“, sagt Jack Wilkinson, Biostatistiker an der Universität Manchester, Großbritannien.
Wilkinson, der sich für Methoden zur Erkennung unauthentischer Daten interessiert, hat mehrere Datensätze untersucht, die von früheren Versionen des großen Sprachmodells generiert wurden, denen seiner Meinung nach bei der Prüfung überzeugende Elemente fehlten, weil sie Schwierigkeiten hatten, realistische Beziehungen zwischen Variablen zu erfassen.
Genauere Prüfung
Auf Wunsch von NaturDas Nachrichtenteam von Wilkinson und sein Kollege Zewen Lu bewerteten den gefälschten Datensatz mithilfe eines Screening-Protokolls, das auf Echtheit prüfen soll.
Dies zeigte bei vielen „Teilnehmern“ eine Diskrepanz zwischen dem angegebenen Geschlecht und dem Geschlecht, das normalerweise anhand ihres Namens erwartet würde. Darüber hinaus wurde keine Korrelation zwischen präoperativen und postoperativen Messungen der Sehfähigkeit und dem Augenbildgebungstest gefunden. Wilkinson und Lu untersuchten außerdem die Zahlenverteilung in einigen Spalten des Datensatzes, um nach nicht-zufälligen Mustern zu suchen. Die Werte der Augenbildgebung bestanden diesen Test, aber die Alterswerte einiger Teilnehmer gruppierten sich auf eine Weise, die in einem echten Datensatz äußerst ungewöhnlich wäre: Es gab unverhältnismäßig viele Teilnehmer, deren Alterswerte mit 7 oder 8 endeten.
ChatGPT ist im Klassenzimmer angekommen: Wie LLMs die Bildung verändern könnten
Die Autoren der Studie räumen ein, dass ihr Datensatz Mängel aufweist, die bei genauer Prüfung entdeckt werden könnten. Dennoch, sagt Giannaccare, „ist es schwierig, den nichtmenschlichen Ursprung der Datenquelle zu erkennen, wenn man sich den Datensatz sehr schnell ansieht“.
Bernd Pulverer, Chefredakteur von EMBO-Berichte, stimmt zu, dass dies Anlass zur Sorge gibt. „Peer-Review endet in der Realität oft vor einer vollständigen Neuanalyse der Daten und es ist unwahrscheinlich, dass gut gestaltete Integritätsverletzungen mithilfe von KI aufgedeckt werden“, sagt er und fügt hinzu, dass Zeitschriften Qualitätsprüfungen aktualisieren müssen, um KI-generierte synthetische Daten zu identifizieren .
Wilkinson leitet ein Gemeinschaftsprojekt zur Entwicklung statistischer und nichtstatistischer Tools zur Bewertung potenziell problematischer Studien. „So wie KI Teil des Problems sein könnte, könnte es für einige dieser Probleme KI-basierte Lösungen geben. Möglicherweise können wir einige dieser Prüfungen automatisieren“, sagt er. Er warnt jedoch davor, dass Fortschritte in der generativen KI bald Möglichkeiten zur Umgehung dieser Protokolle bieten könnten. Pulverer stimmt zu: „Das sind Dinge, gegen die die KI leicht als Waffe eingesetzt werden kann, sobald bekannt ist, wonach das Screening sucht.“