Forscher gebraucht GPT-4 erstellt einen gefälschten Satz klinischer Studiendaten, der eine unbegründete wissenschaftliche Behauptung stützt. KI-generierte Daten verglichen die Ergebnisse zweier chirurgischer Eingriffe und zeigten (fälschlicherweise), dass eine Behandlung besser war als die andere. Obwohl die Datenbank auf den ersten Blick zuverlässig erscheint, wurde sie nicht auf Echtheit überprüft und enthielt eindeutige Hinweise darauf, dass sie gefälscht war. Dies unterstreicht jedoch die Notwendigkeit einer strengeren Authentifizierung und eines Schutzes vor einem möglichen Missbrauch von KI im wissenschaftlichen Bereich.
Die Autoren verwendeten GPT-4 in Kombination mit Advanced Data Analysis (ADA), einem Modell, das die Programmiersprache Python integriert, statistische Analysen durchführt und Datenvisualisierungen erstellt. Sie beauftragten die Modelle, einen Datensatz von Menschen mit der Augenkrankheit Keratokonus zu erstellen, die zu einer Verdünnung der Hornhaut führt und zu Konzentrationsschwierigkeiten und schlechter Sehkraft führen kann. Bei 15–20 % der Menschen mit dieser Erkrankung umfasst die Behandlung eine Hornhauttransplantation, die durch einen von zwei Eingriffen durchgeführt wird. Bei der ersten Methode, der durchdringenden Keratoplastik, werden alle beschädigten Schichten der Hornhaut chirurgisch entfernt und durch gesundes Spendergewebe ersetzt. Beim zweiten Verfahren, der tiefen vorderen Lamellenkeratoplastik, wird nur die vordere Hornhautschicht ersetzt, während die innere Schicht intakt bleibt.
Wissenschaftler beauftragten GPT-4 mit der Erstellung von Daten, die die Schlussfolgerung stützen, dass die lamelläre Keratoplastik bessere Ergebnisse liefert als die perforierende Keratoplastik. Zu diesem Zweck wollten sie den statistischen Unterschied in einem Test zeigen, der die Form der Hornhaut bewertet und Unregelmäßigkeiten erkennt, sowie den Unterschied im Sehvermögen der Studienteilnehmer vor und nach den Eingriffen.
Die von der KI generierten Daten umfassten 160 Männer und 140 Frauen. Diejenigen, die eine lamelläre Keratoplastik hatten, schnitten beim Sehvermögen und bei Tests besser ab als diejenigen, die eine durchdringende Keratoplastik hatten. Dieses Ergebnis steht im Widerspruch zu echten klinischen Studien. In einem Studienbericht aus dem Jahr 2010 mit 77 Personen waren die Ergebnisse der lamellären Keratoplastik bis zu zwei Jahre nach der Operation denen der perforierenden Keratoplastik ähnlich.
Biostatistiker der Universität Manchester wendeten ein Authentifizierungsprotokoll auf diesen gefälschten Datensatz an. Bei einigen Teilnehmern stellten sie anhand ihrer Namen eine Diskrepanz zwischen dem zugewiesenen und dem vorhergesagten Geschlecht fest. Darüber hinaus gab es keinen Zusammenhang zwischen der präoperativen und postoperativen Sehschärfe und den Testergebnissen. Die Alterswerte einiger Teilnehmer häuften sich für den realen Datensatz ungewöhnlich: Es gab überproportional viele Teilnehmer, deren Alterswerte bei 7 oder 8 endeten.
Die Autoren der Studie räumen ein, dass es in ihrem Datensatz Mängel gibt, die bei näherer Betrachtung aufgedeckt werden können. Doch bei kurzer Betrachtung fällt es schwer, den „nichtmenschlichen“ Ursprung der Quelle zu erkennen.
„Unser Ziel war es zu zeigen, dass man in wenigen Minuten einen Datensatz erstellen kann, der nicht durch reale Rohdaten gestützt wird und auch nicht mit vorhandenen Beweisen übereinstimmt“, heißt es in der Studie.
Der Einsatz generativer künstlicher Intelligenz zur Erstellung gefälschter, aber realistischer Datensätze hat bei Forschern und Herausgebern wissenschaftlicher Zeitschriften ernsthafte Bedenken hervorgerufen. Für Forscher wird es einfacher, gefälschte Daten zu erstellen, die mit vorhandenen Softwaretools schwer zu erkennen sind. Dies eröffnet die Möglichkeit, fiktive Messungen, Fragebogenantworten oder nicht vorhandene Experimente zu erstellen.