Drei Medizinwissenschaftler haben von chatgpt erfundene Testreihen für ein Forschungsprojekt genutzt, mit dem sie auf die Gefahren von Künstlicher Intelligenz hinweisen wollten. Mit ihrem Ansatz wiesen die Autoren scheinbar nach, dass eine bestimmte augenchirurgische Behandlungsmethode einer anderen überlegen sei – mit Daten, die mit GPT-4 und ADA (Advanced Data Analysis) erzeugt wurden. Darüber berichtet Nature.
Anzeige
Gewünschte Fake-Testreihen in Minuten erzeugt
Einer der Autoren, der Augenchirurg Giuseppe Giannaccare, äußerte sich zum Ziel des Projekts: Es habe vorführen sollen, wie man in wenigen Minuten überzeugende Datensätze von einer KI erhalten könne, die frei erfunden seien und jeglichen bisherigen Erkenntnissen widersprechen könnten. Damit ließen sich etwa Testreihen von nicht existierenden Patienten erstellen oder angebliche Umfrageergebnisse oder große Datensätze aus vorgeblichen Tierversuchsreihen.
Die Autoren beschreiben das Ergebnis ihres Vorhabens als einen realistisch erscheinenden Datenbestand. Bei Prüfung durch (menschliche) Spezialisten stellten sich diese ‚Ergebnisse‘ jedoch bald als Fälschung heraus, etwa weil sie unplausibel waren oder bestimmte Häufungen eine freie Erfindung verrieten. Die Autoren hatten GPT-4 ADA aufgefordert, eine Datensammlung von Patienten mit einer spezifischen Augenerkrankung zu erstellen (Hornhautkegel, Keratokornus). Sie verlangten von dem KI-Modell, dass die Daten eine bestimmte chirurgische Behandlungsmethode dieser Erkrankung als besser geeignet darstelle als eine andere: Dazu sollte die KI einen statistischen Unterschied in einem bildgebenden Test ausweisen, der die Form der Hornhaut beurteilt und Unregelmäßigkeiten aufdeckt, sowie einen Unterschied in der Sehkraft der Studienteilnehmer (160 erfundene Männer und 140 erfundene Frauen) vor und nach den Eingriffen.
Die Ergebnisse seien für Ungeübte nicht von echten Untersuchungen mit wirklich erhobenen Daten zu unterscheiden, zitiert Nature einen der Autoren. Das Magazin beauftragte zudem zwei Spezialisten mit einer Prüfung der Ergebnisse. Sie entdeckten schnell Unstimmigkeiten, etwa zwischen dem Namen und dem Geschlecht der vermeintlichen Teilnehmer. Außerdem habe sich mitunter keine Korrelation zwischen vor- und nachoperativen Messergebnissen einzelner Teilnehmer feststellen lassen. Solche Prüfungen auf Plausibilität könnten automatisiert werden und helfen, derartige KI-Erfindungen in den Wissenschaften aufzudecken.
(tiw)