× schließen
Bildnachweis: Unsplash/CC0 Public Domain
Für eine aktuelle Studie erstellten UKB-Forscher zwei Sätze mit 25 Multiple-Choice-Fragen (MCQs) mit jeweils fünf möglichen Antworten, von denen eine richtig war. Der erste Satz Fragen wurde von einem erfahrenen medizinischen Dozenten verfasst; Der zweite Satz wurde von chatgpt erstellt. 161 Studierende beantworteten alle Fragen in zufälliger Reihenfolge. Bei jeder Frage gaben die Studierenden auch an, ob sie ihrer Meinung nach von einem Menschen oder von ChatGPT erstellt wurde.
Matthias Laupichler, einer der Studienautoren und wissenschaftlicher Mitarbeiter am Institut für Medizindidaktik am UKB, erklärt: „Wir waren überrascht, dass die Schwierigkeit von menschengenerierten und ChatGPT-generierten Fragen nahezu identisch war. Umso überraschender ist das für uns.“ In fast der Hälfte der Fälle konnten die Studierenden den Ursprung der Frage nicht richtig identifizieren.“
„Obwohl die Ergebnisse offensichtlich in weiteren Studien repliziert werden müssen, scheint die automatisierte Generierung von Prüfungsfragen mithilfe von ChatGPT und Co. ein vielversprechendes Werkzeug für das Medizinstudium zu sein.“
Seine Kollegin und Co-Autorin der Studie, Johanna Rother, ergänzt: „Dozenten können mit ChatGPT Ideen für Prüfungsfragen generieren, die dann von den Dozenten geprüft und ggf. überarbeitet werden.“ Unserer Meinung nach jedoch insbesondere Studierende Profitieren Sie von der automatisierten Generierung ärztlicher Praxisfragen, denn es ist längst bekannt, dass die Selbstüberprüfung des eigenen Wissens sehr lernfördernd ist.“
Tobias Raupach, Leiter des Instituts für Medizindidaktik, führt weiter aus: „Aus früheren Studien wussten wir, dass Sprachmodelle wie ChatGPT die Fragen in medizinischen Staatsexamen beantworten können. Wir haben nun erstmals gezeigt, dass die Software auch dazu genutzt werden kann.“ schreiben Sie neue Fragen, die sich kaum von denen erfahrener Lehrer unterscheiden.“
Tizian Kaiser, der im siebten Semester Humanmedizin studiert, kommentiert: „Bei der Arbeit an der Probeklausur war ich ziemlich überrascht, wie schwierig es für mich war, die Fragen voneinander zu unterscheiden. Mein Ansatz war, die Fragen anhand zu unterscheiden.“ ihre Länge, die Komplexität ihres Satzbaus und die Schwierigkeit ihres Inhalts.“
„Aber ehrlich gesagt musste ich in manchen Situationen einfach raten und die Auswertung ergab, dass ich sie kaum unterscheiden konnte. Das führt mich zu der Überzeugung, dass eine sinnvolle Wissensabfrage, wie in dieser Prüfung, auch ausschließlich durch möglich ist Fragen der KI.“
Er ist überzeugt, dass ChatGPT großes Potenzial für das Lernen von Studierenden hat. Es ermöglicht den Schülern, das Gelernte auf unterschiedliche Weise und auf unterschiedliche Weise immer wieder zu wiederholen.
„Es besteht die Möglichkeit, sich von der KI zu vordefinierten Themen abfragen zu lassen, Probeklausuren entwerfen zu lassen oder mündliche Prüfungen schriftlich zu simulieren. Die Wiederholung des Stoffs wird so auf das Prüfungskonzept abgestimmt und die Trainingsmöglichkeiten sind grenzenlos“, sagt der Studienteilnehmer und qualifizieren gleichzeitig: „Ich würde Chat-GPT jedoch nur für diesen Zweck nutzen und nicht vorher im Lernprozess, in dem die Studienthemen erarbeitet und zusammengefasst werden müssen.“
„Da sich Chat-GPT hervorragend für Wiederholungen eignet, befürchte ich, dass es bei der Aufbereitung von Lerninhalten zu Fehlern kommen kann. Ohne einen vorherigen Überblick über das Thema würden mir diese Fehler nicht auffallen.“
Aus anderen Studien ist bekannt, dass regelmäßiges Testen – auch und gerade ohne Benotung – dazu beiträgt, dass Studierende sich Lerninhalte nachhaltiger merken. Solche Tests können mittlerweile mit geringem Aufwand erstellt werden. Allerdings soll die aktuelle Studie zunächst auf andere Kontexte (z. B. andere Fächer, Semester und Länder) übertragen werden und untersucht werden, ob ChatGPT auch andere Fragen als die in der Medizin häufig verwendeten Multiple-Choice-Fragen schreiben kann.
Die Forschung ist veröffentlicht in Akademische Medizin.
Mehr Informationen: Matthias Carl Laupichler et al, Large Language Models in Medical Education: Comparing ChatGPT- to Human-Generated Exam Questions, Akademische Medizin (2024). DOI: 10.1097/ACM.0000000000005626