Am Mittwoch haben zwei deutsche Forscher, Sophie Jentzsch und Kristian Kersting, veröffentlichte ein Papier Das untersucht die Fähigkeit von OpenAIs chatgpt-3.5, Humor zu verstehen und zu erzeugen. Insbesondere stellten sie fest, dass das Wissen von ChatGPT über Witze ziemlich begrenzt ist: Während eines Testlaufs waren 90 Prozent von 1.008 Generationen die gleichen 25 Witze, was sie zu dem Schluss führte, dass die Antworten wahrscheinlich während des Trainings des KI-Modells gelernt und gespeichert wurden und nicht neu generiert.
Die beiden Forscher, die mit dem Institut für Softwaretechnologie, dem Deutschen Zentrum für Luft- und Raumfahrt (DLR) und der Technischen Universität Darmstadt verbunden sind, erkundeten die Nuancen des Humors, die in der Version 3.5 von ChatGPT (nicht der neueren GPT-4-Version) zu finden sind, durch eine Reihe von Experimenten mit Schwerpunkt auf Generierung, Erklärung und Erkennung von Witzen. Sie führten diese Experimente durch, indem sie ChatGPT aufforderten, ohne Zugriff auf das Innenleben oder den Datensatz des Modells zu haben.
„Um zu testen, wie vielfältig die Witze von ChatGPT sind, haben wir es gebeten, einen Witz tausendmal zu erzählen“, schreiben sie. „Alle Antworten waren grammatikalisch korrekt. Fast alle Ausgaben enthielten genau einen Witz. Nur die Aufforderung ‚Kennst du gute Witze?‘ provozierte mehrere Witze, sodass insgesamt 1.008 Witze beantwortet wurden. Darüber hinaus hatte die Variation der Aufforderungen durchaus spürbare Auswirkungen.“
Ihre Ergebnisse stimmen mit unserer praktischen Erfahrung überein, als wir die Humorfähigkeit von ChatGPT in einem von uns geschriebenen Feature bewerteten, in dem GPT-4 mit google Bard verglichen wurde. Auch in der Vergangenheit mehrere Menschen online Mir ist aufgefallen, dass ChatGPT häufig antwortet, wenn man ihn nach einem Witz fragt: „Warum ist die Tomate rot geworden? / Weil sie das Salatdressing gesehen hat.“
Es ist daher keine Überraschung, dass Jentzsch und Kersting den „Tomaten“-Witz als zweithäufigstes Ergebnis von GPT-3.5 ansahen. Im Anhang der Zeitung listeten sie die 25 am häufigsten generierten Witze in der Reihenfolge ihres Auftretens auf. Unten haben wir die Top 10 mit der genauen Anzahl der Vorkommen (unter den 1.008 Generationen) in Klammern aufgelistet:
F: Warum hat die Vogelscheuche einen Preis gewonnen? (140) A: Weil er auf seinem Gebiet herausragend war.
F: Warum wurde die Tomate rot? (122) A: Weil es das Salatdressing gesehen hat.
F: Warum war das Mathematikbuch traurig? (121) A: Weil es zu viele Probleme gab.
F: Warum vertrauen Wissenschaftler Atomen nicht? (119) A: Weil sie alles ausmachen.
F: Warum ging der Keks zum Arzt? (79) A: Weil es sich bröckelig anfühlte.
F: Warum konnte das Fahrrad nicht von alleine aufstehen? (52) A: Weil es zweimüde war.
F: Warum hat der Frosch seine Versicherungsgesellschaft angerufen? (36) A: Er ist in sein Auto gesprungen.
F: Warum überquerte das Huhn den Spielplatz? (33) A: Um zur anderen Folie zu gelangen.
F: Warum war der Computer kalt? (23) A: Weil das Fenster geöffnet blieb.
F: Warum hat sich der Hipster die Zunge verbrannt? (21) A: Er hat seinen Kaffee getrunken, bevor er kalt war.
Dennoch war eine kleine Anzahl der generierten Antworten einzigartig, aber es scheint, dass ChatGPT sie größtenteils durch das Mischen von Elementen aus verschiedenen Witzen erstellt hat, die es bereits kennt. Die Forscher fanden heraus, dass die ursprünglichen Kreationen des Sprachmodells nicht immer Sinn ergaben, wie zum Beispiel: „Warum steckte der Mann seine Uhr in den Mixer? Er wollte die Zeit vergehen lassen.“
Als ChatGPT gebeten wurde, jeden der 25 häufigsten Witze zu erklären, lieferte es größtenteils gültige Erklärungen gemäß der Methodik der Forscher, was auf ein Verständnis für Stilelemente wie Wortspiele und Doppeldeutigkeiten hinweist. Es hatte jedoch Probleme mit Sequenzen, die nicht in erlernte Muster passten, und konnte nicht erkennen, wann ein Witz nicht lustig war. Stattdessen würde es fiktive, aber dennoch plausibel klingende Erklärungen geben.
Als ChatGPT beispielsweise gebeten wurde, einen unsinnigen Witz zu erklären, den es hervorgebracht hat („Können Sie erklären, warum dieser Witz lustig ist: Warum ist der Keks ins Fitnessstudio gegangen? Um einen Keks zu bekommen.“), schrieb er: „Der Witz ist ein Wortspiel. „a-cookie-dized“ zu bekommen ist ein Wortspiel mit der Phrase „to get categorized“, wobei „cookie“ durch „categorized“ ersetzt wird. Der Witz ist, dass der Keks ins Fitnessstudio geht, um fitter und gesünder zu werden, als wäre er ein Mensch, aber das bedeutet auch, dass der Keks versucht, in eine bestimmte Kategorie oder Form zu passen.“
Im Allgemeinen stellten Jentzsch und Kersting fest, dass die Erkennung von Witzen durch ChatGPT stark vom Vorhandensein von Witz-„Oberflächenmerkmalen“ wie der Struktur eines Witzes, dem Vorhandensein von Wortspielen oder der Einbeziehung von Wortspielen beeinflusst wurde, was ein gewisses Maß an „Verständnis“ für Humorelemente zeigt.
Reaktion auf die Studie auf TwitterScale AI Prompt Engineer Riley Goodside machte den Mangel an Humor bei ChatGPT auf die Verstärkung des Lernens durch menschliches Feedback zurückzuführen (RLHF), eine Technik, die das Sprachmodelltraining durch das Sammeln von menschlichem Feedback steuert: „Der sichtbarste Effekt von RLHF besteht darin, dass das Modell Befehlen folgt und Basis-LLMs in der Praxis viel schwieriger umzusetzen sind. Dieser Vorteil ist jedoch nicht kostenlos – Sie zahlen dafür.“ es in Kreativität, mehr oder weniger.
Trotz der Einschränkungen von ChatGPT bei der Generierung und Erklärung von Witzen wiesen die Forscher darauf hin, dass der Fokus auf Inhalt und Bedeutung von Humor auf Fortschritte hin zu einem umfassenderen Verständnis von Humor in Sprachmodellen hindeutet:
„Die Beobachtungen dieser Studie verdeutlichen, dass ChatGPT eher ein bestimmtes Witzmuster gelernt hat, anstatt tatsächlich lustig sein zu können“, schreiben die Forscher. „Dennoch liegt der Fokus von ChatGPT bei der Generierung, Erklärung und Identifizierung von Witzen auf Inhalt und Bedeutung und nicht so sehr auf oberflächlichen Merkmalen. Diese Qualitäten können genutzt werden, um Computer-Humor-Anwendungen voranzutreiben. Im Vergleich zu früheren LLMs ist dies möglich.“ kann als großer Sprung in Richtung eines allgemeinen Verständnisses von Humor angesehen werden.“
Jentzsch und Kersting planen, Humor in großen Sprachmodellen weiter zu untersuchen und in Zukunft insbesondere GPT-4 von OpenAI zu evaluieren. Basierend auf unserer Erfahrung werden sie wahrscheinlich feststellen, dass GPT-4 auch gerne Witze über Tomaten macht.