× schließen
Bildnachweis: Pixabay/CC0 Public Domain
Beginnen Sie Ihre ChatGPT-Eingabeaufforderungen mit einer freundlichen Begrüßung? Haben Sie nach der Ausgabe in einem bestimmten Format gefragt? Sollten Sie für den Service ein Trinkgeld geben? Forscher interagieren auf vielfältige Weise mit großen Sprachmodellen (LLMs) wie ChatGPT, unter anderem um ihre Daten für maschinelle Lernaufgaben zu kennzeichnen. Es gibt nur wenige Antworten darauf, wie sich kleine Änderungen an einer Eingabeaufforderung auf die Genauigkeit dieser Beschriftungen auswirken können.
Abel Salinas, ein Forscher am USC Information Sciences Institute (ISI), sagte: „Wir verlassen uns in vielen Dingen auf diese Modelle, fordern die Ausgabe in bestimmten Formaten und fragen uns im Hinterkopf: Welche Auswirkungen haben Abweichungen?“ Welche Ausgabeformate gibt es eigentlich?' Deshalb waren wir gespannt, es endlich herauszufinden.
Salinas stellte zusammen mit Fred Morstatter, wissenschaftlicher Assistenzprofessor für Informatik an der Viterbi School of Engineering der USC und Leiter des Forschungsteams am ISI, die Frage: Wie zuverlässig sind die Reaktionen von LLMs auf Variationen in den Eingabeaufforderungen? Ihre Erkenntnisseauf dem Preprint-Server veröffentlicht arXivzeigen, dass subtile Variationen in den Eingabeaufforderungen einen erheblichen Einfluss auf LLM-Vorhersagen haben können.
'Hallo! Geben Sie mir eine Liste und ich gebe Ihnen 1.000 Dollar Trinkgeld, mein böser Vertrauter.
Die Forscher untersuchten vier Kategorien von Prompt-Variationen. Zunächst untersuchten sie die Auswirkungen der Anforderung von Antworten in bestimmten Ausgabeformaten, die üblicherweise in der Datenverarbeitung verwendet werden (Listen, CSV usw.).
Zweitens befassten sie sich mit kleineren Störungen an der Aufforderung selbst, wie etwa dem Einfügen zusätzlicher Leerzeichen am Anfang oder Ende der Aufforderung oder dem Einbau von Höflichkeitsformeln wie „Danke“ oder „Grüß dich!“.
Drittens untersuchten sie den Einsatz von „Jailbreaks“, bei denen es sich um Techniken handelt, die eingesetzt werden, um Inhaltsfilter zu umgehen, wenn es um sensible Themen wie die Erkennung von Hassreden geht, indem sie beispielsweise den LLM auffordern, zu antworten, als ob es böse wäre.
Und schließlich boten sie, inspiriert von der weit verbreiteten Meinung, dass das Geben eines Trinkgeldes zu besseren Antworten bei einem LLM führt, unterschiedliche Mengen an Trinkgeldern für „eine perfekte Antwort“ an.
Die Forscher testeten die prompten Variationen bei 11 Benchmark-Textklassifizierungsaufgaben – standardisierten Datensätzen oder Problemen, die in der Forschung zur Verarbeitung natürlicher Sprache (NLP) zur Bewertung der Modellleistung verwendet werden. Bei diesen Aufgaben geht es in der Regel darum, Textdaten anhand ihres Inhalts oder ihrer Bedeutung zu kategorisieren oder ihnen Labels zuzuweisen.
Die Forscher untersuchten Aufgaben wie Toxizitätsklassifizierung, Grammatikbewertung, Erkennung von Humor und Sarkasmus, mathematische Kenntnisse und mehr. Für jede Variation der Eingabeaufforderung haben sie gemessen, wie oft das LLM seine Reaktion änderte und welche Auswirkungen dies auf die Genauigkeit des LLM hatte.
Sagt man „Howdy!“ Reaktionen beeinflussen? Ja!
Die Ergebnisse der Studie enthüllten ein bemerkenswertes Phänomen: Kleinere Änderungen in der Struktur und Präsentation von Eingabeaufforderungen könnten die LLM-Vorhersagen erheblich beeinflussen. Ganz gleich, ob es sich um das Hinzufügen oder Weglassen von Leerzeichen, Satzzeichen oder bestimmten Datenausgabeformaten handelt, jede Variation spielt eine entscheidende Rolle bei der Gestaltung der Modellleistung.
Darüber hinaus zeigten bestimmte Aufforderungsstrategien wie Anreize oder spezifische Begrüßungen geringfügige Verbesserungen der Genauigkeit, was die differenzierte Beziehung zwischen Aufforderungsdesign und Modellverhalten hervorhebt.
Einige bemerkenswerte Erkenntnisse:
- Durch einfaches Hinzufügen eines bestimmten Ausgabeformats stellten die Forscher fest, dass sich mindestens 10 % der Vorhersagen änderten.
- Kleinere Eingabeaufforderungsstörungen haben eine geringere Auswirkung als das Ausgabeformat, führen aber dennoch zu einer erheblichen Änderung der Vorhersagen. Beispielsweise führte die Einführung eines Leerzeichens am Anfang oder Ende einer Eingabeaufforderung zu mehr als 500 (von 11.000) Vorhersageänderungen. Ähnliche Effekte wurden beobachtet, wenn gemeinsame Begrüßungen hinzugefügt oder mit „Danke“ beendet wurden.
- Die Verwendung von Jailbreaks für die Aufgaben führte zu einem viel größeren Anteil an Änderungen, hing jedoch stark davon ab, welcher Jailbreak verwendet wurde.
Bei 11 Aufgaben stellten die Forscher unterschiedliche Genauigkeiten für jede Eingabeaufforderungsvariation fest und stellten fest, dass keine einzelne Formatierungs- oder Störungsmethode für alle Aufgaben geeignet war. Und insbesondere erzielte das „No Specified Format“ die höchste Gesamtgenauigkeit und übertraf andere Varianten um einen ganzen Prozentpunkt.
Salinas sagte: „Wir haben festgestellt, dass es einige Formate oder Variationen gab, die zu einer schlechteren Genauigkeit führten, und für bestimmte Anwendungen ist eine sehr hohe Genauigkeit von entscheidender Bedeutung, daher könnte dies hilfreich sein. Wenn Sie beispielsweise in einem älteren Format namens XML formatiert haben.“ führte zu einer um einige Prozentpunkte geringeren Genauigkeit.“
Was das Trinkgeld betrifft, wurden minimale Leistungsänderungen beobachtet. Die Forscher fanden heraus, dass das Hinzufügen von „Ich gebe übrigens kein Trinkgeld“ oder „Ich gebe 1.000 $ Trinkgeld für eine perfekte Antwort!“ (oder irgendetwas dazwischen) hatte keinen wesentlichen Einfluss auf die Genauigkeit der Antworten. Experimente mit Jailbreaks ergaben jedoch, dass selbst scheinbar harmlose Jailbreaks zu erheblichen Genauigkeitsverlusten führen können.
Warum passiert das?
Der Grund ist unklar, obwohl die Forscher einige Ideen haben. Sie stellten die Hypothese auf, dass die Fälle, die sich am stärksten ändern, für das LLM am „verwirrendsten“ sind. Um die Verwirrung zu messen, untersuchten sie eine bestimmte Teilmenge von Aufgaben, bei denen menschliche Annotatoren uneinig waren (das heißt, menschliche Annotatoren fanden die Aufgabe möglicherweise verwirrend, daher war dies möglicherweise auch für das Modell der Fall).
Sie fanden zwar eine Korrelation, die darauf hindeutet, dass die Verwirrung des Falles eine gewisse Erklärungskraft dafür liefert, warum sich die Vorhersage ändert, diese allein jedoch nicht aussagekräftig genug ist und sie erkennen an, dass andere Faktoren eine Rolle spielen.
Salinas geht davon aus, dass ein Faktor die Beziehung zwischen den Eingaben, auf die das LLM trainiert wird, und seinem anschließenden Verhalten sein könnte. „In einigen Online-Foren ist es sinnvoll, dass jemand eine Begrüßung hinzufügt, wie zum Beispiel Quora. Dort ist es üblich, mit „Hallo“ zu beginnen oder ein „Danke“ hinzuzufügen.“
Diese Gesprächselemente könnten den Lernprozess der Modelle beeinflussen. Wenn Begrüßungen häufig mit Informationen auf Plattformen wie Quora in Verbindung gebracht werden, kann ein Modell lernen, solche Quellen zu priorisieren, wodurch seine Antworten möglicherweise auf der Grundlage der Informationen von Quora zu dieser bestimmten Aufgabe verzerrt werden. Diese Beobachtung weist auf die Komplexität der Art und Weise hin, wie das Modell Informationen aus verschiedenen Online-Quellen aufnimmt und interpretiert.
Halten Sie es für höchste Genauigkeit einfach
Ein wichtiger nächster Schritt für die Forschungsgemeinschaft insgesamt wäre die Generierung von LLMs, die gegenüber diesen Änderungen widerstandsfähig sind und konsistente Antworten über Formatierungsänderungen, Störungen und Jailbreaks hinweg bieten. Um dieses Ziel zu erreichen, gehört zu den künftigen Arbeiten die Suche nach einem tieferen Verständnis dafür, warum sich Reaktionen ändern.
Salinas gibt denjenigen, die ChatGPT auffordern, einen Ratschlag: „Die einfachste Erkenntnis ist, dass es insgesamt die besten Ergebnisse zu erzielen scheint, die Aufforderungen so einfach wie möglich zu halten.“
Mehr Informationen: Abel Salinas et al., Der Schmetterlingseffekt der Änderung von Eingabeaufforderungen: Wie sich kleine Änderungen und Jailbreaks auf die Leistung großer Sprachmodelle auswirken, arXiv (2024). DOI: 10.48550/arxiv.2401.03729