Dieser Artikel ist Teil unserer Berichterstattung über die neuesten Entwicklungen in der KI-Forschung.
Eine der interessanten Fähigkeiten großer Sprachmodelle (LLM) wie chatgpt und Bard ist die Selbsterklärung. Diese Modelle können Schritt-für-Schritt-Details zur Lösung komplexer mathematischer Probleme liefern oder die Stimmungsanalyse in Film- oder Buchrezensionen erläutern. Aber spiegeln diese Erklärungen wirklich das Innenleben des Modells wider oder bieten sie lediglich eine Fassade der Transparenz, losgelöst vom eigentlichen Vorhersageprozess?
A Kürzlich durchgeführte Studie Forscher der University of California, Santa Cruz und des MIT versuchen, diese Frage zu beantworten. Die Wissenschaftler vergleichen die Selbsterklärung mit anderen traditionellen Methoden zur Interpretation der Vorhersagen maschineller Lernmodelle. Ihre Ergebnisse bieten wertvolle Einblicke in die Wirksamkeit verschiedener Erklärungstechniken. Vor allem stellen sie fest, dass Selbsterklärung zwar die Transparenz erhöht, dies jedoch auf Kosten der Modellgenauigkeit geht.
Traditionelle ML-Erklärungen vs. Selbsterklärung
Die traditionelle Art, die Entscheidungen von Modellen des maschinellen Lernens zu interpretieren, ist die „Merkmalszuordnung“. Dieser Methodensatz bewertet, wie verschiedene Elemente der Eingabe des Modells zu seiner Ausgabe beitragen. Beispielsweise erzeugen Erklärbarkeitstechniken in Bildklassifizierern häufig Wärme- oder Ausprägungskarten. Diese Karten heben Bereiche im Bild hervor, die für die vom Modell zugewiesene Klasse relevant sind.
In Anwendungen zur Verarbeitung natürlicher Sprache, wie z. B. Stimmungsanalyse oder Textklassifizierung, weist die Merkmalszuordnung typischerweise Bewertungen verschiedenen Wörtern im Eingabesatz zu und gibt so deren Relevanz für die Ausgabeklasse an.
Im Gegensatz dazu verfügen LLMs über die einzigartige Fähigkeit, ihre Ergebnisse selbst zu erklären. Wenn beispielsweise ein LLM eine Produktbewertung als positiv einstuft, kann er auch eine Erklärung für diese Einstufung liefern. Zur Selbsterklärung gibt es im Wesentlichen zwei Methoden. Der erste ist der „Explain-then-Predict“ (EP)-Ansatz, bei dem das Modell zunächst eine Erklärung generiert und dann darauf basierend eine Vorhersage trifft. Der zweite ist der „Predict-and-Explain“-Ansatz (PE), bei dem das Modell zunächst eine Vorhersage trifft und diese dann erklärt. Diese Selbsterklärungsfähigkeiten von LLMs bieten eine neue Dimension für das Verständnis ihrer Ergebnisse.
Vergleich der LLM-Erklärungsmethoden
In ihrer Studie verwendeten die Forscher Sentiment-Analysebeispiele mit ChatGPT, um Feature-Attribution-Methoden wie LIME mit den beiden Selbsterklärungsmethoden zu vergleichen. Um die Selbsterklärung besser zu verstehen, verwendeten sie unterschiedliche Aufforderungs- und Anweisungsformate.
In einigen Experimenten gaben sie dem Modell explizite Anweisungen, eine Liste der Top-k-Wörter auszugeben, die es als relevant für seine Vorhersage identifizierte. In anderen Fällen verlangten sie vom Modell, jedem Wort einen Relevanzwert zuzuweisen. Sie wiesen das Modell außerdem an, einen Konfidenzwert für seine Vorhersage bereitzustellen.
Die Forscher verglichen Selbsterklärung und traditionelle Erklärungsmethoden an zwei Hauptaspekten: einer Reihe von Maßstäben zur Bewertung der Treue und einer Reihe von Messungen der Unstimmigkeiten zwischen Erklärungstechniken. Herkömmliche Erklärungsmethoden erfordern Zugriff auf Modellgewichte und -gradienten, was mit geschlossenen Modellen wie ChatGPT nicht möglich ist. Um dies zu umgehen, verwendeten die Forscher die „Okklusionsmethode“. Dazu musste dieselbe Eingabeaufforderung mehrmals in ChatGPT ausgeführt werden, wobei jedes Mal bestimmte Wörter entfernt wurden, um deren Auswirkungen auf die Ausgabe des Modells zu beobachten. Sie verwendeten diese Methode, um die Wichtigkeit jedes Wortes einzustufen.
Um die Treue der Erklärungsmethoden zu messen, verwendeten sie verschiedene Techniken. Sie entfernten beispielsweise die Top-K-Wörter, die als am wichtigsten gemeldet wurden, um zu sehen, ob sie die Entscheidung des Modells veränderten.
Genauigkeit vs. Interpretierbarkeit
Die Forscher testeten die Erklärungstechniken anhand eines Datensatzes von Filmkritiken und den dazugehörigen Stimmungen. Sie fanden heraus, dass die Leistung von Selbsterklärungen mit herkömmlichen Methoden zur Treuebewertung vergleichbar ist. Dies bedeutet, dass sie in der Regel die eingegebenen Wörter hervorheben, die zu Recht mit der gekennzeichneten Stimmung in Verbindung gebracht wurden.
Da herkömmliche Methoden wie LIME mehrere Eingabeaufforderungen an ChatGPT erfordern, können sie zeitaufwändig und kostspielig sein. Dies macht die Selbsterklärung zu einem brauchbaren Ersatz.
Die Forscher fanden heraus, dass verschiedene Aufforderungstechniken zur Selbsterklärung „intuitiv sinnvoll waren, um Wörter mit starken intrinsischen Gefühlswerten hervorzuheben“. Allerdings beobachteten sie auch einen Rückgang der Gesamtgenauigkeit des Modells, als es gebeten wurde, seine Vorhersage zu erklären. Die Forscher gehen davon aus, dass „Merkmalszuordnungserklärungen möglicherweise nicht die beste Erklärungsform für die Stimmungsanalyse sind, was das Modell in einen unangenehmen Kompromiss zwischen Genauigkeit und Interpretierbarkeit zwingt.“
Interessanterweise stellten sie auch ein hohes Maß an Unstimmigkeiten zwischen verschiedenen Erklärungsmethoden fest, was den Bewertungsprozess erschwerte. „Wir stellen fest, dass Erklärungen, die bei Treuemetriken ähnlich abschneiden, auch große Unstimmigkeiten aufweisen (beim ChatGPT-Modell)“, stellten die Forscher fest.
Wichtig ist, dass die Forscher zu dem Schluss kommen, dass „die klassische Interpretierbarkeitspipeline der Definition und Bewertung von Modellerklärungen für diese LLMs mit recht menschenähnlichen Denkfähigkeiten grundsätzlich ungeeignet sein könnte.“ Angesichts des Mangels an früheren Arbeiten zur Untersuchung von LLM-generierten Erklärungen zur Merkmalszuordnung räumten sie ein, dass „unsere Lösung wahrscheinlich nicht optimal ist und bessere Wege zur Herbeiführung von Selbsterklärungen entwickelt werden könnten.“
Diese Arbeit ist Teil der umfassenderen Bemühungen, die Argumentationsfähigkeiten von LLMs wie ChatGPT zu untersuchen. Es ist allgemein anerkannt, dass diese Fähigkeiten begrenzt sind oder sich zumindest stark von denen des Menschen unterscheiden. Ein besseres Verständnis, die Nutzung und die Verbesserung der Argumentation in LLMs werden für die Erstellung robuster Anwendungen mit diesen Modellen von entscheidender Bedeutung sein.