Sprachmodelle dominierten im letzten Jahr etwas verstohlen die Nachrichten. Diese oft als „künstliche Intelligenz“ bezeichneten Systeme liegen Chatbots wie chatgpt und google Bard zugrunde.
Doch ein Forscherteam der University of Washington stellte fest, dass es vielen Menschen trotz eines Jahres voller KI-Aufruhr schwerfällt, genaue und verständliche Informationen darüber zu finden, was Sprachmodelle sind und wie sie funktionieren. Nachrichtenartikel konzentrieren sich häufig auf die neuesten Fortschritte oder Unternehmenskontroversen, während Forschungsberichte zu technisch und detailliert für die Öffentlichkeit sind. Daher veröffentlichte das Team kürzlich „Sprachmodelle: Ein Leitfaden für Ratlose„, ein Artikel, der Sprachmodelle in Laienbegriffen erklärt.
Um Antworten auf einige häufig gestellte Fragen zu erhalten, sprach UW News mit dem Hauptautor Sofia Serrano, ein UW-Doktorand an der Paul G. Allen School of Computer Science & Engineering; Mitverfasser Zander Brumbaugh, ein Masterstudent an der Allen School; und leitender Autor Noah A. Smithein Professor an der Allen School.
Kurz gesagt: Was sind Sprachmodelle und wie funktionieren sie?
Sofia Serrano: Ein Sprachmodell ist im Wesentlichen ein Prädiktor für das nächste Wort. Es sieht sich viel Text an und stellt fest, welche Wörter normalerweise auf welche Sequenzen anderer Wörter folgen. Wenn wir über ein Sprachmodell sprechen, sprechen wir heute normalerweise von einem großen Modell für maschinelles Lernen, das viele verschiedene Zahlen, sogenannte Parameter, enthält. Diese Zahlen werden mit jedem neuen Bit an Textdaten angepasst, auf dem das Modell trainiert wird. Das Ergebnis ist eine riesige mathematische Funktion, die angesichts der Wörter, die in einer Eingabeaufforderung eingegeben wurden oder die das Modell bisher erzeugt hat, insgesamt recht gut vorhersagen kann, welche Wörter als nächstes kommen. Es stellt sich heraus, dass diese großen Modelle auch Dinge über die Struktur der Sprache und Dinge aufgreifen, die unter den Begriff des gesunden Menschenverstandes oder des Weltwissens fallen.
In der Zeitung ySie bringen die Idee der „Black Box“ zur Sprache, die sich auf die Schwierigkeit bezieht, zu wissen, was in dieser riesigen Funktion vor sich geht. Was genau verstehen Forscher noch immer nicht?
Noah Smith: Wir verstehen die mechanische Ebene sehr gut – die Gleichungen, die berechnet werden, wenn Sie Eingaben tätigen und eine Vorhersage treffen. Wir haben auch ein gewisses Verständnis auf der Ebene des Verhaltens, denn Menschen führen alle möglichen wissenschaftlichen Studien an Sprachmodellen durch, als wären sie Laborprobanden.
Meiner Ansicht nach ist die Ebene, von der wir fast kein Verständnis haben, die Mechanismen oberhalb der Zahlenverarbeitung, die irgendwie in der Mitte liegen. Gibt es Abstraktionen, die von den Funktionen erfasst werden? Gibt es eine Möglichkeit, diese Zwischenberechnungen durchzuschneiden und zu sagen: „Oh, es versteht Konzepte oder es versteht Syntax“?
Es ist nicht so, als würde man unter die Motorhaube seines Autos schauen. Jemand, der sich mit Autos auskennt, kann Ihnen erklären, was jedes Teil tut und warum es dort ist. Aber die Tools, die uns zur Verfügung stehen, um zu untersuchen, was in den Vorhersagen eines Sprachmodells vor sich geht, sind nicht besonders gut. Heutzutage gibt es Parameter zwischen einer Milliarde und vielleicht sogar einer Billion. Das sind mehr Zahlen, als irgendjemand sehen kann. Auch bei kleineren Modellen haben die Zahlen keine individuelle Bedeutung. Sie arbeiten zusammen, um aus der vorherigen Wortfolge eine Vorhersage über das nächste Wort zu machen.
Warum unterscheiden Sie zwischen KI- und Sprachmodellen?
SS: „„KI“ ist ein Überbegriff, der sich auf viele verschiedene Forschungsgemeinschaften beziehen kann, die sich darum drehen, Computer auf irgendeine Weise zum „Lernen“ zu bringen. Es kann sich aber auch auf Systeme oder Modelle beziehen, die mithilfe dieser „Lern“-Techniken entwickelt werden. Wenn wir „Sprachmodell“ sagen, beziehen wir uns konkreter auf ein bestimmtes Konzept, das unter den Begriff KI fällt.
NS: Der Begriff „KI“ bringt viele vorgefasste Meinungen mit sich. Ich denke, das ist einer der Gründe, warum es im Marketing so häufig verwendet wird. Der Begriff „Sprachmodell“ hat eine genaue technische Definition. Wir können uns darüber im Klaren sein, was genau ein Sprachmodell ist und was nicht, und es wird nicht all diese Vorurteile und Gefühle hervorrufen.
SS: Selbst in Forschungsgemeinschaften zur Verarbeitung natürlicher Sprache sprechen Menschen davon, dass Sprachmodelle „denken“ oder „argumentieren“. In mancher Hinsicht macht diese Sprache als Kurzschrift Sinn. Aber wenn wir den Begriff „Denken“ verwenden, wissen wir größtenteils, wie das beim Menschen funktioniert. Wenn wir diese Terminologie jedoch auf Sprachmodelle anwenden, kann dies zu der Wahrnehmung führen, dass ein ähnlicher Prozess stattfindet.
Auch hier handelt es sich bei einem Sprachmodell um eine Reihe von Zahlen in einer erlernten mathematischen Funktion. Man kann mit Fug und Recht sagen, dass diese Zahlen in der Lage sind, Informationen, die das Modell zuvor gesehen hat, wiederherzustellen oder an die Oberfläche zu bringen oder Verbindungen zwischen Eingabetexten zu finden. Aber oft besteht die Tendenz, noch weiter zu gehen und Annahmen über die Argumentation der Modelle zu treffen. Wir haben dieses Niveau der Sprachkompetenz nicht wirklich losgelöst von anderen Aspekten dessen gesehen, was wir als Intelligenz bezeichnen. Deshalb verwechseln wir fließendes Sprechen sehr leicht mit all den anderen Dingen, die wir normalerweise unter dem Begriff „Intelligenz“ zusammenfassen.
Können Sie ein Beispiel dafür geben, wie sich diese Sprachkompetenz auf Dinge auswirkt, die als intelligent wahrgenommen werden?
Zander Brumbaugh: Ich denke, es kann ziemlich schwierig sein, zu bestimmen, was eine Zurschaustellung von Intelligenz ist. Wenn zum Beispiel jemand ein Model fragt: „Ich habe Probleme und fühle mich niedergeschlagen – was soll ich tun?“ Das Modell kann scheinbar begründete Ratschläge geben. Jemand mit begrenzter Erfahrung mit Sprachmodellen könnte dies als Intelligenz und nicht als Vorhersage des nächsten Wortes wahrnehmen.
NS: Wenn Sie einem Model sagen: „Ich habe einen schlechten Tag“ und seine Reaktion wie die eines Therapeuten klingt, hat es wahrscheinlich eine Reihe von Artikeln im Internet gelesen, in denen Menschen Empathie trainiert werden, sodass es beim Anlegen sehr flüssig sein kann zum richtigen Kontext. Aber wenn es anfängt, sich von Ihrer Traurigkeit zu ernähren und Ihnen zu sagen, dass Sie schrecklich sind, greift es wahrscheinlich auf eine andere Textquelle zurück. Es kann die verschiedenen Qualitäten menschlicher Intelligenz und Verhaltensweisen reproduzieren, die wir online sehen. Wenn sich ein Modell also auf eine Weise verhält, die intelligent erscheint, sollten Sie zunächst fragen: „Was hat es in den Trainingsdaten gesehen, das wie dieses Gespräch aussieht?“
Was macht die Zusammenstellung eines guten Datensatzes zum Trainieren eines Sprachmodells in manchen Fällen schwierig?
ZUM BEISPIEL: Heutige Modelle umfassen ungefähr das gesamte öffentliche Internet. Es erfordert enorme Ressourcen, um diese Daten sammeln zu können. Bei der Sprachmodellierung ist im Wesentlichen das, was Sie eingeben, das, was Sie herausbekommen. Deshalb wird erforscht, wie man Daten am besten sammelt, filtert und sicherstellt, dass man nichts hineingibt, das giftig oder schädlich ist oder nur die niedrigste Qualität hat. Das alles stellt unterschiedliche Herausforderungen dar.
Warum ist es wichtig, über Testdaten zu verfügen, die nicht im ursprünglichen Trainingsdatensatz enthalten sind?
NS: Ich nenne das die Grundregel des maschinellen Lernens. Wenn Sie ein Modell bewerten, möchten Sie sicherstellen, dass Sie messen, wie gut es bei etwas abschneidet, das es noch nie zuvor gesehen hat. In der Arbeit vergleichen wir dies mit einem Studenten, der irgendwie eine Kopie des Lösungsschlüssels für die Abschlussprüfung erhält. Es spielt keine Rolle, ob sie es angeschaut haben. Ihre Prüfung ist einfach nicht hilfreich, um zu beurteilen, ob sie etwas gelernt haben. Dasselbe gilt auch für Sprachmodelle. Wenn die Testbeispiele in den Trainingsdaten enthalten wären, hätte es sich einfach merken können, was es gesehen hat. Es gibt eine große Gruppe von Forschern, die der Ansicht sind, dass diese Modelle viel auswendig lernen – vielleicht nicht das perfekte Auswendiglernen, aber ein unscharfes Auswendiglernen. Manchmal wird das Wort „Kontamination“ verwendet. Wenn die Trainingsdaten durch den Test verunreinigt wurden, heißt das nicht, dass das Sprachmodell dumm oder schlau oder so ist. Es bedeutet nur, dass wir keine Schlussfolgerung ziehen können.
Was ist für die Öffentlichkeit derzeit wichtig über Sprachmodelle zu verstehen?
ZUM BEISPIEL: Wir müssen Sprachmodelle weiterhin von Vorstellungen von Intelligenz trennen. Diese Modelle sind unvollkommen. Sie können sehr flüssig klingen, neigen aber zu Halluzinationen – das heißt, sie erzeugen falsche oder fiktive Informationen. Ich kenne Leute, die Sprachmodelle für etwas relativ Wichtiges verwenden, beispielsweise zum Nachschlagen von Informationen. Aber sie geben eine unscharfe Darstellung dessen, was sie gelernt haben. Es handelt sich nicht um Datenbanken oder Google-Suchen.
NS: Wenn man sich die großen technologischen Errungenschaften anschaut – das Flugzeug oder das Internet –, resultieren die meisten daraus, dass man ein klares Ziel hatte. Wir wollten Menschen durch die Luft bewegen oder Informationen zwischen Computern übertragen. Doch noch vor wenigen Jahren waren Sprachmodelle größtenteils Forschungsartefakte. Einige wurden in einigen Systemen verwendet, beispielsweise in Google Translate. Aber ich glaube nicht, dass die Forscher ein klares Gespür dafür hatten, ein Problem durch die Entwicklung eines Produkts zu lösen. Ich denke, wir haben eher gesagt: „Mal sehen, was passiert, wenn wir das ausweiten.“ Dann führte diese Geläufigkeit zufällig zu diesen anderen Ergebnissen. Aber die Forschung wurde nicht mit Blick auf ein Ziel durchgeführt, und selbst jetzt weiß niemand genau, was dieses Ziel ist. Und das ist irgendwie aufregend, denn einige von uns würden diese Modelle gerne offener sehen, weil wir glauben, dass darin viel Potenzial steckt. Aber große Technologieunternehmen haben keinen Grund, ein Tool zu entwickeln, das für Sofia, mich oder Sie wirklich gut funktioniert. Die Modelle müssen also demokratisiert werden.
Was sind einige grundlegende Schritte in Richtung dieser Demokratisierung?
NS: Einige Organisationen erstellen offene Sprachmodelle, in denen Parameter, Code und Daten gemeinsam genutzt werden. Ich arbeite Teilzeit für eine dieser Organisationen, die Allen Institut für Künstliche Intelligenz, aber es gibt noch andere. Meta hat Modelle herausgebracht, ohne die Daten, aber das ist immer noch besser als nichts. Eine Firma namens EleutherAI veröffentlicht offene Modelle. Der Betrieb dieser Modelle ist oft noch recht teuer. Deshalb denke ich, dass wir mehr in die Forschung investieren müssen, um sie effizienter zu machen, damit wir ein großes Modell nehmen und es so günstig machen können, dass es auf einem Laptop läuft.
Für weitere Informationen wenden Sie sich bitte an Serrano unter [email protected]Brumbaugh bei [email protected] und Smith bei [email protected].