Im März 2021 wurde ein Forschungspapier zu Sprachmodellen wie chatgpt mit dem Titel „On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?“ veröffentlicht. – „Zur Gefahr stochastischer Papageien: Können Sprachmodelle zu groß sein?“
Der Kern des wissenschaftlichen Artikels liegt in der Tatsache, dass GPT-Modelle von Natur aus Papageien und nicht einer Person ähneln: GPT-3 wählt beispielsweise Wörter für eine Antwort nicht nach der den Eingabeaufforderungen innewohnenden Bedeutung aus, sondern nach zur höchsten Wahrscheinlichkeit einer Wortfolge, die in der Antwort angegeben werden muss.
Mit anderen Worten: GPTs versuchen einfach, die Antwort zu erraten, basierend darauf, welche abfragerelevanten Informationen am häufigsten in der Datenbank vorhanden sind, auf der das Sprachmodell gelernt wurde.
Was ist die Gefahr von Sprachmodellen?
Die Autoren des wissenschaftlichen Artikels sagen, dass die Risiken durch das überstürzte Training von Sprachmodellen entstehen. Sie plädieren für eine „sorgfältige Dokumentation von Datensätzen“.
OpenAI gibt keine Auskunft darüber, welche Daten genau zum Trainieren der Modelle herangezogen wurden.
Die Forscher fanden heraus, dass GPT-3 beispielsweise durch Nachrichten aus Foren gelehrt wurde, in denen die Stimmen von Frauen, älteren Menschen und Randgruppen nicht enthalten waren. Daher wird eine auf solchen Daten basierende Antwort nicht repräsentativ genug sein.
Nach Ansicht der Forscher wird ein derart unüberlegtes Training von Modellen zwangsläufig zu Verzerrungen in den Antworten von Sprachmodellen führen. Vorurteile beeinflussen angeblich auch die Entscheidungen von Systemen, die auf ihnen basieren.
So sichern Sie Sprachmodelle
Die Forscher schlagen vor, Sprachmodelle zu untersuchen und ihre Entwicklung und Investitionen in KI-Unternehmen zu überwachen.
Außerdem schlagen die Autoren des Artikels die Einführung einiger Wasserzeichen vor, die Leser und Betrachter von Inhalten, die von Sprachmodellen erstellt wurden, vor der möglichen Nichtrepräsentativität dieser Inhalte warnen würden.
Die Hauptaufgabe der Entwickler von Sprachmodellen besteht jedoch im durchdachten Training neuronaler Netze: der Erstellung von Datenbanken für das Training, die die Interessen und Standpunkte verschiedener sozialer Gruppen berücksichtigen.
Abschluss
Zuvor gab es Nachrichten, dass OpenAI seine Modelle ohne Zustimmung der Benutzer auf personenbezogene Daten trainierte, obwohl diese gemeinfrei waren.
Tatsächlich erlaubt die Nähe der ChatGPT-Daten für das Training OpenAI nicht, ihre Nichtrepräsentativität zu widerlegen, und es ermöglicht Forschern nicht, dies zu bestätigen. Dies ist keine verlässliche Tatsache, daher gibt es eigentlich keinen Grund, OpenAI zu verurteilen.
Wenn Sie sich jedoch dafür entscheiden, Ihr Sprachmodell zu trainieren und es in der Ausgabe objektiv zu machen, versuchen Sie, die Daten für das Training des Modells sorgfältig auszuwählen.