Schmutzige Daten

Ein Verschmutzungsproblem mit OpenAI-Trainingsdaten hat dazu geführt, dass die chinesischen Ausgaben seines neuen Chatbots voller Pornos und Spam sind. Die MIT Technology Review Berichte.

Letzte Woche veröffentlichte OpenAI GPT-4o, a chatgpt-sounds-144935535.html“ data-ylk=“slk:decidedly flirty;elm:context_link;itc:0;sec:content-canvas;outcm:mb_qualified_link;_E:mb_qualified_link;ct:story;“ class=“link yahoo-link“>ausgesprochen kokett neues großes Sprachmodell (LLM), ausgestattet mit neuen und erweiterten Funktionen – zum Beispiel der Fähigkeit, „sehen“ durch die Gerätekameras der Benutzer sowie die Stromversorgung dazu sich laut unterhalten in Echtzeit. Aber trotz aller offensichtlichen Fortschritte von GPT-4o scheint es mindestens einen großen blinden Fleck zu haben: die chinesische Sprache.

Um KI-Modelle zu trainieren, benötigen Sie Token oder Dateneinheiten vertreten Informationen, die eine KI zum „Lesen“ und Lernen verwendet. Entsprechend MIT Techstellten KI-Forscher schnell fest, dass fast alle der 100 längsten chinesischsprachigen Token, die von der KI zum Entschlüsseln chinesischer Eingabeaufforderungen verwendet wurden, aus Spam-Porno- und Glücksspielinhalten bestanden – was zu bizarren, schmutzigen und mit Spam übersäten Antworten auf völlig unverständliche Inhalte führte. Standardanfragen.

„Das ist irgendwie lächerlich“, schrieb Tianle Cai, KI-Forscherin und Doktorandin in Princeton, in einem Github-Beitrag Präsentation der verunreinigten Token.

Unerzwungener Fehler

Der schlimmste Teil? Experten zufolge ist das Problem ungereinigter Daten eine bekannte Hürde beim KI-Training – und wahrscheinlich wäre es nicht allzu schwer gewesen, es zu beheben.

„Jedes Spam-Problem hat eine Lösung“, sagte Deedy Das, ein KI-Investor bei Menlo Ventures, der früher im Suchteam von google arbeitete MIT Techund fügte hinzu, dass allein die automatische Übersetzung tokenisierter Inhalte zur Erkennung bestimmter problematischer Schlüsselwörter durchaus „60 Prozent des Weges“ zu einem sauberen Datensatz bringen könnte.

Siehe auch  Die wahre Geschichte von ChatGPT – ET

„Letztendlich glaube ich einfach nicht, dass sie in diesem Fall die nötige Arbeit geleistet haben“, fuhr er fort.

„Die englischen Token scheinen in Ordnung zu sein“, sagte Cai, der Princeton-Forscher MIT Tech„aber die Chinesen sind es nicht.“

Mit anderen Worten: Der wahrscheinlichste Grund für den Fehler von OpenAI ist, dass die Sicherstellung, dass seine chinesischsprachigen Token größtenteils frei von Porno- und Glücksspiel-Spam sind, einfach nicht auf der To-Do-Liste stand.

Für OpenAI sieht es schlecht aus. Die chinesische Sprache hat die die meisten Muttersprachler auf dem Planeten. Und abgesehen von den Zahlen: Wenn sich die Zukunft unseres Internets tatsächlich auf KI-generiertes Material konzentrieren wird – im Gegensatz zu von Menschen erstellten und erstellten Websites, Communities und Welten –, dann sind Fehler wie die Nichtgewährleistung, dass ein erstklassiger Chatbot die Muttersprache von mehr als einem Chatbot analysieren kann Milliarden Menschen bedeuten, dass Menschen, ganz zu schweigen von ganzen Kulturen, von Natur aus außen vor bleiben.

Das heißt, hoffen wir, dass dies ein Lernmoment ist.

Mehr zu KI und nicht-englischen Sprachen: Ein großer Teil des Internets besteht laut Forschern aus KI-generiertem Schleim

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein