Start ChatGPT Singapur baut ChatGPT-ähnlich auf, um südostasiatische Sprachen und Kulturen besser darzustellen

Singapur baut ChatGPT-ähnlich auf, um südostasiatische Sprachen und Kulturen besser darzustellen

Von

Nina Weber

Februar 8, 2024

Glücklich hide

1 KI-Enthüllung eines japanischen Autors löst Debatte aus: „Manche Leser könnten sich betrogen fühlen“

2 „Wir müssen überprüfen und filtern“

3 Verzerrung in den Daten

4 Die Schattenseiten des unkontrollierten KI-Einsatzes: Faulheit und Lernverlust

„Wollen wir jeden Menschen in Südostasien zwingen, sich an die Maschine zu gewöhnen, oder wollen wir sie zugänglicher machen, damit die Menschen in der Region die Technologie in vollem Umfang nutzen können, ohne Englisch sprechen zu müssen?“ er sagte.

„Wir versuchen nicht, mit den großen LLMs zu konkurrieren; Wir versuchen, sie zu ergänzen, damit wir besser repräsentiert werden können“, sagte Teo, Senior Director für KI-Produkte.

KI-Enthüllung eines japanischen Autors löst Debatte aus: „Manche Leser könnten sich betrogen fühlen“

Weltweit werden über 7.000 Sprachen gesprochen. Dennoch wurden LLMs, darunter GPT-4 von Open AI und Llama 2 von Meta, die zum Aufbau von KI-Systemen wie Chatbots und anderen Tools verwendet werden, größtenteils für die englische Sprache entwickelt und darauf trainiert.

Regierungen und Technologieunternehmen versuchen, diese Lücke zu schließen Indien Erstellen von Datensätzen in lokalen Sprachen, ein LLM in den Vereinigten Arabischen Emiraten, der generative KI-Tools auf Arabisch unterstützt, und KI-Modelle in China, Japan Und Vietnam in lokalen Sprachen.

Diese Modelle können dazu beitragen, dass die lokale Bevölkerung gleichberechtigter an der globalen KI-Wirtschaft teilnimmt, die größtenteils von großen Technologieunternehmen dominiert wird, sagte Nuurrianti Jalli, Assistenzprofessorin an der Fakultät für Kommunikation der Oklahoma State University.

„Regionale LLMs werden auch benötigt, weil sie die technologische Eigenständigkeit unterstützen“, sagte sie. „Eine geringere Abhängigkeit von westlichen LLMs könnte der lokalen Bevölkerung eine bessere Privatsphäre bieten und sich auch besser an nationale oder regionale Interessen anpassen.“

Siehe auch Die Verwendung von ChatGPT für Ehegelübde und Lobreden schürt Streit über Authentizität

„Wir müssen überprüfen und filtern“

Mehrsprachige Sprachmodelle, die auf Text aus mehreren Sprachen gleichzeitig trainiert werden, können semantische und grammatikalische Verbindungen zwischen ressourcenintensiven Sprachen, die über mehr Daten verfügen, und ressourcenarmen Sprachen ableiten, sagen Forscher.

Diese Modelle können in einer Vielzahl von Anwendungen eingesetzt werden, von Übersetzungen über Kundenservice-Chatbots bis hin zur Inhaltsmoderation auf Social-Media-Plattformen, die Schwierigkeiten haben, Hassreden in ressourcenarmen Sprachen wie Burmesisch oder Amharisch zu identifizieren.

Etwa 13 Prozent der Daten von SEA-LION stammen aus südostasiatischen Sprachen – mehr als bei jedem anderen großen LLM, sagte Teo. Mehr als 9 Prozent der Daten stammen aus chinesischem Text und etwa 63 Prozent aus englischem Text.

Mehrsprachige Sprachmodelle trainieren oft auf der Grundlage übersetzter Texte und anderer Daten von schlechter Qualität, die Fehler enthalten können, daher sei AI Singapore „vorsichtig“ mit den Daten, die beim Training von SEA-LION verwendet werden, sagte Teo in seinem Büro an der National University of Singapore.

Das Zeitalter der makellosen Daten ist vorbei – viele Dinge im Internet sind heute Material, das von LLMs generiert wird

Leslie Te, AI Singapur

„Das Zeitalter der makellosen Daten ist vorbei – viele Dinge im Internet sind jetzt Material, das von LLMs generiert wird, also müssen wir es überprüfen und filtern“, sagte er.

„Wir können nicht perfekt sein, aber wir können auch nicht alles beseitigen, was wir für schlecht halten“, fügte er hinzu.

Immer mehr Regierungen stellen Daten zur Verfügung und Unternehmen testen SEA-LION, das aufgrund seiner geringeren Größe schneller bereitgestellt werden kann und kostengünstiger in der Feinabstimmung und Einführung ist, sagte Teo.

Beim indonesischen E-Commerce-Unternehmen Tokopedia findet ein Großteil der Kundeninteraktionen in Bahasa Indonesia statt, sodass Modelle „mit diesen lokalen Kenntnissen unsere Fähigkeit verbessern werden, mit Kunden in Kontakt zu treten und ihre Erfahrungen zu verbessern“, sagte Paul Condylis, stellvertretender Vizepräsident für Daten bei Tokopedia Wissenschaft.

Siehe auch 5 ChatGPT regt dazu an, in Ihrem Unternehmen visionärer zu sein

Verzerrung in den Daten

Da immer mehr Länder und Regionen ihre eigenen LLMs aufbauen, befürchten Digital- und Menschenrechtsexperten, dass sie nur die vorherrschenden, online zum Ausdruck gebrachten Ansichten reproduzieren, was besonders problematisch sein kann in Ländern mit autoritären Regierungen oder strenger Medienzensur oder solchen ohne starke Zivilgesellschaft.

Chinesische Social-Media-Plattformen beispielsweise zensieren Verweise auf den Aufstand auf dem Platz des Himmlischen Friedens und Kritik an der Regierung, während mehrere südostasiatische Länder Gesetze erlassen haben, um Inhalte einzudämmen, die Behörden als irreführend erachten.

„Das Trainieren von Modellen auf der Grundlage solcher Daten birgt die Gefahr, dass voreingenommene, voreingenommene, unvollständige und sogar irreführende Narrative aufrechterhalten werden“, sagte Jalli.

„Die Modelle versäumen möglicherweise, wichtige gesellschaftspolitische Themen wie Menschenrechtsverletzungen, Korruption oder berechtigte Kritik an politischen Mächten an die Oberfläche zu bringen“, sagte sie.

Indonesiens ehemaliger Präsident Suharto im Jahr 2004. SEA-LION konzentrierte sich im Vergleich zu westlichen Sprachmodellen mehr auf seine Errungenschaften als auf seine Rechte. Foto: AP

Als Antwort auf eine Frage zu Indonesiens ehemaligem Präsidenten Suharto erwähnten Llama 2 und GPT-4 beispielsweise seine lückenhafte Menschenrechtsbilanz, während sich SEA-LION in seiner Antwort weitgehend auf seine Leistungen konzentrierte.

Wenn ein Modell nur auf positive Artikel über eine Regierung trainiert wird, dann wird das Modell „wahrscheinlich eine Weltanschauung annehmen, in der die Regierung völlig positiv ist und abweichende Standpunkte hinter sich lässt“, sagte Aliya Bhatia, Politikanalystin am Center for Democracy & Technology, eine US-amerikanische Non-Profit-Organisation.

„Regionale LLMs spiegeln möglicherweise die sprachlichen und kulturellen Nuancen der Sprecher der lokalen Sprache besser wider, verfügen jedoch möglicherweise auch über weniger Informationen über die Welt im Allgemeinen“, fügte sie hinzu.

„Es besteht die reale Gefahr, dass von der Regierung unterstützte Modelle eine revisionistische Sicht auf die Geschichte vermitteln und demokratische Werte untergraben.“

Siehe auch Ich habe mich bei ChatGPT über die Zukunft von BNB informiert und eine interessante Antwort erhalten

Die Schattenseiten des unkontrollierten KI-Einsatzes: Faulheit und Lernverlust

Aber die Alternative – sich ausschließlich auf westliche LLMs mit „unverhältnismäßig großen Einflüssen“ aus wohlhabenden, liberalen westlichen Demokratien zu verlassen – bedeutet laut AI Singapore, unterschiedliche Vorurteile in Bezug auf kulturelle Werte, politische Überzeugungen und soziale Normen aufrechtzuerhalten.

„Diese LLMs haben eine ganz besondere Ausrichtung auf die Westküste Amerikas – sie sind sehr aufgeweckt. Sie repräsentieren uns nicht“, sagte Teo.

„Wir sagen nicht, dass unsere Perspektive die einzige ist – wir versuchen nur, sie wieder ins Gleichgewicht zu bringen.“

5/5 - (145 votes)

Singapur baut ChatGPT-ähnlich auf, um südostasiatische Sprachen und Kulturen besser darzustellen

KI-Enthüllung eines japanischen Autors löst Debatte aus: „Manche Leser könnten sich betrogen fühlen“

„Wir müssen überprüfen und filtern“

Verzerrung in den Daten

Die Schattenseiten des unkontrollierten KI-Einsatzes: Faulheit und Lernverlust

Kommentieren Sie den Artikel Antwort abbrechen

Wir haben ChatGPT gefragt, welchen Preis Ethereum im Jahr 2024 erreichen wird

Watson: An den Rat von Ottawa einen Ratschlag – „Familie zuerst“