Mit google Translate ist die Konvertierung jedes Satzes in über 100 Sprachen ein Kinderspiel, aber jeder, der es regelmäßig nutzt, weiß, dass es Raum für Verbesserungen gibt.
Theoretisch sollten große Sprachmodelle (LLMs) wie chatgpt die nächste Ära der Sprachübersetzung einläuten. Sie verbrauchen riesige Mengen textbasierter Trainingsdaten sowie Echtzeit-Feedback von Millionen von Benutzern auf der ganzen Welt und lernen schnell, wie man eine Vielzahl von Sprachen mit zusammenhängenden, menschenähnlichen Sätzen „spricht“.
Aber wir haben den Refrain „ChatGPT wird alles ersetzen“ schon einmal gehört, nur um dann festzustellen, dass er oft ungenau ist – das Worst-Case-Szenario für Übersetzungen. „Wir haben derzeit keine empirischen Ergebnisse, die die Behauptung stützen, dass gesprächige LLMs besser für die Übersetzung geeignet sind“, sagt Nazneen Rajani, Forschungsleiterin bei Umarmendes Gesicht(Öffnet in einem neuen Fenster)Hersteller des KI-basierten Hugging Chat.
Deshalb haben wir beschlossen, ChatGPT auf die Probe zu stellen. Ist es in der Lage, Google Translate als Übersetzungsdienst der Wahl für Reisen, Arbeit, grenzüberschreitende Liebesbeziehungen und andere Sprachbedürfnisse zu ersetzen? Und wie schneidet er im Vergleich zu seinen Schwester-Chatbots Microsoft Bing und Google Bard ab?
Getestete Methodik und Sprachen
(Quelle: Wara1982 / Getty Images)
Wir haben zweisprachige Sprecher von sieben Sprachen gebeten, einen Blindtest durchzuführen. Sie alle sind mit nicht-englischen Sprachen aufgewachsen und leben heute in den USA und/oder arbeiten für amerikanische Unternehmen.
Anhand eines Absatzes auf Englisch bewerteten sie die übersetzte Version für ihre Sprache bei Google Translate, ChatGPT und Microsoft Bing. Nachdem sie die Übung abgeschlossen hatten, verrieten wir, welcher Dienst die jeweilige Aufgabe hervorgebracht hatte.
-
Getestete Sprachen: Polnisch, Französisch, Koreanisch, Spanisch, Arabisch, Tagalog, Amharisch
-
Übersetzungsdienst: Google Translate, Google Bard, ChatGPT, Microsoft Bing
Dies ist keineswegs eine umfassende Studie. „Bitte bedenken Sie, dass Small-Blind-Tests nicht ausreichen. Es sind strengere Tests erforderlich, um diese Tools richtig zu bewerten und mit statistischer Signifikanz zu vergleichen“, sagt Federico Pascual, ein Veteran der KI-Branche. Dennoch sind die Ergebnisse überraschend konsistent und bieten einen faszinierenden Einblick in die Funktionsweise von KI-Modellen.
Erstellen eines Absatzes zur Übersetzung
(Quelle: Vadim Sazhniev / Getty Images)
Nachdem wir die Sprachen und KI-Modelle ausgewählt hatten, verfassten wir einige Absätze auf Englisch, die die Grenzen der Übersetzungsmöglichkeiten der einzelnen Dienste aufzeigten. Die erste enthielt zwei knifflige Umgangssprache: „Dampf ablassen“, was „Entspannen nach einem stressigen Tag“ bedeutet, und „Prost!“ bedeutet: „Danke!“ Außerdem gab es zwei Maßeinheiten, die in einem realen Szenario umgerechnet werden müssten: USD ($) und Meilen (im Gegensatz zu Kilometern).
-
Absatz 1 – „Hallo! Sprechen Sie Englisch? Ich brauche Hilfe bei der Wegbeschreibung. Ich versuche, ein vegetarisches Restaurant zu finden, weil meine Schwester kein Fleisch isst. Was empfehlen Sie? Wir möchten auch im Umkreis von ein paar Meilen von hier bleiben, und Don Ich möchte nicht mehr als 50 US-Dollar ausgeben. Wenn es Cocktails gibt, wäre das ein Bonus. Wir haben einen langen Reisetag hinter uns und müssen etwas Dampf ablassen! Sie sind herzlich willkommen, sich uns anzuschließen. Prost!“
Der zweite Absatz war unkomplizierter, ohne Phrasen oder Maßeinheiten, hatte aber mehr Slang („Hooligans“ und „Pop-Champagner“). Wir haben diese nur an die zweite Hälfte der Teilnehmer gesendet, um die Datenerfassung zu erweitern, während wir den Ansatz verfeinerten.
-
Absatz 2 – „Wie kaufe ich Tickets für die Bootsparty? Müssen wir im Voraus bezahlen oder können wir sie bei unserer Ankunft am Dock kaufen? Ich muss auf dem Oberdeck sein, weil ich manchmal Seekrankheit bekomme, wenn ich zu nah dran bin.“ zum Wasser. Außerdem möchte ich so weit wie möglich von den jungen Hooligans entfernt sein, die während der Reise ständig Champagner knallen lassen. Das ist gefährlich und nicht mein Spaß!“
Ergebnisse: KI-Chatbots schlagen Google Translate
Von den 12 Beispielen, die wir unseren Teilnehmern schickten, bevorzugten sie die KI-Chatbots – ChatGPT, Google Bard oder Microsoft Bing – gegenüber Google Translate. ChatGPT hat sie alle übertroffen.
Die folgende Tabelle enthält die Rangliste unserer Teilnehmer für jeden Dienst. Diejenigen, die beide Absatzbeispiele erhalten haben, sind mit (1) und (2) gekennzeichnet. Die anderen erhielten nur das erste.
„Meiner Meinung nach, [ChatGPT] kommt einem normalen Gespräch am nächsten“, sagt Ana Romero, die die spanischen Übersetzungen bewertet hat. „Der Grad der Formalität zwischen den beiden Schlüsselfragen ist konsistent (informell) und es wird die richtige Übersetzung von ‚Dampf ablassen‘ verwendet.“
Romero schätzte auch, dass die Übersetzung von ChatGPT die Möglichkeit bietet, bestimmte Wörter auf Maskulinum oder Femininum zu beenden, anstatt eines für Sie auszuwählen. Es schrieb zum Beispiel: Sind Willkommen zu bei uns mitmachen– „Sie sind herzlich eingeladen, sich uns anzuschließen“ – was je nach Geschlecht des eingeladenen Redners variieren würde.
Google Bard funktionierte selten und sagte uns sogar: „Ich kann keine Sprachen übersetzen.“ Stattdessen wird die Verwendung von Google Translate empfohlen, wahrscheinlich ein Versuch von Google, seine eigenen Produkte nicht zu kannibalisieren. Aber wir haben es trotzdem getestet, und als es dreimal funktionierte (Koreanisch, Französisch, Spanisch), stuften unsere Teilnehmer seine Ergebnisse höher ein als Google Translate.
Alle Chatbots blieben hinter unseren hohen Erwartungen hinsichtlich der Währungs- und Entfernungsmessungen im ersten Absatz zurück. Angesichts ihres gesprächigen Charakters und ihrer Fähigkeit, weitere Fragen zu stellen, hofften wir, dass sie uns fragen würden, in welche Währung wir umrechnen sollten und ob wir Meilen oder Kilometer bevorzugen würden.
Stattdessen behandelten sie sie genauso wie Google Translate; Nehmen Sie kleine Anpassungen vor, fügen Sie manchmal „USD“ nach 50 US-Dollar hinzu oder konvertieren Sie Meilen in Kilometer. Es war in allen Sprachen und Diensten inkonsistent und insgesamt unvollständig.
Auf die Beherrschung der Nuancen kommt es an
In den USA wird es „Cookie“ genannt, in Großbritannien jedoch „Biskuit“. (Quelle: olligha / Getty Images)
Eine ständige Gefahr für Google Translate waren seine wörtlichen Interpretationen. „Es war die Wort-für-Wort-Übersetzung von allen dreien“, sagt Emile Saad, der die arabischen Übersetzungen bewertete. „Dadurch fehlte ein Teil des Kontexts. Zum Beispiel ‚Pop‘ [as in champagne] wurde mit „Feuerwerk machen“ übersetzt.
Auf Französisch behielt Google Translate das Wort „Hooligans“ im Englischen bei, während die Chatbots wussten, dass es zum kulturell angemessenen Slang passte Schläger.
Wie sich herausstellt, sind Chatbots so konzipiert, dass sie sich durch Nuancen und Kontext auszeichnen. Sprachen, in denen die Modelle über einen großen Quelldatenbestand verfügen und mehr Benutzer in dieser Sprache interagieren, können kulturelle Phrasen besser identifizieren und die am besten geeignete Übereinstimmung in der Zielsprache auswählen.
„Das Geheimnis von Chatbots wie ChatGPT ist RLHF, also verstärkendes Lernen mit menschlichem Feedback“, sagt Rajani von Hugging Face. „[They] Sammeln Sie menschliche Präferenzen für Modellantworten für Dimensionen wie Wahrhaftigkeit, Harmlosigkeit, Hilfsbereitschaft usw. Die menschlichen Präferenzen helfen bei der Auswahl derjenigen, die kulturell angemessener sind, insbesondere für Nicht-Muttersprachler.
Ein Google-Sprecher erklärt gegenüber PCMag, dass Bard und Google Translate „unterschiedliche zugrunde liegende Technologien haben, daher ist es nicht verwunderlich, dass sie möglicherweise unterschiedliche Ergebnisse erzeugen.“ Bard ist ein umfangreiches Sprachmodell, das für eine Vielzahl von Aufgaben entwickelt wurde, während Google Translate speziell für Übersetzungsaufgaben optimiert ist.
„Was zählt, ist die Größe; diese Modelle sind die größten und besten Modelle auf dem Markt“, sagt Pascual. „Sie stehen an vorderster Front des KI-Wettrüstens. Daher ist es nicht verwunderlich, dass sie Texte noch besser übersetzen können als Google Translate, da Google Translate wahrscheinlich ältere Technologie und kleinere Modelle verwendet. [and are] wahrscheinlich darauf optimiert, so schnell und kostengünstig wie möglich zu laufen.“
Keine der vier Optionen war jedoch ein eins-zu-eins-Ersatz für einen fließenden Sprecher. Alle Chatbots litten zeitweise immer noch unter einer umständlichen und ungenauen Wortwahl, nur kam es seltener dazu. Beispielsweise übersetzte Microsoft Bing auf Polnisch: „Sie sind herzlich eingeladen, sich uns anzuschließen.“ [at the restaurant],“ bis „Zapraszamy Cię do nas“, was eigentlich eine Einladung ist, „zu mir nach Hause zu kommen“, sagt Barbara Pavone, Senior Associate für Wachstum und Engagement bei PCMag.
Von unseren Redakteuren empfohlen
Wenn Sie diese beiden Sprachen sprechen, verwenden Sie Google Translate
Traditionelle äthiopische Schalen (Quelle: Evgenii Zotov/Getty Images)
In unserem Test belegten zwei Sprachen bei Google Translate den ersten Platz: Tagalog (Philippinen) und Amharisch (Äthiopien). Sie haben die kleinste geschätzte weltweite Sprecherpopulation: Tagalog hat weltweit 33 Millionen Sprecher, die es als ihre Muttersprache bezeichnen, und Amharisch hat demnach 25 Millionen WorldData.info(Öffnet in einem neuen Fenster). (Spanisch hat 450 Millionen für Spanisch und Koreanisch liegt bei 80 Millionen.)
„[AI models] lässt sich nicht gut verallgemeinern für Sprachen mit geringen Ressourcen oder für die nicht genügend menschliche Präferenzen erfasst wurden“, sagt Rajani. Für Amharisch und Tagalog vermuten wir, dass den Chatbots genügend Daten fehlten, um eine differenzierte Antwort zu geben, die zum Kontext des Absatzes passte. Stattdessen , Sie erschienen mehr wörtlicher als Google Translate, das Gegenteil von dem, was wir für die anderen Sprachen gesehen haben.
Colin Salao, der die Tagalog-Übersetzungen bewertete, stellte fest, dass ChatGPT Wörter verwendet, die „sehr formell“ sind und für öffentliche Ankündigungen reserviert sind. Er hielt Bing für die „wörtlichste Übersetzung“ und stufte sie im Vergleich zu ChatGPT und Google Translate schlechter ein.
Noch mehr hatte Microsoft Bing mit Amharisch zu kämpfen. Ein Teil jedes Absatzes blieb auf Englisch. Dies war das einzige Mal, dass einer der Dienste keine Übersetzung versuchte, auch für andere skriptbasierte Sprachen wie Koreanisch und Arabisch:
-
Absatz 1 – Hallo! Wurden Sie gefragt, wie man spricht? Möchten Sie fragen, ob dies die Größe des Carports ist? Ich verwende nur 50 $ und verwende die Cocktails? 2-3 m. Wir haben einen langen Reisetag hinter uns und müssen etwas Dampf ablassen! Sie sind herzlich willkommen, sich uns anzuschließen. Beifall!
-
Absatz 2 – Wie verwende ich das Dienstprogramm? Wie kann ich dem Root des Docks folgen und es verwenden? In der Größe des Oberdecks und mehr Champagner trinken junge Hooligans am Tag mehr? Das ist gefährlich und nicht mein Spaß!
KI wird die Webübersetzung verbessern
Für Sommerreisen oder andere Sprachbedürfnisse ist ChatGPT möglicherweise die bessere Wahl als Google Translate. Darüber hinaus macht es die neue iOS-App noch zugänglicher. Aber wie wir bei Amharisch und Tagalog gesehen haben, sind Chatbots noch kein vollständiger Ersatz für alte Standbys.
Mit mehr Trainingsdaten in jeder Sprache haben KI-Modelle jedoch das Potenzial, die Fähigkeiten von Google Translate auf ganzer Linie zu übertreffen. „Wir sind begeistert vom Potenzial von LLMs und davon, wie sie in unsere Produkte integriert werden können“, sagt Google gegenüber PCMag.
Google testet außerdem eine neue Suchergebnisseite mit dem Namen Search Generative Experience (SGE). Es soll zu einem noch nicht genannten Zeitpunkt auf Google.com eingeführt werden und eine absatzbasierte Antwort im ChatGPT-Stil auf Fragen bieten. Google betont jedoch, dass Bard und SGE experimentell sind und äußerte sich nicht dazu, ob sie Google Translate in Zukunft ersetzen könnten.
Bevor dies geschehen kann, muss Google eine definitivere Möglichkeit haben, die Übersetzungsfähigkeiten von Chatbots zu messen – und nachweisen, dass diese besser als Google Translate ist. Im weiteren Sinne sollten alle Chatbots in der Lage sein, in einer Vielzahl von Sprachen wie Amharisch zu interagieren, um die Zukunft des Webs zugänglich und so „weltweit“ wie möglich zu gestalten.
„All diese [AI] „Systeme sind Black Boxes und geben keine spezifischen Informationen darüber weiter, wie sie gebaut wurden, welche Daten für das Training verwendet wurden usw.“, sagt Pascual. „Wir fangen gerade erst an zu sehen, was diese riesigen Modelle leisten können, und es ist gleichermaßen aufregend und erschreckend.“ !“
Erfahren Sie in unserem Erklärer mehr über die Technologie hinter ChatGPT und anderen LLMs.
Holen Sie sich unsere besten Geschichten!
Melden Sie sich an für Was ist jetzt neu? um jeden Morgen unsere Top-Storys in Ihren Posteingang zu bekommen.
Dieser Newsletter kann Werbung, Angebote oder Affiliate-Links enthalten. Wenn Sie einen Newsletter abonnieren, erklären Sie sich damit einverstanden Nutzungsbedingungen Und Datenschutz-Bestimmungen. Sie können den Newsletter jederzeit abbestellen.