Es scheint „genetisch“ von den Entwicklern weitergegeben worden zu sein. Aber wie genau?

Lesen Sie dieses Material auf Weißrussisch

Standbild aus dem Film „Terminal“ von Steven Spielberg

Als sich herausstellte, dass chatgpt-4o einen Weißrussen hören und darauf reagieren kann, begannen anspruchsvolle Weißrussen, das neue Modell zu prüfen. Während einige berührt sind, dass sie die an sie gerichtete Rede im Allgemeinen als weißrussisch erkennt und in derselben Sprache antwortet, beschämen andere sie wegen ihrer falschen Aussprache. Und jeder bemerkt sofort den wunderbaren amerikanischen Akzent von ChatGPT.

Woher könnte er möglicherweise gekommen sein? Sie fragten ML-Ingenieur Arseny Kravchenko Und Computerlinguist Alexander Piperski.

Wie funktioniert es

Zuerst haben wir versucht zu verstehen, wie die Aussprache in ChatGPT-4o funktioniert. Handelt es sich hierbei um ein einfaches Voice-Over einer schriftlichen Rede – genau wie beispielsweise bei google Translate?

Nein, Arseniy Kravchenko stimmt nicht zu und sendet und Kommentar von OpenAI selbst. Entwickler erklärendass die Sequenz Audio – Text – Audio schon einmal verwendet wurde. Zu diesem Zweck wurden drei Modelle im Sprachmodus miteinander verbunden: eines transkribierte die Stimme in Text, das andere, GPT-3.5 oder GPT-4 selbst, nahm Text als Eingabe und gab denselben Text zurück und das dritte wandelte diesen Text wieder in Audio um . All dies erforderte Zeit und Energie vom Neuron (tatsächlich gingen viele Informationen verloren); angeblich war einfach keine Energie mehr für Lachen und Emotionen übrig. Im neuen Modell ist alles anders – es verarbeitet Text, Audio und Bilder gleichzeitig im selben neuronalen Netzwerk. Dadurch kann er intonieren und sogar singen.

Siehe auch  Elon Musks KI-Programm, sein ChatGPT-Konkurrent

„Das heißt, vor Speech2Text waren LLM und Text2Speech getrennte Teile, aber jetzt lebt alles in einem Modell“, schließt Arseny.

Bedeutet das, dass das Modell sofort Geräusche erzeugt? Was ist dann ein Zeichen – kein Buchstabe, sondern ein Ton? Oder gibt es irgendwo im Modell noch einen Textabstandshalter?

F64B6438C32E7882Bd9D1Faef9Ac314D

Arseni Krawtschenko:

— Ja, das Modell erzeugt sofort Ton, aber die Token können unterschiedlich sein und sie sind alle „nativ“. Es enthält keinen Text, sondern eine Vektordarstellung. Das heißt, verschiedene Dinge werden als Eingabe empfangen (z. B. Text, Bilder, Ton), sie werden tokenisiert (in Vektoren umgewandelt), dann erfolgt eine knifflige Matrixmultiplikation, dann erfolgt die Dekodierung, also tatsächlich eine umgekehrte Tokenisierung (aber OpenAI). gibt seine Einzelheiten nicht bekannt, wie ich weiß).

Woher kommt der amerikanische Akzent in der belarussischen Sprachausgabe?

Ich gehe davon aus, dass das Training einfach so viel mehr englische Datensätze enthielt, dass alle seltenen Sprachen (nicht nur Sprache) ihre Artefakte erhalten.

Findet diese Schulung in allen Sprachen gleichzeitig oder in jeder einzelnen Sprache statt?

Ich weiß es nicht genau, aber ich vermute, dass es bei allen gleichzeitig auftritt.

Und woher bekommt die Maschine den Datensatz? Lernt sie nur aus dem, was ihr gegeben wird, oder findet sie ihn vielleicht im Internet?

Basierend auf dem, was die Entwickler bereitstellen.

Irgendwo bei der Vorbereitung des richtigen Datensatzes verbergen sich viele coole Geheimnisse.

Das Rezept „Wir laden mehr hochwertige Audioinhalte über Belmov ins Netzwerk hoch und die KI beginnt deutlich zu sprechen“ wird also wahrscheinlich nicht funktionieren? Zumindest wird es nicht direkt funktionieren?

Von alleine wird es nicht funktionieren.

Siehe auch  Apple verbietet seinen Mitarbeitern die Nutzung von ChatGPT

Was wird funktionieren?

In der Zwischenzeit lädt OpenAI alle ein, an der Schulung teilzunehmen, indem sie ihre Audioclips an das automatische Spracherkennungssystem senden Whisper-API. Die Entwickler behaupten, dass das System auf 680.000 Stunden mehrsprachiger Daten aus dem Internet trainiert wurde, obwohl nur etwa ein Drittel des Datensatzes NICHT auf Englisch ist. Aber es scheint, dass Ihre Zustimmung zur Verwendung von Audio in Schulungen keine Garantie dafür ist, dass sie nicht abgelehnt wird.

Gleichzeitig empfehlen Blogger ChatGPT, die belarussische Sprache zu unterrichten Füllen Sie die CommonVoice Mozilla-Vorlagendatenbank auf.

B78Ade56D3428004Fb5A8E70A6F05B21

https://x.com/pikoshyk/status/1790863970254913676

Ist nicht der Datensatz schuld? Was denkt ein Linguist?

Der Computerlinguist Alexander Piperski hält die Frage nach dem englischen Akzent eines neuronalen Netzwerks vor allem aus soziolinguistischer Perspektive für interessant. Dabei geht es nicht um das Volumen des belarussischen Datensatzes, sondern darum, wie sehr sich die Entwickler im Allgemeinen (nicht) an dem Akzent stören.

B46B4D14D48F6Bbe8600474E0Ebbc37E

Alexander Piperski:

— ChatGPT-4o spricht auch Russisch mit einem deutlichen amerikanischen Akzent, obwohl es in diesem Fall sicherlich keine Probleme mit den Schulungsressourcen gibt. Und selbst wenn sie nicht auf Weißrussisch wären, finden Sie genügend Trainingsdaten.

Tatsache ist jedoch, dass die Entwickler von ChatGPT im englischsprachigen Raum leben, wo die Einstellung zur phonetischen Vielfalt eine andere ist als im Weißrussischen oder Russischen: Für sie ist ein Akzent, an dem sich die Herkunft des Sprechers leicht erkennen lässt, nichts Falsches , von dem es so weit wie möglich notwendig ist, es loszuwerden, eher der natürliche Zustand der Dinge. Dementsprechend verstehen die Entwickler, dass ihre Stimmen in verschiedenen Sprachen einen amerikanischen Akzent haben, sind sich jedoch nicht bewusst, wie sehr uns dies irritiert, und setzen sich nicht das Ziel, sofort dagegen vorzugehen.

Siehe auch  So erstellen Sie Ihr eigenes GPT mit dem GPT Builder von ChatGPT | von Sanu Oluwaseun | Dez. 2023

Tatsächlich zeigt sogar das Video, das Sie mir geschickt haben (in dem ChatGPT nach berühmten belarussischen Twitter-Nutzern gefragt wird – devby), dass die Situation der Interaktion zwischen verschiedenen Sprachen noch komplizierter ist. Wir möchten, dass es im Weißrussischen keinen amerikanischen Akzent gibt, erwarten aber gleichzeitig, dass ein belarussischer Akzent im Englischen in den belarussischen Text eingefügt wird: Auch wenn Twitter in lateinischen Buchstaben geschrieben ist, müssen Sie tіtar/tіter/tvitar/tviter/ sagen. … – die Optionen mögen unterschiedlich sein, aber definitiv nicht Twitter mit vollständiger amerikanischer Aussprache. Und beispielsweise bewahren solche Einfügungen im Deutschen die Aussprache der Ausgangssprache. Generell gibt es auch bei so kleinen Dingen noch Verbesserungspotenzial.

Devby helfen = der IT-Community helfen.

7427083C522Ebe898B1D7033819944B7

5/5 - (308 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein