„Das englische chatgpt verblüffte die Welt mit seiner Fähigkeit, eine Person zu verstehen und auf eine Art und Weise zu reagieren, die der natürlichen Sprache ähnelt. Es war keine Wundertechnologie; es wurde mit einer beispiellosen Textmenge ausgestattet, um Muster in der menschlichen Kommunikation zu erkennen und zu lernen, diese nachzuahmen.“ „, sagte Eleri Aedmaa, Ingenieurin für die Verarbeitung natürlicher Sprache am Institut für estnische Sprache.
„In der neuen Ära der Sprachtechnologien kommt es auf die Menge der Texte an. Um diese kritische Masse im Estnischen zu erreichen, müssen so viele Texte wie möglich digitalisiert und verfügbar gemacht werden: die gesamte Nationalbibliothek, alle ihre Archive, möglichst viele aktuelle.“ und historische Nachrichten wie möglich, einschließlich Online-Kommunikation. Je besser Estnisch im Internet zugänglich ist, desto sicherer wird die Zukunft der Sprache sein“, erklärte der Linguist.
Die Universität Turku und das Sprachtechnologieunternehmen SiloGen sind Vorreiter bei der Entwicklung des größten offenen Sprachmodells der Welt. Auf LUMI, dem drittgrößten Supercomputer Europas, wird das alle europäischen Sprachen umfassende Sprachmodell implementiert. Laut Aedmaa ist die Menge an eindeutigen und originalen digitalen estnischen Texten, die für dieses und zukünftige Sprachlernmodelle verfügbar gemacht werden können, ein grundlegendes Problem für die estnische Sprache.
ChatGPT denkt nur auf Englisch
Aedmaa sagte, einer der Mängel der immer häufiger auftretenden großen Sprachmodelle bestehe darin, dass sie fast ausschließlich auf Englisch trainiert würden. Dies bedeutet, dass GPT-4 zwar Estnisch zu verstehen scheint, sich aber dennoch auf die Übersetzung beschränkt. Die Maschine denkt sozusagen auf Englisch und übersetzt das Gespräch im letzten Moment ins Estnische. „Das ist auf lange Sicht wirklich gefährlich für die estnische Sprache“, sagte Aedmaa
„Der Wert dieser neuen Werkzeuge liegt darin, dass sie nicht nur einzelne Wörter und Sätze, sondern den gesamten kulturellen Kontext erfassen. Wenn ein Sprachmodell ausschließlich auf der Grundlage englischer Inhalte trainiert wird, mangelt es zwangsläufig an kulturellen Kenntnissen.“ von Estland“, sagte sie.
„Die Situation ist vergleichbar mit der Zeit, als der Buchdruck erfunden wurde – was wäre aus der estnischen Sprache geworden, wenn Bücher nur in den großen Sprachen, nicht aber auf Estnisch gedruckt worden wären?“ Sie fragte. Laut Aedmaa betrifft das Problem mittlerweile fast alle Sprachen der Welt.
Das von den Finnen entwickelte Sprachmodell ist eine GPT-ähnliche digitale Maschine, die von Grund auf auf eine Vielzahl von Sprachen trainiert wurde. „Die Ziele sind die sprachliche Souveränität Europas und die Demokratisierung der Sprachtechnologie. Im Gegensatz zu den meisten seiner Vorgänger wird das neue Sprachmodell Open Source sein; seine Logik ist transparent und kann von jedem genutzt werden, der neue Sprachtechnologieanwendungen entwickelt“, sagte Aedmaa.
Das Projekt der Finnen wird von Business Finland unterstützt, einer Einrichtung ähnlich der Estnischen Wirtschafts- und Innovationsagentur (EISA). Es wurde auch vom EU-Horizont-Programm unterstützt. LUMI stellte den Entwicklern eine Reihe kostenloser Schulungsstunden zur Verfügung, damit sie das Modell testen konnten.
Es gibt zu wenige estnische Quellen, um ein großes Sprachmodell zu trainieren
Kadri Vare, Leiterin der Abteilung für Sprach- und Sprachtechnologie des EKI, sagte, die Agentur suche derzeit nach weiteren Möglichkeiten, um Finnen zu helfen. „Wir beabsichtigen, mit ihnen zusammenzuarbeiten und haben hierzu bereits erste Schritte eingeleitet. Dann können wir genauer festlegen, was und wie viel wir dazu beitragen können. Wir haben bereits dazu beigetragen, indem wir alle unsere gesetzlich zulässigen Sprachdaten zur Verfügung gestellt haben.“ für sie“, sagte Vare gegenüber ERR.
Vare sagte insbesondere, dass noch mehr Daten digitalisiert und veröffentlicht werden könnten, um zum Erfolg der Initiative beizutragen. „Die großen Sprachmodelle nutzen das gesamte Internet und jedes geschriebene Wort. Im Moment wissen wir nicht genau, was sie woher genommen haben; wir wissen nicht, ob sie Zugriff auf potenziell sensiblere Daten haben. Das wäre wichtig.“ an uns, um es herauszufinden“, sagte sie.
Allerdings besteht derzeit ein Mangel an verfügbaren estnischen Inhalten für das große Sprachmodell. „Nach unserem Kenntnisstand gibt es in den Hauptsprachenkorpora etwa drei Milliarden Wörter öffentlicher estnischer Daten. Im Gegensatz dazu enthält Englisch über 800 Milliarden Wörter. Drei Milliarden scheinen viel zu sein, aber in Wirklichkeit sind sie immer noch unzureichend. Ausbildung an „Die künstliche Intelligenz reicht nicht aus, um die estnische Sprache und Kultur zu verstehen. Sie ist einfach zu wenig“, sagte Vare.
Derzeit ist das EKI dabei, ein umfangreiches estnisches Sprachkorpus zusammenzustellen. „Diese Datensätze sind öffentlich und wir freuen uns, sie weiterzugeben. Die Teilnahme an großen offenen Sprachmodellen und das Sammeln von Daten dafür ist meiner Meinung nach eines der wichtigsten Ziele für den Erhalt der estnischen Sprache“, schloss sie.
—
Folgen Sie ERR News auf Facebook Und Twitter und verpassen Sie kein Update mehr!