Zuverlässig, offen und nachhaltig – das sind die Eigenschaften, die bei einem ChatGPT für europäische Sprachen angestrebt werden.
Es müssen jedoch noch große Probleme gelöst werden, bevor ChatGPT als gesellschaftlich vorteilhaft angesehen werden kann. Marco Kuhlmann, Professor an der Universität Linköping in Schweden, entwickelt Methoden zum Verstehen und Computergenerieren menschlicher Sprache. Er ist Teil eines von der Universität Linköping (LiU) koordinierten Projekts.
„Alle waren verblüfft, als ChatGPT und später GPT-4 veröffentlicht wurden, denn es war wirklich faszinierend, wie gut sie waren, nachdem sie mit so großen Datensätzen trainiert wurden. Sie waren plötzlich in der Lage, Aufgaben zu lösen, für die sie nicht speziell trainiert worden waren“, Marco Sagt Kuhlmann.
Allerdings muss man den Modellen vertrauen können, sie müssen wahrheitsgemäße Informationen liefern und dürfen sich nichts ausdenken. ChatGPT ist sehr gut darin, grammatikalisch korrekte und überzeugende Texte zu erstellen, das Modell wurde jedoch nicht darauf trainiert, sachlich korrekte Texte zu generieren.
Die Gewährleistung von Korrektheit und Glaubwürdigkeit gehört daher zu den wichtigsten Fragen, die die Forscher im dreijährigen Forschungsprojekt mit dem treffenden Namen TrustLLM lösen müssen. LLM steht für Large Language Model, der Begriff, der für den Sprachmodelltyp verwendet wird, der ChatGPT umfasst.
Um das Problem besser zu erklären, können sie mit Suchmaschinen verglichen werden. Wenn Sie eine Suchmaschine verwenden, müssen Sie dennoch vorsichtig sein, was die Ergebnisse angeht, die sie zurückgibt. Da es jedoch mehrere Alternativen bietet, können Sie die Liste der Suchergebnisse durchgehen, um festzustellen, ob etwas seltsam erscheint, beispielsweise eine unzuverlässige Quelle. Sie können eine Auswahl treffen, aber wenn Sie ChatGPT und die anderen Modelle verwenden, erhalten Sie nur eine Antwort und keine Möglichkeit, selbst zu entscheiden, welcher der Quellen Sie vertrauen.
Das Projekt soll Bürgern und Industrie gleichermaßen zugute kommen und wird in Zusammenarbeit mit Organisationen aus Deutschland, Island, Dänemark, Norwegen und den Niederlanden durchgeführt. Ein großes Problem bei Sprachmodellen wie ChatGPT und anderen besteht darin, dass sie großen, oft amerikanischen Unternehmen gehören, was sowohl aus gesellschaftlicher als auch aus wissenschaftlicher Sicht ein Problem darstellt.
„Angesichts der zunehmenden Kommerzialisierung von Sprachmodellen haben wir festgestellt, dass Unternehmen immer weniger Details darüber veröffentlichen, wie sie ihre Modelle trainieren, welche Daten sie zum Trainieren verwenden und welche Methoden sie verwenden. Hier können wir mit diesem Projekt ansetzen.“ „, sagt Marco Kuhlmann.
Das Training von Sprachmodellen erfordert viel Energie. Außerdem sind sie teuer im Betrieb. Das Projekt wird das Modell so effizient wie möglich weiterentwickeln, um es zu einem schnellen und nachhaltigen Werkzeug zu machen, das ein Minimum an Energie verbraucht.
„Ich halte die Optimierung der Effizienz und die Reduzierung des Energiebedarfs während des Trainings und während der Weiterentwicklung eines Modells nach dem Training für sehr wichtig, sowohl im Hinblick auf die Umweltauswirkungen als auch aus finanzieller Sicht. Europäische Unternehmen verfügen nicht über die gleichen Ressourcen wie.“ den großen amerikanischen Unternehmen in diesem Bereich“, sagt Marco Kuhlmann.
Seiner Meinung nach könnten die Forscher nun möglicherweise Methoden nachbilden, die die Unternehmen möglicherweise bereits verwenden, und vor allem sollten die im Projekt entwickelten Methoden veröffentlicht und anschließend von der wissenschaftlichen Gemeinschaft kritisch überprüft werden.
Marco Kuhlmann meint, dass die EU unter anderem deshalb in das TrustLLM-Projekt investiert, um nicht zu sehr ins Hintertreffen zu geraten. Das Projekt könnte zu einer Schlüsseltechnologie führen, in der Europa derzeit nicht über so viel Kompetenz verfügt wie die USA, insbesondere nicht im öffentlichen Sektor. Diese Kompetenz ist vor allem bei großen internationalen Unternehmen zu finden, die nicht immer sehr transparent sind. Marco Kuhlmann hofft, dass TrustLLM dazu beitragen wird, dass die EU ihr Niveau erreicht oder sogar übertrifft.
Die Technologie im Projekt soll offen und zugänglich gemacht werden, um vielen Ländern und Unternehmen vielfältigen Nutzen zu bringen. Er weist darauf hin, dass dies auch aus finanzieller Sicht besser sei. Um große Sprachmodelle zu entwickeln, die auf reale Bedürfnisse reagieren, untersucht das Projekt eine Reihe konkreter Anwendungen in den Bereichen Medizin, Medien, Fahrzeuge und Mobilität sowie öffentliche Behörden.
„Wir haben Partner sowohl in der Wissenschaft als auch in der Industrie, und sie können hier an einem Strang ziehen. Diese Offenheit ist wirklich etwas, das uns alle betrifft. Ich denke, dass die Tatsache, dass wir in diesem Projekt mit der Industrie sind, auch ein Grund ist, warum die EU will hier investieren“, sagt Marco Kuhlmann.
Die Forscher werden das Sprachmodell auf der bislang größten Textmenge der europäischen künstlichen Intelligenz, der KI, trainieren. Ein wichtiger Schwerpunkt des Projekts liegt auf einem ethischen Ansatz, indem sichergestellt wird, dass personenbezogene Daten und Urheberrechte bei der Menge der verwendeten Texte geschützt sind.
„Wir arbeiten an der Lösung von Problemen, an denen die gesamte Forschungsgemeinschaft arbeitet und an deren Weiterentwicklung interessiert ist, was dieses Projekt für mich spannend macht. Ich bringe hauptsächlich eine Forschungsperspektive ein. Dabei muss viel Grundlagenforschung betrieben werden.“ Es gibt auch starke finanzielle Anreize, es ist also wirklich eine Win-Win-Situation“, sagt Marco Kuhlmann.
Obwohl die im Rahmen des Projekts zu entwickelnden Technologien sprachunabhängig sein sollen, werden die Forscher in der Endphase des Projekts ein Modell für die germanischen Sprachen Schwedisch, Dänisch, Isländisch, Deutsch und Niederländisch entwickelt haben.
Das Projekt entsteht in einer Art offenem Ökosystem, sodass andere Forscher dann Sprachmodelle für andere europäische Sprachen übernehmen, wiederverwenden und weiterentwickeln können. Ein weiteres Ziel besteht darin, dass das TrustLLM-Projekt und das umgebende Ökosystem dazu beitragen, die Mensch-Maschine-Interaktion kontextualisierter zu gestalten, was eine Vielzahl von Anwendungen ermöglichen wird.
Ziel ist es, dass die entwickelten Modelle die leistungsstärksten und zuverlässigsten Sprachmodelle in Europa sind und dass das Projekt einen großen Durchbruch in der KI darstellt. Auf diese Weise wollen die Forscher einen Beitrag zur Sicherung der europäischen Unabhängigkeit bei wichtigen KI-Technologien leisten und einen neuen Rahmen für die europäische Zusammenarbeit an großen Sprachmodellen schaffen.
Sie wollen den Grundstein für ein europäisches Zentrum für große Sprachmodelle und groß angelegte KI legen, um wissenschaftliche, soziale und finanzielle Auswirkungen zu maximieren.
Fredrik Heintz, Professor für Informatik an der LiU, glaubt, dass die Entwicklung eigener großer Sprachmodelle für Europa von wesentlicher Bedeutung ist: „Wir müssen durch Innovation führen, nicht nur durch Regulierung.“ TrustLLM ist ein wichtiger Schritt, um groß angelegte Investitionen in Europa zu tätigen Natürlich nehmen wir aktiv daran teil und pushen unsere Werte in Form neuer Sprachmodelle.“
Bereitgestellt von der Universität Linköping
Zitat: Entwicklung eines zuverlässigen ChatGPT für europäische Sprachen (2024, 16. Februar), abgerufen am 16. Februar 2024 von https://sciencex.com/wire-news/469552103/developing-a-reliable-chatgpt-for-european-linguals.html
Dieses Dokument unterliegt dem Urheberrecht. Abgesehen von einem fairen Handel zum Zweck des privaten Studiums oder der Forschung darf kein Teil ohne schriftliche Genehmigung reproduziert werden. Der Inhalt dient ausschließlich Informationszwecken.