Zuverlässig, offen und nachhaltig – das sind die Eigenschaften, die bei einem chatgpt für europäische Sprachen angestrebt werden. Es müssen jedoch noch große Probleme gelöst werden, bevor ChatGPT als gesellschaftlich vorteilhaft angesehen werden kann. Marco Kuhlmann, Professor an der Universität Linköping in Schweden, entwickelt Methoden zum Verstehen und Computergenerieren menschlicher Sprache. Er ist Teil eines von der Universität Linköping (LiU) koordinierten Projekts, das mit rund 6,9 Millionen Euro gefördert wurde.
„Alle waren verblüfft, als ChatGPT und später GPT-4 veröffentlicht wurden, denn es war wirklich faszinierend, wie gut sie waren, da sie mit so großen Datensätzen trainiert wurden. Sie waren plötzlich in der Lage, Aufgaben zu lösen, für die sie nicht speziell ausgebildet waren“, sagt Marco Kuhlmann.
Doch bevor ChatGPT als gesellschaftlicher Nutzen betrachtet werden kann, müssen noch große Probleme gelöst werden. Man muss den Modellen vertrauen können, sie müssen wahrheitsgemäße Informationen liefern und dürfen nichts erfinden. ChatGPT ist sehr gut darin, grammatikalisch korrekte und überzeugende Texte zu erstellen, das Modell wurde jedoch nicht darauf trainiert, sachlich korrekte Texte zu generieren. Die Sicherstellung von Korrektheit und Glaubwürdigkeit gehört daher zu den wichtigsten Fragen, die die Forscher in dem dreijährigen Forschungsprojekt mit dem treffenden Namen TrustLLM lösen müssen. LLM steht für Large Language Model, der Begriff, der für die Art von Sprachmodellen verwendet wird, zu denen ChatGPT gehört.
Um das Problem besser zu erklären, können sie mit Suchmaschinen verglichen werden. Wenn Sie eine Suchmaschine verwenden, müssen Sie dennoch vorsichtig sein, was die Ergebnisse angeht, die sie zurückgibt. Da es jedoch mehrere Alternativen bietet, können Sie die Liste der Suchergebnisse durchgehen, um festzustellen, ob etwas seltsam erscheint, beispielsweise eine unzuverlässige Quelle. Sie können eine Auswahl treffen, aber wenn Sie ChatGPT und die anderen Modelle verwenden, erhalten Sie nur eine Antwort und keine Möglichkeit, selbst zu entscheiden, welcher der Quellen Sie vertrauen.
Das Projekt soll Bürgern und Industrie gleichermaßen zugute kommen und wird in Zusammenarbeit mit Organisationen aus Deutschland, Island, Dänemark, Norwegen und den Niederlanden durchgeführt. Die Finanzierung erfolgt durch Horizon Europe, das wichtigste Förderprogramm der EU für Forschung und Innovation.
Ein großes Problem bei Sprachmodellen wie ChatGPT und anderen besteht darin, dass sie großen, oft amerikanischen Unternehmen gehören, was sowohl aus gesellschaftlicher als auch aus wissenschaftlicher Sicht ein Problem darstellt.
„Angesichts der zunehmenden Kommerzialisierung von Sprachmodellen haben wir festgestellt, dass Unternehmen immer weniger Details darüber veröffentlichen, wie sie ihre Modelle trainieren, welche Daten sie für das Training verwenden und welche Methoden sie verwenden. Hier können wir mit diesem Projekt ansetzen“, sagt Marco Kuhlmann.
Das Training von Sprachmodellen erfordert viel Energie. Außerdem sind sie teuer im Betrieb. Das Projekt wird das Modell so effizient wie möglich weiterentwickeln, um es zu einem schnellen und nachhaltigen Werkzeug zu machen, das ein Minimum an Energie verbraucht.
„Ich halte Effizienzoptimierung und Reduzierung des Energiebedarfs während des Trainings und während der Weiterentwicklung eines Modells nach dem Training für sehr wichtig, sowohl im Hinblick auf die Umweltauswirkungen als auch aus finanzieller Sicht. Europäische Unternehmen verfügen in diesem Bereich nicht über die gleichen Ressourcen wie die großen amerikanischen Unternehmen“, sagt Marco Kuhlmann.
Er glaubt, dass die Forscher nun möglicherweise Methoden nachbilden können, die die Unternehmen möglicherweise bereits verwenden, und vor allem, dass die im Projekt entwickelten Methoden veröffentlicht und anschließend von der wissenschaftlichen Gemeinschaft kritisch überprüft werden sollten.
Marco Kuhlmann meint, dass die EU unter anderem deshalb in das TrustLLM-Projekt investiert, um nicht zu sehr ins Hintertreffen zu geraten. Das Projekt könnte zu einer Schlüsseltechnologie führen, in der Europa derzeit nicht über so viel Kompetenz verfügt wie die USA, insbesondere nicht im öffentlichen Sektor. Diese Kompetenz ist vor allem bei großen internationalen Unternehmen zu finden, die nicht immer sehr transparent sind. Marco Kuhlmann hofft, dass TrustLLM dazu beitragen wird, dass die EU ihr Niveau erreicht oder sogar übertrifft.
Die Technologie im Projekt soll offen und zugänglich gemacht werden, um vielen Ländern und Unternehmen vielfältigen Nutzen zu bringen. Er weist darauf hin, dass dies auch aus finanzieller Sicht besser sei. Um große Sprachmodelle zu entwickeln, die auf reale Bedürfnisse reagieren, untersucht das Projekt eine Reihe konkreter Anwendungen in den Bereichen Medizin, Medien, Fahrzeuge und Mobilität sowie öffentliche Behörden.
„Wir haben Partner sowohl aus der Wissenschaft als auch aus der Industrie, und sie können hier an einem Strang ziehen. Diese Offenheit geht uns wirklich alle an. Ich denke, dass die Tatsache, dass wir mit der Industrie in diesem Projekt sind, auch ein Grund ist, warum die EU hier investieren will“, sagt Marco Kuhlmann.
Die Forscher werden das Sprachmodell auf der bislang größten Textmenge der europäischen künstlichen Intelligenz, der KI, trainieren. Ein wichtiger Schwerpunkt des Projekts liegt auf einem ethischen Ansatz, indem sichergestellt wird, dass personenbezogene Daten und Urheberrechte bei den verwendeten Textmengen geschützt sind.
„Wir arbeiten an der Lösung von Problemen, an denen die gesamte Forschungsgemeinschaft arbeitet und an deren Fortschritt sie interessiert sind, was dieses Projekt für mich spannend macht. Ich bringe hauptsächlich eine Forschungsperspektive ein. Es muss viel Grundlagenforschung betrieben werden und es gibt auch starke finanzielle Anreize, also ist es wirklich eine Win-Win-Situation“, sagt Marco Kuhlmann.
Obwohl die im Projekt zu entwickelnden Technologien sprachunabhängig sein sollen, werden die Forscher in der Endphase des Projekts ein Modell für die germanischen Sprachen Schwedisch, Dänisch, Isländisch, Deutsch und Niederländisch entwickelt haben. Das Projekt entsteht in einer Art offenem Ökosystem, sodass andere Forscher dann Sprachmodelle für andere europäische Sprachen übernehmen, wiederverwenden und weiterentwickeln können. Ein weiteres Ziel besteht darin, dass das TrustLLM-Projekt und das umgebende Ökosystem dazu beitragen, die Mensch-Maschine-Interaktion kontextualisierter zu gestalten, was zahlreiche Anwendungsmöglichkeiten bieten wird.
Ziel ist es, dass die entwickelten Modelle die leistungsstärksten und zuverlässigsten Sprachmodelle in Europa sind und dass das Projekt einen großen Durchbruch in der KI darstellt. Auf diese Weise wollen die Forscher einen Beitrag zur Sicherung der europäischen Unabhängigkeit bei wichtigen KI-Technologien leisten und einen neuen Rahmen für die europäische Zusammenarbeit an großen Sprachmodellen schaffen. Sie wollen den Grundstein für ein europäisches Zentrum für große Sprachmodelle und groß angelegte KI legen, um wissenschaftliche, soziale und finanzielle Auswirkungen zu maximieren.
Fredrik Heintz, Professor für Informatik an der LiU, glaubt, dass die Entwicklung eigener großer Sprachmodelle für Europa von wesentlicher Bedeutung ist:
„Wir müssen durch Innovation führen, nicht nur durch Regulierung. TrustLLM ist ein wichtiger Schritt hin zu Großinvestitionen in Europa, um sicherzustellen, dass wir uns aktiv beteiligen und unsere Werte in Form neuer Sprachmodelle vorantreiben.“
Haftungsausschluss: AAAS und EurekAlert! sind nicht verantwortlich für die Richtigkeit der auf EurekAlert veröffentlichten Pressemitteilungen! durch beitragende Institutionen oder für die Nutzung jeglicher Informationen über das EurekAlert-System.