Forscher der spanischen Polytechnischen Universität Madrid (UPM) haben zusammen mit Kollegen der Carlos III-Universität Madrid (UC3M) und der Universität Valladolid (UVa) eine Anwendung namens ChatWords entwickelt, um das Wissen des Systems der künstlichen Intelligenz auszuwerten hat verschiedene Sprachen. Die erste Untersuchung der mehr als 90.000 Wörter im spanischen Wörterbuch der Royal Academy zeigt, dass dem chatgpt-3.5-Turbo-Modell etwa 20 % davon fehlen. Und von den restlichen 80 % missversteht es bis zu 5 %.
Zum besseren Verständnis der Ergebnisse sollte berücksichtigt werden, dass ein Spanisch sprechender Mensch im Durchschnitt 30.000 Wörter erkennt, also fast ein Drittel des gesamten spanischen Wortschatzes. Im Vergleich zur Maschine mag es wie eine schlechte Punktzahl erscheinen, aber bei Systemen mit künstlicher Intelligenz ist das Lexikon der Grundbaustein, und bei der Analyse der ChatGPT-Bedeutungen der Wörter stellen wir oft fest, dass es einen unbestreitbaren Prozentsatz gibt, in dem die Bedeutung, die er hat darauf hinweist, ist falsch, sagt Javier Conde, Assistenzprofessor an der Higher Technical School of Telecommunications Engineers (ETSIT) von UPM und einer der Forscher. „Vielleicht ist ChatGPT nicht so clever, wie es aussieht“, fügt er hinzu.
Es ist vernünftig anzunehmen, dass große Sprachmodelle (LLMs), die auf künstlicher Intelligenz basieren und darauf ausgelegt sind, natürliche Sprache in großem Umfang zu verarbeiten und zu verstehen, keine Wörter verwenden, die sie nicht kennen. Dies wirft eine weitere Sorge auf. Pedro Reviriego, Professor am ETSIT, der ebenfalls an der Forschung beteiligt ist, weist darauf hin, dass es wichtig ist, den lexikalischen Reichtum des durch künstliche Intelligenz erstellten Textes zu gewährleisten.
Die ChatWords-App ist Open Source und so konzipiert, dass sie einfach zu verwenden und zu erweitern ist. Der nächste Schritt der Forscher besteht darin, andere Sprachen und LLMs zu evaluieren, um das lexikalische Wissen, über das Tools der künstlichen Intelligenz verfügen, besser zu verstehen und zu verstehen, wie es sich mit dem Erscheinen neuer Versionen und Tools weiterentwickeln kann. Seine Arbeit ist Teil des Projekts Networks of the Future for Data Processing and Operator Centers, das von der State Research Agency finanziert wird, und wird von OpenAI, dem für ChatGPT zuständigen US-Labor, durch sein Programm für den Zugang zu Forschern unterstützt.
Martínez, G., Conde, J., Reviriego, P., Merino-Gómez, M., Hernández, JA und Lombardi, F. „Wie viele Wörter kennt ChatGPT?“ Die Antwort ist ChatWords.“ arXiv:2309.16777