Laut der Forscherin Laurence Devillers ist das Bloom-Projekt „offener und transparenter“ und ein Sprachmodell, das einen mit chatgpt vergleichbaren Chatbot antreiben könnte; aber anders gestaltet (mehrsprachig: 59 Sprachen, Open Access, 176 Milliarden Parameter).
Der kulturelle Einfluss, die Strategie bei der Datenauswahl, die Transparenz dieser Entscheidungen … so viele politische Interessen, die die Interessen dieses Projekts rechtfertigen, das laut L. Devillers (1) heute völlig unberühmt ist. Wo stehen wir dann mit dem 2022 initiierten Bloom-Projekt? Das CNRS fasst den Fortschritt der französischen Forschung auf diesem Gebiet wie folgt zusammen (2): „Bloom ist ein wenig genutztes Juwel. », räumt François Yvon ein, Forschungsdirektor des CNRS am Interdisziplinären Labor für digitale Wissenschaften.
Der Experte für die automatische Verarbeitung natürlicher Sprachen im mehrsprachigen Kontext war von Anfang an am BigScience-Projekt beteiligt, das von der von drei Franzosen in New York gegründeten Firma Hugging Face initiiert wurde und an dem mehrere hundert Wissenschaftler im Bereich der künstlichen Intelligenz beteiligt waren 72 Länder und Unternehmen wie Airbus, Meta AI, Mozilla, Orange Labs oder Naver Labs. Im Jahr 2022 entstand aus dieser Zusammenarbeit Bloom (für „BigScience Large Open-science Open-access Multilingual Language Model“), ein mehrsprachiges und Open-Source-Sprachmodell, das Texte in 46 Sprachen integriert. Das Ziel: verstehen, wie man ein Modell trainiert, spezialisiert, bewertet und seine Vorurteile erkennt.
„Bloom bietet Leistungen, die mit anderen zum Zeitpunkt seiner Veröffentlichung verfügbaren Modellen vergleichbar sind, wurde jedoch auf einem vielfältigeren mehrsprachigen Korpus als die GPT-32-Referenz trainiert“, erklärt der Forscher, der an der Bewertung der mehrsprachigen Fähigkeiten des Modells beteiligt war Teilnahme am französischen Überwachungsausschuss, der auf Ersuchen des CNRS – dessen Supercomputer Jean Zay das Modell trainierte – und des Ministeriums für Hochschulbildung und Forschung eingerichtet wurde. Aber „es handelte sich um ein inzwischen abgeschlossenes Forschungsprojekt, das nicht für eine kommerzielle Verwertung gedacht war und nicht darauf ausgelegt war, direkt für die breite Öffentlichkeit nutzbar zu sein“. Ein Hindernis, das nur ein wenig IT-Entwicklung erfordern würde: „Alles, was nötig wäre, wäre, dass ein Unternehmen es übernimmt“, wobei das Modell unter einer neuen Art von Lizenz verfügbar wäre (siehe Kasten), die dies ermöglichen würde.
1 – Vortrag beim Kolloquium „Denken und Schaffen mit generativen KIs“, SciencesPo Paris am 30. Juni 3023 (organisiert vom ANR CulturIA-Projektteam (CIS, THALIM), medialab Sciences Po, dem Observatorium für Künstliche Intelligenz und dem Institut für Geschichte und Wissenschafts- und Technikphilosophie).
2 – Französische Forschung im Vergleich zu ChatGPT. CNRS News, 25. April 2023. https://www.cnrs.fr/fr/cnrsinfo/la-recherche-francaise-face-chatgpt
QUELLE: Stiftung für politische Innovation – Newsletter vom 13. Juli 2023