midjourney“ href=“https://img-0.journaldunet.com/KZpittysz_chLFs6Zui-dUXmf_Y=/1500x/smart/b7121c4f41114e4db78b5ed74c133853/ccmcms-jdn/39491453.jpg“ class=“fancy“>
China arbeitet hart daran, bei der generativen KI aufzuholen. Baidu und Alibaba investieren in diesem Bereich und mobilisieren Millionen von Entwicklern.
Mit dem Aufkommen von ChatGPT und ihre globalen Auswirkungen ist generative KI innerhalb weniger Monate zu einem wichtigen geopolitischen Thema geworden. Angesichts der Leistungsfähigkeit von OpenAI hat sich China in die Schlacht geholt. Bereits im März 2023 lüftete Baidu den Schleier über Ernie Bot. Die erste Version der Anwendung, die Mandarin und mehrere chinesische Dialekte integriert, ist enttäuschend. Es wurde entwickelt, um Texte und Videos zu generieren und mathematische Berechnungen durchzuführen. Es erreicht jedoch bei weitem nicht die allgemeinen KI-Fähigkeiten von ChatGPT. Das Vorgehen von Baidu sorgt dann für Aufsehen an der Börse. Robin Li, CEO der Gruppe, erkennt an, dass der Assistent seinem Konkurrenten „unterlegen“ ist, betont jedoch, dass er angesichts der Markterwartungen schnell formalisiert werden sollte.
Während seiner Wave Summit Deep Learning-Konferenz am 16. August 2023 stellt Baidu eine neue Version von Ernie Bot vor. Diesmal entspricht das Ergebnis den Erwartungen. Die neue Version wurde größtenteils neu geschrieben und ist vor allem schneller. Anschließend integriert es eine Reihe von Plugins, um die umfassende Funktionspalette zu erweitern. Wie das Gateway zwischen ChatGPT und Bing ermöglicht Baidu Search die Integration von Ernie in die Suchmaschine von Baidu. Ziel: Gehen Sie dorthin, um spontan Antworten auf die gestellten Fragen zu erhalten, auch zu aktuellen Nachrichten. Eine weitere Erweiterung, ChatFile, verwaltet Konversationsinteraktionen mit langen Dokumenten. Ein Plugin namens Data Analytics & Visualization generiert Diagramme und Wortwolken. Eine andere (visuelle Interaktion) unterstützt Dialoge mit Einbindung von Bildern. Schließlich wandelt Text-to-Video Text in Video um.
Ende August 2023 ist die Lösung für die breite Öffentlichkeit zugänglich. Innerhalb eines Tages hätten Internetnutzer mehr als 33 Millionen Anfragen gestellt. Das Ergebnis scheint den Erwartungen gerecht zu werden. Das Modell ist insbesondere in der Lage, Argumente im Konversationsmodus oder im Gedankenkettenmodus zu generieren. Einziger Nachteil und nicht zuletzt: Ernie vermeidet heikle Themen für das chinesische Regime. Auf die Erinnerung an die gewaltsame Unterdrückung der Demonstrationen für Demokratie auf dem Platz des Himmlischen Friedens in Peking im Jahr 1989 antwortete er: „Wechseln wir das Thema und fangen wir noch einmal von vorne an.“ Bei einer Abfrage zum aktuellen Dalai Lama liefert es Informationen über den Dalai Lama, der im 17. Jahrhundert lebte.
Ziel: Die aufgelaufene Verzögerung ausgleichen
Hinter den Kulissen bringt Baidu gleichzeitig Version 2.5 von PaddlePaddle auf den Markt, der Open-Source-Plattform für tiefes Lernen welches Ernie Bot antreibt. Zu diesem Anlass ist es mit einer völlig neuen Architektur und optimierten Differentialfunktionen ausgestattet. PaddlePaddle verbessert unter anderem seine Trainings- und Inferenzleistung durch die Implementierung adaptiver hybrider paralleler Lerntechnologien und verschiedener Optimierungen, die sich insbesondere auf Komprimierung, Inferenz und Modellbereitstellung auswirken.
Parallel dazu liefert die chinesische Suchmaschine Baidu Comate. Ein Programmierassistent, der Code, Kommentare, Tests und Dokumentation in mehr als 30 Sprachen generiert und mehr als 10 Entwicklungsumgebungen unterstützt. Laut Baidu handelt es sich um das erste in China entwickelte Tool dieser Art.
Baidu ist nicht die einzige chinesische Gruppe im Rennen. Ab April 2023 zieht Alibaba mit Tongyi Qianwen nach. Ein Chatbot basierend auf einem großen Sprachmodell (LLM) mit 7 Milliarden Parametern: Qwen-7B. Das LMM hat Milliarden von Wörtern und Phrasen aus verschiedenen Bereichen aufgenommen: Nachrichten, Finanzen, Bildung, Literatur, soziale Medien, E-Commerce, Freizeit … Wie ChatGPT verlässt sich Tongyi Qianwen auf mehrere Ebenen, um die Fragen zu kontextualisieren: Vektorisierung, Vortraining, Transformation, Selbstaufmerksamkeit. Ebenso werden nicht nur Antworten generiert. Er ist in der Lage, Texte nach einem Thema und einem vorgegebenen Stil zu verfassen, sogar Dokumente zu synthetisieren und sogar zu übersetzen. Es unterstützt mehrere Sprachen, darunter Mandarin, Japanisch, Koreanisch und Englisch.
Anfang Juni kündigte Alibaba die Integration von Tongyi Qianwen in sein Cloud-Angebot Tongyi Tingwu an, das auf die Übersetzung von Sprach- oder Videonachrichten in Text zugeschnitten ist. Ziel: Multimedia-Inhalte präziser transkribieren und gleichzeitig eine Zusammenfassung ihrer wichtigsten Punkte bieten. Tongyi Qianwen wird bis Ende des Jahres weitere cloudbasierte KI-Funktionen entwickeln. Auf dem Programm: Simultanübersetzung zwischen Englisch und Chinesisch, die Erstellung einer PowerPoint-Diashow-Synthese oder die automatische Zusammenstellung von Audio-/Video-Antworten.
Eine Community von 6 Millionen Entwicklern
Sowohl Baidu als auch Alibaba sind sich hinter der Technologie bewusst, dass der Erfolg von der Entwicklung einer Entwicklergemeinschaft abhängt. Auf der Seite von Baidu heben wir ein Foundation Models-Entwicklungsstudio (das AI Studio) hervor, um das sich nicht weniger als 6,09 Millionen Entwickler zusammengeschlossen haben. Auf Alibaba-Seite haben wir das Tongyi Qianwen Partnership Program ins Leben gerufen, dessen Ziel es ist, gemeinsam mit Partnern aus verschiedenen Branchen, vom Transport bis zum Finanzwesen, einschließlich Energie, Petrochemie, Telekommunikation oder sogar der Hotelbranche, vertikale LLMs zu schaffen.
Es ist noch nicht fertig. Der Cloud-Zweig von Alibaba am Ursprung von Tongyi Qianwen (Alibaba Cloud) liefert Ende August zwei Open-Source-LLMs: Qwen-VL und Qwen-VL-Chat. Die multimodale Version von Qwen-7B konzentriert sich zunächst auf die Bilderkennung. Es kann beispielsweise offene Fragen rund um mehrere Fotos beantworten oder sogar Bildunterschriften generieren, allerdings ohne HD-Unterstützung. Beim zweiten vorgestellten Open-Source-LLM handelt es sich um ein Konversationsmodell, das darauf ausgelegt ist, auf komplexe Interaktionen zu reagieren. „Aufbauend auf Ausrichtungstechniken verfügt dieser KI-Assistent über eine Reihe kreativer Fähigkeiten, darunter das Schreiben von Gedichten und Geschichten aus Bildern, das Zusammenfassen des Inhalts mehrerer Bilder und das Lösen von auf Bildern angezeigten mathematischen Fragen“, sagte ein Sprecher von Alibaba Cloud.
Neuestes Kapitel: Anfang September zählte der CEO von Baidu, Robin Li, in China mehr als 70 Sprachmodelle mit jeweils mehr als einer Milliarde Parametern.