Letzte Woche kündigte das Unternehmen auf der jährlichen google-Konferenz, die neuen Produkten und Technologien gewidmet ist, eine Änderung an seinem führenden KI-Produkt an: Der Bard-Chatbot wird, wie auch der GPT-4 von OpenAI, dies tun bald Bilder beschreiben können. Auch wenn es wie ein kleines Update erscheinen mag, ist die Verbesserung Teil einer stillen Revolution in der Art und Weise, wie Unternehmen, Forscher und Verbraucher KI entwickeln und nutzen – und treibt die Technologie nicht nur über die Ummischung geschriebener Sprache hinaus und in andere Medien, sondern hin zu dem höheren Ziel von ein reichhaltiges und gründliches Verständnis der Welt. chatgpt ist sechs Monate alt und sieht bereits veraltet aus.
Dieses Programm und seine Cousins, sogenannte große Sprachmodelle, imitieren Intelligenz, indem sie vorhersagen, welche Wörter in einem Satz statistisch gesehen wahrscheinlich aufeinander folgen. Forscher haben diese Modelle an immer mehr Texten trainiert – derzeit an jedem Buch überhaupt und noch mehr – mit der Annahme, dass die Zwangsernährung von Maschinen mit mehr Wörtern in unterschiedlichen Konfigurationen zu besseren Vorhersagen und intelligenteren Programmen führt. Dieser textmaximalistische Ansatz bei der KI-Entwicklung ist seit Jahren vorherrschend, insbesondere bei den öffentlichkeitswirksamsten Unternehmensprodukten.
Mittlerweile gibt es aber auch reine Sprachmodelle wie das ursprüngliche ChatGPT nachgeben bis hin zu Maschinen, die auch Bilder, Audio und sogar sensorische Daten von Robotern verarbeiten können. Der neue Ansatz könnte ein menschlicheres Verständnis von Intelligenz widerspiegeln, einen frühen Versuch, sich anzunähern, wie ein Kind lernt, indem es in der Welt existiert und sie beobachtet. Es könnte Unternehmen auch dabei helfen, KI zu entwickeln, die mehr Aufgaben erledigen kann und daher in mehr Produkte verpackt werden kann.
GPT-4 und Bard sind nicht die einzigen Programme mit diesen erweiterten Funktionen. Ebenfalls letzte Woche veröffentlichte Meta ein Programm namens ImageBind das Text, Bilder, Audio, Informationen über Tiefe, Infrarotstrahlung sowie Informationen über Bewegung und Position verarbeitet. Google ist aktuell PaLM-E wurde sowohl auf Sprache als auch auf sensorische Daten von Robotern geschult, und das Unternehmen hat dies getan gehänselt ein neues, leistungsfähigeres Modell, das über den Text hinausgeht. Microsoft hat seine eigene Modell, das auf Wort und Bild trainiert wurde. Text-zu-Bild-Generatoren wie DALL-E 2, der letzten Sommer das Internet für Aufsehen sorgte, werden auf mit Untertiteln versehene Bilder trainiert.
Diese werden als bekannt multimodal Modelle – Text ist eine Modalität, Bilder eine andere – und viele Forscher Hoffnung Sie werden die KI auf ein neues Niveau bringen. Die großartigste Zukunft ist eine, in der KI nicht nur darauf beschränkt ist, formelhafte Aufsätze zu schreiben und Menschen in Slack zu unterstützen; Es wäre in der Lage, das Internet zu durchsuchen, ohne etwas zu erfinden, ein Video zu animieren, einen Roboter zu steuern oder selbst eine Website zu erstellen (wie es GPT-4 in einer Demonstration tat, basierend auf einem losen, von einem Menschen skizzierten Konzept).
Ein multimodaler Ansatz könnte theoretisch ein zentrales Problem rein sprachlicher Modelle lösen: Selbst wenn sie Wörter fließend aneinanderreihen können, haben sie Schwierigkeiten, diese Wörter mit Konzepten, Ideen, Objekten oder Ereignissen zu verbinden. „Wenn sie über einen Stau sprechen, haben sie keine Erfahrung mit Staus, die über das hinausgeht, was sie aus anderen Sprachfragmenten damit assoziieren“, sagt Melanie Mitchell, KI-Forscherin und Kognitionswissenschaftlerin am Santa Fe Institute. sagte mir – aber wenn die Trainingsdaten einer KI Videos von Staus umfassen könnten, „können sie viel mehr Informationen sammeln.“ Das Lernen aus mehr Arten von Daten könnte KI-Modellen helfen, sich diese vorzustellen und mit ihnen zu interagieren physische Umgebungenetwas Näheres entwickeln gesunder Menschenverstandund sogar Probleme bei der Herstellung angehen. Wenn ein Modell die Welt versteht, ist es möglicherweise weniger wahrscheinlich, dass es Dinge darüber erfindet.
Der Vorstoß zu multimodalen Modellen ist nicht ganz neu; Google, Facebook, und andere führten vor fast einem Jahrzehnt automatisierte Bildunterschriftensysteme ein. Aber ein paar wichtige Veränderungen in der KI-Forschung haben domänenübergreifende Ansätze in den letzten Jahren möglicher und vielversprechender gemacht, sagte mir Jing Yu Koh, der multimodale KI an der Carnegie Mellon studiert. Während Informatikbereiche wie die Verarbeitung natürlicher Sprache, Computer Vision und Robotik jahrzehntelang äußerst unterschiedliche Methoden verwendeten, nutzen sie heute alle eine Programmiermethode namens „Deep Learning“. Dadurch sind ihr Code und ihre Ansätze ähnlicher geworden und ihre Modelle lassen sich leichter ineinander integrieren. Und Internetgiganten wie Google und Facebook haben immer größere Datenmengen an Bildern und Videos kuratiert, und Computer werden immer leistungsfähiger genug, um damit umzugehen.
Es gibt auch einen praktischen Grund für die Änderung. Das Internet, egal wie unfassbar groß es auch erscheinen mag, enthält eine begrenzte Menge an Texten, mit denen die KI trainiert werden kann. Und es gibt eine realistische Grenze dafür, wie groß und unhandlich diese Programme werden können und wie viel Rechenleistung sie verbrauchen können, sagte mir Daniel Fried, Informatiker an der Carnegie Mellon. Forscher „fangen an, über den Text hinauszugehen, um Modelle hoffentlich mit den Daten, die sie sammeln können, leistungsfähiger zu machen.“ In der Tat hat Sam Altman, CEO von OpenAI und, auch dank der Zeugenaussage dieser Woche vor dem Senat, eine Art Aushängeschild der Branche genannt dass die Ära der Skalierung textbasierter Modelle wahrscheinlich vorbei ist – nur wenige Monate nachdem ChatGPT angeblich zum neuen wurde am schnellsten wachsende Verbraucher-App aller Zeiten.
Wie viel besser multimodale KI die Welt verstehen wird als ChatGPT und wie viel flüssiger ihre Sprache sein wird, wenn überhaupt, steht zur Debatte. Obwohl viele ausstellen besser Leistung Im Vergleich zu reinen Sprachprogrammen – insbesondere bei Aufgaben mit Bildern und 3D-Szenarien, etwa der Beschreibung von Fotos und der Vorstellung des Ergebnisses eines Satzes – waren sie in anderen Bereichen nicht so herausragend. Im technischer Bericht Begleitend zu GPT-4 berichteten Forscher von OpenAI über nahezu keine Verbesserung der Leistung standardisierter Tests, wenn sie Sehkraft hinzufügten. Das Modell halluziniert auch weiterhin – es macht selbstbewusst falsche Aussagen, die absurd, auf subtile Weise falsch oder einfach nur verabscheuungswürdig sind. Googles PaLM-E hat es tatsächlich getan schlechter bei Sprachaufgaben als das rein sprachbasierte PaLM-Modell, möglicherweise weil das Hinzufügen sensorischer Informationen des Roboters mit dem Verlust einiger Sprache in seinen Trainingsdaten und -fähigkeiten einherging. Diese Forschung befinde sich jedoch noch in einem frühen Stadium, sagte Fried, und könne in den kommenden Jahren verbessert werden.
Wir bleiben weit entfernt von allem, was die Denkweise der Menschen wirklich nachahmen würde. „Ob diese Modelle Intelligenz auf menschlicher Ebene erreichen werden – das halte ich angesichts der Art von Architekturen, die sie derzeit verwenden, für unwahrscheinlich“, sagte mir Mitchell. Auch wenn ein Programm wie ImageBind von Meta Bilder und Ton verarbeiten kann, lernen Menschen auch durch die Interaktion mit anderen Menschen, verfügen über ein Langzeitgedächtnis und wachsen aus Erfahrungen und sind das Produkt einer Millionen von Jahren der Evolution – um nur einige Beispiele zu nennen Künstliche und organische Intelligenz passen nicht zusammen.
Und genauso wie das Werfen von mehr Textdaten auf KI-Modelle die seit langem bestehenden Probleme mit Voreingenommenheit und Fälschung nicht lösen konnte, ist das Werfen von noch mehr Textdaten eine Lösung Typen der Datenmengen an den Maschinen wird dies auch nicht unbedingt tun. Ein Programm, das nicht nur verzerrten Text, sondern auch verzerrte Bilder aufnimmt, wird immer noch schädliche Ausgaben erzeugen, allerdings über mehrere Medien hinweg. Text-zu-Bild-Modelle wie Stable Diffusion haben sich beispielsweise bewährt Rassist Und Sexist Vorurteile, wie etwa die Assoziation schwarzer Gesichter mit dem Wort Schurke. Undurchsichtige Infrastrukturen und Trainingsdatensätze erschweren die Regulierung und Prüfung der Software; die Möglichkeit der Arbeit und Urheberrechte © Verstöße könnten nur noch zunehmen, da die KI noch mehr Arten von Daten aufsaugen muss.
Multimodale KI könnte sogar sein mehr anfälliger für bestimmte Arten von Manipulationen, wie zum Beispiel das Ändern von Schlüsselpixeln in einem Bild, als Modelle, die nur die Sprache beherrschen, sagte Mitchell. Irgendeine Form der Fälschung wird wahrscheinlich weitergehen und möglicherweise sogar noch überzeugender und gefährlicher sein, weil die Halluzinationen visueller Natur sein werden – stellen Sie sich vor, dass die KI einen Skandal in der Größenordnung gefälschter Bilder von Donald Trumps Verhaftung heraufbeschwört. „Ich glaube nicht, dass Multimodalität für viele dieser Probleme ein Allheilmittel oder ähnliches ist“, sagte Koh.
Abgesehen von der Intelligenz könnte multimodale KI einfach ein besseres Geschäftsangebot sein. Sprachmodelle sind für das Silicon Valley bereits ein Goldrausch: Vor dem Unternehmensboom in der Multimodalität erwartete OpenAI Berichten zufolge bis 2024 einen Umsatz von 1 Milliarde US-Dollar; mehrere jüngste Analysen prognostizierten, dass ChatGPT in einigen Jahren den Jahresumsatz von Microsoft um mehrere zehn Milliarden Dollar steigern wird.
Multimodal zu werden, könnte wie die Suche nach El Dorado sein. Solche Programme bieten den Kunden einfach mehr als das reine Text-ChatGPT, z. B. die Beschreibung von Bildern und Videos, die Interpretation oder sogar die Erstellung von Diagrammen, nützlichere persönliche Assistenten und so weiter. Multimodale KI könnte Beratern und Risikokapitalgebern helfen, bessere Ergebnisse zu erzielen Dia-DecksVerbesserung bestehender, aber fleckiger Software, die Bilder und die Umgebung beschreibt sehbehinderte MenschenBeschleunigen Sie die Bearbeitung belastender Aufgaben elektronische Gesundheitsaktenund führen Sie uns durch die Straßen, nicht als Karte, sondern indem Sie die Gebäude um uns herum beobachten.
Anwendungen in der Robotik, selbstfahrenden Autos, in der Medizin und mehr lassen sich leicht heraufbeschwören, auch wenn sie nie Wirklichkeit werden – wie eine goldene Stadt, die, auch wenn sie sich als mythisch erweist, immer noch eine Eroberung rechtfertigt. Multimodalität muss nicht deutlich mehr bringen intelligent Maschinen ergreifen. Es müssen lediglich scheinbar profitablere Unternehmen geschaffen werden.