Wie funktionieren leistungsstarke generative KI-Systeme wie ChatGPT und was unterscheidet sie von anderen Arten künstlicher Intelligenz?
Ein kurzer Blick auf die Schlagzeilen lässt den Eindruck entstehen, dass generative künstliche Intelligenz heutzutage allgegenwärtig ist. Tatsächlich könnten einige dieser Schlagzeilen tatsächlich von generativer KI geschrieben worden sein, wie etwa ChatGPT von OpenAI, ein Chatbot, der eine unheimliche Fähigkeit bewiesen hat, Texte zu produzieren, die scheinbar von einem Menschen geschrieben wurden.
Generative KI verstehen
Aber was meinen die Leute wirklich, wenn sie „generative KI“ sagen?
Vor dem Boom der generativen KI in den letzten Jahren sprach man, wenn man über KI sprach, typischerweise über Modelle des maschinellen Lernens, die lernen können, auf der Grundlage von Daten eine Vorhersage zu treffen. Solche Modelle werden beispielsweise anhand von Millionen von Beispielen trainiert, um vorherzusagen, ob ein bestimmtes Röntgenbild Anzeichen eines Tumors zeigt oder ob ein bestimmter Kreditnehmer wahrscheinlich mit einem Kredit in Verzug geraten wird.
Generative KI kann als ein maschinelles Lernmodell betrachtet werden, das darauf trainiert wird, neue Daten zu erstellen, anstatt eine Vorhersage über einen bestimmten Datensatz zu treffen. Ein generatives KI-System ist eines, das lernt, mehr Objekte zu generieren, die den Daten ähneln, auf denen es trainiert wurde.
„Wenn es um die eigentliche Maschinerie geht, die der generativen KI und anderen Arten von KI zugrunde liegt, können die Unterschiede etwas verschwimmen. Oftmals können für beide die gleichen Algorithmen verwendet werden“, sagt Phillip Isola, außerordentlicher Professor für Elektrotechnik und Informatik an der MITund Mitglied des Computer Science and Artificial Intelligence Laboratory (CSAIL).
Historischer Kontext und Modellkomplexität
Und trotz des Hypes, der mit der Veröffentlichung von ChatGPT und seinen Gegenstücken einherging, ist die Technologie selbst nicht ganz neu. Diese leistungsstarken Modelle für maschinelles Lernen basieren auf Forschungs- und Rechenfortschritten, die mehr als 50 Jahre zurückreichen.
Ein frühes Beispiel für generative KI ist ein viel einfacheres Modell, die sogenannte Markov-Kette. Die Technik ist nach Andrey Markov benannt, einem russischen Mathematiker, der 1906 diese statistische Methode zur Modellierung des Verhaltens zufälliger Prozesse einführte. In maschinelles LernenMarkov-Modelle werden seit langem für Aufgaben zur Vorhersage des nächsten Wortes verwendet, beispielsweise für die Autovervollständigungsfunktion in einem E-Mail-Programm.
Bei der Textvorhersage generiert ein Markov-Modell das nächste Wort in einem Satz, indem es das vorherige Wort oder einige vorherige Wörter betrachtet. Da diese einfachen Modelle jedoch nur so weit zurückblicken können, sind sie nicht gut darin, plausiblen Text zu generieren, sagt Tommi Jaakkola, Thomas-Siebel-Professor für Elektrotechnik und Informatik am MIT, der auch Mitglied von CSAIL und dem Institute for ist Daten, Systeme und Gesellschaft (IDSS).
„Wir haben schon lange vor dem letzten Jahrzehnt Dinge generiert, aber der größte Unterschied besteht hier in der Komplexität der Objekte, die wir generieren können, und im Maßstab, in dem wir diese Modelle trainieren können“, erklärt er.
Noch vor wenigen Jahren konzentrierten sich Forscher eher auf die Suche nach einem Algorithmus für maschinelles Lernen, der einen bestimmten Datensatz optimal nutzt. Aber dieser Fokus hat sich etwas verschoben und viele Forscher verwenden jetzt größere Datensätze, vielleicht mit Hunderten Millionen oder sogar Milliarden von Datenpunkten, um Modelle zu trainieren, die beeindruckende Ergebnisse erzielen können.
Jüngste Schwerpunktverschiebungen in der KI-Forschung
Die Basismodelle, die ChatGPT und ähnlichen Systemen zugrunde liegen, funktionieren weitgehend auf die gleiche Weise wie ein Markov-Modell. Ein großer Unterschied besteht jedoch darin, dass ChatGPT mit Milliarden von Parametern viel größer und komplexer ist. Und es wurde auf einer enormen Datenmenge trainiert – in diesem Fall einem Großteil des öffentlich zugänglichen Textes im Internet.
In diesem riesigen Textkorpus erscheinen Wörter und Sätze in Abfolgen mit bestimmten Abhängigkeiten. Diese Wiederholung hilft dem Modell zu verstehen, wie Text in statistische Blöcke geschnitten wird, die eine gewisse Vorhersagbarkeit aufweisen. Es lernt die Muster dieser Textblöcke und nutzt dieses Wissen, um Vorschläge zu machen, was als nächstes kommen könnte.
Fortschritte in Deep-Learning-Architekturen
Während größere Datensätze ein Katalysator für den Boom der generativen KI sind, führten verschiedene große Forschungsfortschritte auch zu komplexeren Deep-Learning-Architekturen.
Im Jahr 2014 schlugen Forscher der Universität Montreal eine Architektur für maschinelles Lernen vor, die als Generative Adversarial Network (GAN) bekannt ist. GANs verwenden zwei Modelle, die zusammenarbeiten: Das eine lernt, eine Zielausgabe (z. B. ein Bild) zu generieren, und das andere lernt, echte Daten von der Ausgabe des Generators zu unterscheiden. Der Generator versucht, den Diskriminator zu täuschen und lernt dabei, realistischere Ergebnisse zu erzeugen. Der Bildgenerator StyleGAN basiert auf solchen Modellen.
Diffusionsmodelle wurden ein Jahr später von Forschern der Stanford University und der University of California in Berkeley eingeführt. Durch die iterative Verfeinerung ihrer Ausgabe lernen diese Modelle, neue Datenproben zu generieren, die Proben in einem Trainingsdatensatz ähneln, und wurden zur Erstellung realistisch aussehender Bilder verwendet. Ein Diffusionsmodell ist das Herzstück des Text-zu-Bild-Generierungssystems Stable Diffusion.
Im Jahr 2017 stellten Forscher bei google die Transformer-Architektur vor, die zur Entwicklung großer Sprachmodelle verwendet wurde, wie sie beispielsweise ChatGPT unterstützen. Bei der Verarbeitung natürlicher Sprache kodiert ein Transformator jedes Wort in einem Textkorpus als Token und generiert dann eine Aufmerksamkeitskarte, die die Beziehungen jedes Tokens zu allen anderen Token erfasst. Diese Aufmerksamkeitskarte hilft dem Transformator, den Kontext zu verstehen, wenn er neuen Text generiert.
Dies sind nur einige von vielen Ansätzen, die für generative KI genutzt werden können.
Generative KI-Anwendungen
Allen diesen Ansätzen ist gemeinsam, dass sie Eingaben in eine Reihe von Token umwandeln, bei denen es sich um numerische Darstellungen von Datenblöcken handelt. Solange Ihre Daten in dieses Standard-Token-Format konvertiert werden können, könnten Sie diese Methoden theoretisch anwenden, um neue Daten zu generieren, die ähnlich aussehen.
„Ihre Laufleistung kann variieren, je nachdem, wie verrauscht Ihre Daten sind und wie schwierig das Signal zu extrahieren ist, aber es nähert sich wirklich der Art und Weise an, wie eine Allzweck-CPU jede Art von Daten aufnehmen und sie einheitlich verarbeiten kann.“ Art und Weise“, sagt Isola.
Dies eröffnet ein riesiges Anwendungsspektrum für generative KI.
Isolas Gruppe verwendet beispielsweise generative KI, um synthetische Bilddaten zu erstellen, die zum Trainieren eines anderen intelligenten Systems verwendet werden könnten, beispielsweise indem einem Computer-Vision-Modell beigebracht wird, Objekte zu erkennen.
Jaakkolas Gruppe nutzt generative KI, um neuartige Proteinstrukturen oder gültige Kristallstrukturen zu entwerfen, die neue Materialien spezifizieren. Auf die gleiche Weise, wie ein generatives Modell die Abhängigkeiten der Sprache lernt, kann es, wenn ihm stattdessen Kristallstrukturen gezeigt werden, die Beziehungen lernen, die Strukturen stabil und realisierbar machen, erklärt er.
Obwohl generative Modelle unglaubliche Ergebnisse erzielen können, sind sie nicht für alle Datentypen die beste Wahl. Bei Aufgaben, bei denen es darum geht, Vorhersagen zu strukturierten Daten zu treffen, etwa den tabellarischen Daten in einer Tabellenkalkulation, werden generative KI-Modelle tendenziell von herkömmlichen Methoden des maschinellen Lernens übertroffen, sagt Devavrat Shah, Andrew und Erna Viterbi-Professor für Elektrotechnik und Informatik am MIT und Mitglied des IDSS und des Labors für Informations- und Entscheidungssysteme.
„Der größte Wert, den sie haben, besteht meiner Meinung nach darin, diese großartige Schnittstelle zu Maschinen zu schaffen, die benutzerfreundlich sind. Früher mussten Menschen mit Maschinen in der Sprache der Maschinen sprechen, um etwas zu bewirken. Jetzt hat diese Schnittstelle herausgefunden, wie sie sowohl mit Menschen als auch mit Maschinen kommunizieren kann“, sagt Shah.
Herausforderungen und ethische Überlegungen
Generative KI-Chatbots werden mittlerweile in Callcentern eingesetzt, um Fragen menschlicher Kunden zu beantworten. Diese Anwendung unterstreicht jedoch ein potenzielles Warnsignal bei der Implementierung dieser Modelle: die Verdrängung von Arbeitnehmern.
Darüber hinaus kann generative KI in Trainingsdaten vorhandene Vorurteile übernehmen und verstärken oder Hassreden und falsche Aussagen verstärken. Die Modelle haben die Fähigkeit zu plagiieren und können Inhalte generieren, die aussehen, als wären sie von einem bestimmten menschlichen Schöpfer erstellt worden, was potenzielle Urheberrechtsprobleme aufwirft.
Auf der anderen Seite schlägt Shah vor, dass generative KI Künstler befähigen könnte, die generative Werkzeuge nutzen könnten, um ihnen bei der Erstellung kreativer Inhalte zu helfen, für deren Produktion sie sonst möglicherweise nicht die Mittel hätten.
Die Zukunft der generativen KI
Er sieht in der Zukunft, dass generative KI die Wirtschaftswissenschaften in vielen Disziplinen verändern wird.
Eine vielversprechende zukünftige Richtung, die Isola für generative KI sieht, ist deren Einsatz in der Fertigung. Anstatt ein Modell ein Bild von einem Stuhl machen zu lassen, könnte es vielleicht einen Plan für einen Stuhl erstellen, der produziert werden könnte.
Er sieht zukünftige Einsatzmöglichkeiten generativer KI-Systeme auch in der Entwicklung allgemeiner intelligenter KI-Agenten.
„Es gibt Unterschiede in der Funktionsweise dieser Modelle und in der Funktionsweise des menschlichen Gehirns, aber ich denke, es gibt auch Ähnlichkeiten. Wir haben die Fähigkeit, in unserem Kopf zu denken und zu träumen, interessante Ideen oder Pläne zu entwickeln, und ich denke, dass generative KI eines der Werkzeuge ist, die Agenten auch dazu befähigen werden“, sagt Isola.