Eine der beeindruckendsten generativen KI-Anwendungen, die ich je gesehen habe, ist viperGPT.
Das Bild/die Website erklärt es am besten. Die Schritte sind:
- Sie beginnen mit einem Bild und einer Eingabeaufforderung. Beispiel: Wie würden Sie die Muffins auf zwei Jungen aufteilen?
- Es werden keine weiteren Informationen bereitgestellt
- Mithilfe von Computer Vision erkennt das LLM, dass sich auf dem Bild zwei Jungen und acht Muffins befinden
- Dann generiert das LLM Code, um diese Muffins zwischen den beiden Jungen aufzuteilen – und kommt so zu der Antwort 4
Dieses Beispiel Anfang des Jahres zeigte das Potenzial multimodaler LLMs
Und seit letzter Woche steht diese Zukunft vor der Tür
ChatGPT kann jetzt sehen, hören und sprechen.
Welche Auswirkungen hat das (gemäß den offenen KI-Ankündigungen)?
- Sie können mit ChatGPT sprechen und es zurücksprechen lassen
- Sie können Bild- und Spracheingaben bereitstellen und Sprachausgaben erhalten
- ChatGPT kann Texte in verschiedenen Sprachen, Stilen und Tönen verstehen und generieren
Mit multimodalen Fähigkeiten können Sie auch an Fertigkeiten auf höherem Niveau arbeiten, bei denen es um die Beschäftigung mit chatGPT über mehrere Modalitäten geht
Das beinhaltet
- Proben – Theaterproben
- Soft Skills – Vorbereitung auf den Unterricht
- Szenariomodellierung –
- Ein Kunstwerk fertigstellen – z. B. ein Foto von einem Gemälde machen und eine Geschichte daraus vorschlagen
- Inhalte aus Bildern vorschlagen – z. B. den Londoner U-Bahn-Plan zeigen und nach mündlichen Anweisungen fragen
Aber wir könnten für die Schöpfung höhere Abstraktionsebenen erreichen
- Erstellen Sie eine App aus einer Skizze
- Entwerfen Sie ein Spiel anhand eines Diagramms
Aber was passiert, wenn die Fähigkeit zur Codegenerierung ihre volle Wirkung entfaltet? In seiner ultimativen Inkarnation impliziert dies die Fähigkeit zur Vernunft. Der wahre Wert liegt in der Fähigkeit, besseren Code zu erstellen, der die anderen Modalitäten miteinander verbindet – so wie wir es in ViperGPT sehen
Generative KI-Megatrends: ChatGPT kann sehen, hören und sprechen – aber was bedeutet es, wenn chatgPT denken kann?
Eine der beeindruckendsten generativen KI-Anwendungen, die ich je gesehen habe, ist viperGPT.
Das viperGPT-Bild/die viperGPT-Site erklärt es am besten. Die Schritte sind:
- Sie beginnen mit einem Bild und einer Eingabeaufforderung. Beispiel: Wie würden Sie die Muffins auf zwei Jungen aufteilen?
- Es werden keine weiteren Informationen bereitgestellt
- Mithilfe von Computer Vision erkennt das LLM, dass sich auf dem Bild zwei Jungen und acht Muffins befinden
- Dann generiert das LLM Code, um diese Muffins zwischen den beiden Jungen aufzuteilen – und kommt so zu der Antwort 4
Dieses Beispiel Anfang des Jahres zeigte das Potenzial multimodaler LLMs
Und seit letzter Woche steht diese Zukunft vor der Tür
ChatGPT kann jetzt sehen, hören und sprechen.
Welche Auswirkungen hat das (gemäß den offenen KI-Ankündigungen)?
- Sie können mit ChatGPT sprechen und es zurücksprechen lassen
- Sie können Bild- und Spracheingaben bereitstellen und Sprachausgaben erhalten
- ChatGPT kann Texte in verschiedenen Sprachen, Stilen und Tönen verstehen und generieren
Mit multimodalen Fähigkeiten können Sie auch an Fertigkeiten auf höherem Niveau arbeiten, bei denen es um die Beschäftigung mit chatGPT über mehrere Modalitäten geht
Das beinhaltet
- Proben – Theaterproben
- Soft Skills – Vorbereitung auf den Unterricht
- Szenariomodellierung –
- Ein Kunstwerk fertigstellen – z. B. ein Foto von einem Gemälde machen und eine Geschichte daraus vorschlagen
- Inhalte aus Bildern vorschlagen – z. B. den Londoner U-Bahn-Plan zeigen und nach mündlichen Anweisungen fragen
Aber wir könnten für die Schöpfung höhere Abstraktionsebenen erreichen
- Erstellen Sie eine App aus einer Skizze
- Entwerfen Sie ein Spiel anhand eines Diagramms
Aber was passiert, wenn die Fähigkeit zur Codegenerierung ihre volle Wirkung entfaltet?
In seiner ultimativen Inkarnation impliziert dies die Fähigkeit zur Vernunft.
Der wahre Wert liegt also in der Fähigkeit, besseren Code zu erstellen, der die anderen Modalitäten miteinander verbindet – so wie wir es in ViperGPT sehen
Bildquelle: viperGPT