Start ChatGPT Generative KI-Megatrends: ChatGPT kann sehen, hören und sprechen – aber was bedeutet...

Generative AI Megatrends: ChatGPT can see, hear and speak – but what does it mean when ChatGPT can think?

Generative KI-Megatrends: ChatGPT kann sehen, hören und sprechen – aber was bedeutet es, wenn ChatGPT denken kann?

Von

Nina Weber

Oktober 3, 2023

Eine der beeindruckendsten generativen KI-Anwendungen, die ich je gesehen habe, ist viperGPT.

Generative KI-Megatrends: <a href= — Generative Ki-Megatrends: Chatgpt Kann Sehen, Hören Und Sprechen – Aber Was Bedeutet Es, Wenn Chatgpt Denken Kann? 1

Das Bild/die Website erklärt es am besten. Die Schritte sind:

Sie beginnen mit einem Bild und einer Eingabeaufforderung. Beispiel: Wie würden Sie die Muffins auf zwei Jungen aufteilen?
Es werden keine weiteren Informationen bereitgestellt
Mithilfe von Computer Vision erkennt das LLM, dass sich auf dem Bild zwei Jungen und acht Muffins befinden
Dann generiert das LLM Code, um diese Muffins zwischen den beiden Jungen aufzuteilen – und kommt so zu der Antwort 4

Dieses Beispiel Anfang des Jahres zeigte das Potenzial multimodaler LLMs

Und seit letzter Woche steht diese Zukunft vor der Tür

ChatGPT kann jetzt sehen, hören und sprechen.

Welche Auswirkungen hat das (gemäß den offenen KI-Ankündigungen)?

Sie können mit ChatGPT sprechen und es zurücksprechen lassen
Sie können Bild- und Spracheingaben bereitstellen und Sprachausgaben erhalten
ChatGPT kann Texte in verschiedenen Sprachen, Stilen und Tönen verstehen und generieren

Mit multimodalen Fähigkeiten können Sie auch an Fertigkeiten auf höherem Niveau arbeiten, bei denen es um die Beschäftigung mit chatGPT über mehrere Modalitäten geht

Das beinhaltet

Proben – Theaterproben
Soft Skills – Vorbereitung auf den Unterricht
Szenariomodellierung –
Ein Kunstwerk fertigstellen – z. B. ein Foto von einem Gemälde machen und eine Geschichte daraus vorschlagen
Inhalte aus Bildern vorschlagen – z. B. den Londoner U-Bahn-Plan zeigen und nach mündlichen Anweisungen fragen

Aber wir könnten für die Schöpfung höhere Abstraktionsebenen erreichen

Erstellen Sie eine App aus einer Skizze
Entwerfen Sie ein Spiel anhand eines Diagramms

Aber was passiert, wenn die Fähigkeit zur Codegenerierung ihre volle Wirkung entfaltet? In seiner ultimativen Inkarnation impliziert dies die Fähigkeit zur Vernunft. Der wahre Wert liegt in der Fähigkeit, besseren Code zu erstellen, der die anderen Modalitäten miteinander verbindet – so wie wir es in ViperGPT sehen

Siehe auch Bei Amazon, eBay und X verraten ChatGPT-Fehlermeldungen KI-Schreiben

Generative KI-Megatrends: ChatGPT kann sehen, hören und sprechen – aber was bedeutet es, wenn chatgPT denken kann?

Eine der beeindruckendsten generativen KI-Anwendungen, die ich je gesehen habe, ist viperGPT.

Das viperGPT-Bild/die viperGPT-Site erklärt es am besten. Die Schritte sind:

Sie beginnen mit einem Bild und einer Eingabeaufforderung. Beispiel: Wie würden Sie die Muffins auf zwei Jungen aufteilen?
Es werden keine weiteren Informationen bereitgestellt
Mithilfe von Computer Vision erkennt das LLM, dass sich auf dem Bild zwei Jungen und acht Muffins befinden
Dann generiert das LLM Code, um diese Muffins zwischen den beiden Jungen aufzuteilen – und kommt so zu der Antwort 4

Dieses Beispiel Anfang des Jahres zeigte das Potenzial multimodaler LLMs

Und seit letzter Woche steht diese Zukunft vor der Tür

ChatGPT kann jetzt sehen, hören und sprechen.

Welche Auswirkungen hat das (gemäß den offenen KI-Ankündigungen)?

Sie können mit ChatGPT sprechen und es zurücksprechen lassen
Sie können Bild- und Spracheingaben bereitstellen und Sprachausgaben erhalten
ChatGPT kann Texte in verschiedenen Sprachen, Stilen und Tönen verstehen und generieren

Mit multimodalen Fähigkeiten können Sie auch an Fertigkeiten auf höherem Niveau arbeiten, bei denen es um die Beschäftigung mit chatGPT über mehrere Modalitäten geht

Das beinhaltet

Proben – Theaterproben
Soft Skills – Vorbereitung auf den Unterricht
Szenariomodellierung –
Ein Kunstwerk fertigstellen – z. B. ein Foto von einem Gemälde machen und eine Geschichte daraus vorschlagen
Inhalte aus Bildern vorschlagen – z. B. den Londoner U-Bahn-Plan zeigen und nach mündlichen Anweisungen fragen

Aber wir könnten für die Schöpfung höhere Abstraktionsebenen erreichen

Erstellen Sie eine App aus einer Skizze
Entwerfen Sie ein Spiel anhand eines Diagramms

Siehe auch Leichter Start: Samsung Flip5 veraltet, ChatGPT Plus aufgeblasen, generative KI unglücklich und Xbox-Spieler zufrieden

Aber was passiert, wenn die Fähigkeit zur Codegenerierung ihre volle Wirkung entfaltet?

In seiner ultimativen Inkarnation impliziert dies die Fähigkeit zur Vernunft.

Der wahre Wert liegt also in der Fähigkeit, besseren Code zu erstellen, der die anderen Modalitäten miteinander verbindet – so wie wir es in ViperGPT sehen

Bildquelle: viperGPT

5/5 - (194 votes)

Generative KI-Megatrends: ChatGPT kann sehen, hören und sprechen – aber was bedeutet es, wenn ChatGPT denken kann?

Kommentieren Sie den Artikel Antwort abbrechen

Fünf League of Legends-Teams, auf die man 2023 achten sollte

Endlich kannst du in The Witcher 3 deinen Pferdefreund Roach streicheln

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

Fünf League of Legends-Teams, auf die man 2023 achten sollte

Endlich kannst du in The Witcher 3 deinen Pferdefreund Roach streicheln

Verwandte Artikel Mehr vom Autor