Eine der beeindruckendsten generativen KI-Anwendungen, die ich je gesehen habe, ist viperGPT.

Generative KI-Megatrends: <a href=chatgpt kann sehen, hören und sprechen – aber was bedeutet es, wenn ChatGPT denken kann?“ decoding=“async“ width=“1024″ height=“372″ srcset=“https://www.datasciencecentral.com/wp-content/uploads/2023/10/Screenshot-2023-10-02-22.03.21-1-1024×372.png 1024w, https://www.datasciencecentral.com/wp-content/uploads/2023/10/Screenshot-2023-10-02-22.03.21-1-300×109.png 300w, https://www.datasciencecentral.com/wp-content/uploads/2023/10/Screenshot-2023-10-02-22.03.21-1-768×279.png 768w, https://www.datasciencecentral.com/wp-content/uploads/2023/10/Screenshot-2023-10-02-22.03.21-1-1536×558.png 1536w, https://www.datasciencecentral.com/wp-content/uploads/2023/10/Screenshot-2023-10-02-22.03.21-1.png 1756w“ src=“https://www.datasciencecentral.com/wp-content/uploads/2023/10/Screenshot-2023-10-02-22.03.21-1-1024×372.png“ data-sizes=“(max-width: 1024px) 100vw, 1024px“ class=“wp-image-63281 lazyload“/>
Generative Ki-Megatrends: Chatgpt Kann Sehen, Hören Und Sprechen – Aber Was Bedeutet Es, Wenn Chatgpt Denken Kann? 1

Das Bild/die Website erklärt es am besten. Die Schritte sind:

  1. Sie beginnen mit einem Bild und einer Eingabeaufforderung. Beispiel: Wie würden Sie die Muffins auf zwei Jungen aufteilen?
  2. Es werden keine weiteren Informationen bereitgestellt
  3. Mithilfe von Computer Vision erkennt das LLM, dass sich auf dem Bild zwei Jungen und acht Muffins befinden
  4. Dann generiert das LLM Code, um diese Muffins zwischen den beiden Jungen aufzuteilen – und kommt so zu der Antwort 4

Dieses Beispiel Anfang des Jahres zeigte das Potenzial multimodaler LLMs

Und seit letzter Woche steht diese Zukunft vor der Tür

ChatGPT kann jetzt sehen, hören und sprechen.

Welche Auswirkungen hat das (gemäß den offenen KI-Ankündigungen)?

  • Sie können mit ChatGPT sprechen und es zurücksprechen lassen
  • Sie können Bild- und Spracheingaben bereitstellen und Sprachausgaben erhalten
  • ChatGPT kann Texte in verschiedenen Sprachen, Stilen und Tönen verstehen und generieren

Mit multimodalen Fähigkeiten können Sie auch an Fertigkeiten auf höherem Niveau arbeiten, bei denen es um die Beschäftigung mit chatGPT über mehrere Modalitäten geht

Das beinhaltet

  1. Proben – Theaterproben
  2. Soft Skills – Vorbereitung auf den Unterricht
  3. Szenariomodellierung –
  4. Ein Kunstwerk fertigstellen – z. B. ein Foto von einem Gemälde machen und eine Geschichte daraus vorschlagen
  5. Inhalte aus Bildern vorschlagen – z. B. den Londoner U-Bahn-Plan zeigen und nach mündlichen Anweisungen fragen

Aber wir könnten für die Schöpfung höhere Abstraktionsebenen erreichen

  1. Erstellen Sie eine App aus einer Skizze
  2. Entwerfen Sie ein Spiel anhand eines Diagramms

Aber was passiert, wenn die Fähigkeit zur Codegenerierung ihre volle Wirkung entfaltet? In seiner ultimativen Inkarnation impliziert dies die Fähigkeit zur Vernunft. Der wahre Wert liegt in der Fähigkeit, besseren Code zu erstellen, der die anderen Modalitäten miteinander verbindet – so wie wir es in ViperGPT sehen

Siehe auch  Bei Amazon, eBay und X verraten ChatGPT-Fehlermeldungen KI-Schreiben

Generative KI-Megatrends: ChatGPT kann sehen, hören und sprechen – aber was bedeutet es, wenn chatgPT denken kann?

Eine der beeindruckendsten generativen KI-Anwendungen, die ich je gesehen habe, ist viperGPT.

Das viperGPT-Bild/die viperGPT-Site erklärt es am besten. Die Schritte sind:

  1. Sie beginnen mit einem Bild und einer Eingabeaufforderung. Beispiel: Wie würden Sie die Muffins auf zwei Jungen aufteilen?
  2. Es werden keine weiteren Informationen bereitgestellt
  3. Mithilfe von Computer Vision erkennt das LLM, dass sich auf dem Bild zwei Jungen und acht Muffins befinden
  4. Dann generiert das LLM Code, um diese Muffins zwischen den beiden Jungen aufzuteilen – und kommt so zu der Antwort 4

Dieses Beispiel Anfang des Jahres zeigte das Potenzial multimodaler LLMs

Und seit letzter Woche steht diese Zukunft vor der Tür

ChatGPT kann jetzt sehen, hören und sprechen.

Welche Auswirkungen hat das (gemäß den offenen KI-Ankündigungen)?

  • Sie können mit ChatGPT sprechen und es zurücksprechen lassen
  • Sie können Bild- und Spracheingaben bereitstellen und Sprachausgaben erhalten
  • ChatGPT kann Texte in verschiedenen Sprachen, Stilen und Tönen verstehen und generieren

Mit multimodalen Fähigkeiten können Sie auch an Fertigkeiten auf höherem Niveau arbeiten, bei denen es um die Beschäftigung mit chatGPT über mehrere Modalitäten geht

Das beinhaltet

  1. Proben – Theaterproben
  2. Soft Skills – Vorbereitung auf den Unterricht
  3. Szenariomodellierung –
  4. Ein Kunstwerk fertigstellen – z. B. ein Foto von einem Gemälde machen und eine Geschichte daraus vorschlagen
  5. Inhalte aus Bildern vorschlagen – z. B. den Londoner U-Bahn-Plan zeigen und nach mündlichen Anweisungen fragen

Aber wir könnten für die Schöpfung höhere Abstraktionsebenen erreichen

  1. Erstellen Sie eine App aus einer Skizze
  2. Entwerfen Sie ein Spiel anhand eines Diagramms
Siehe auch  Leichter Start: Samsung Flip5 veraltet, ChatGPT Plus aufgeblasen, generative KI unglücklich und Xbox-Spieler zufrieden

Aber was passiert, wenn die Fähigkeit zur Codegenerierung ihre volle Wirkung entfaltet?

In seiner ultimativen Inkarnation impliziert dies die Fähigkeit zur Vernunft.

Der wahre Wert liegt also in der Fähigkeit, besseren Code zu erstellen, der die anderen Modalitäten miteinander verbindet – so wie wir es in ViperGPT sehen

Bildquelle: viperGPT

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein