2023 fühlt sich wie ein Jahr an, das der künstlichen Intelligenz und ihren ständig wachsenden Fähigkeiten gewidmet ist, aber die Ära der reinen Textausgabe verliert bereits an Fahrt. Die KI-Szene wird vielleicht von Giganten wie chatgpt und google Bard dominiert, aber ein neues großes Sprachmodell (LLM), NExT-GPT, ist hier, um die Dinge aufzumischen – es bietet die volle Fülle an Text-, Bild-, Audio- und Videoausgaben.

NExT-GPT ist die Idee von Forschern der National University of Singapore und der Tsinghua University. Als „Any-to-Any“-System konzipiert, NExT-GPT kann Eingaben in verschiedenen Formaten akzeptieren und Antworten entsprechend der gewünschten Ausgabe in Form von Video-, Audio-, Bild- und Textantworten liefern. Das bedeutet, dass Sie eine Textaufforderung eingeben können und NExT-GPT diese Aufforderung in ein Video umwandeln kann, oder Sie können ihm ein Bild geben und dieses in eine Audioausgabe umwandeln lassen.

ChatGPT hat gerade erst die Fähigkeit zum „Sehen, Hören und Sprechen“ angekündigt, die dem von NExT-GPT ähnelt – ChatGPT strebt jedoch eine mobilfreundlichere Version dieser Art von Funktion an und muss noch Videofunktionen einführen .

Wir haben im letzten Jahr viele ChatGPT-Alternativen und Konkurrenten auftauchen sehen, aber NExT-GPT ist eines der wenigen LLMs, die wir bisher gesehen haben, das mit der textbasierten Ausgabe von ChatGPT mithalten kann, aber auch darüber hinausgehende Ausgaben liefert Der beliebte Chatbot von OpenAI kann das derzeit. Sie können zum gehen GitHub-Seite oder der Demoseite um es selbst auszuprobieren.

Also, wie ist es?

Ich habe auf der Demoseite mit NExT-GPT herumgespielt und muss sagen, dass ich beeindruckt, aber nicht umgehauen bin. Natürlich ist dies kein ausgefeiltes Produkt, das die Vorteile von öffentlichem Feedback, mehreren Updates usw. bietet – aber es ist immer noch sehr gut.

Siehe auch  ChatGPT vs. Google Bard, was ist der Unterschied?

Ich habe darum gebeten, ein Foto meiner Katze Miso in ein Bild von ihm als Bibliothekar umzuwandeln, und ich war mit dem Ergebnis ziemlich zufrieden. Es ist vielleicht nicht auf dem gleichen Qualitätsniveau wie etablierte Bildgeneratoren wie midjourney oder Stable Diffusion, aber es war trotzdem unbestreitbar ein sehr süßes Bild.

Dies ist wahrscheinlich eines der am wenigsten verfluchten Bilder, die ich persönlich mithilfe von KI erstellt habe. (Bildnachweis: Future VIA NExT-GPT)

Ich habe auch die Video- und Audiofunktionen getestet, aber das lief nicht ganz so gut wie die Bilderzeugung. Die generierten Videos waren wiederum nicht schrecklich, hatten aber den sehr offensichtlichen „made by AI“-Look, der bei vielen generierten Bildern und Videos auftritt, wobei alles ein wenig verzerrt und wackelig aussah. Es war unheimlich.

Insgesamt besteht für dieses LLM großes Potenzial, die Audio- und Videolücken bei großen KI-Namen wie OpenAI und Google zu schließen. Ich hoffe, dass wir, wenn NExT-GPT immer besser wird, in kürzester Zeit eine höhere Qualität der Ausgaben sehen und nahtlos einige hervorragende Heimvideos aus unseren Katzen machen können.

Das könnte Ihnen auch gefallen…

5/5 - (328 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein