Erinnern Sie sich an die multimodalen Funktionen, die OpenAI bei der Veröffentlichung von GPT-4 im März dieses Jahres erwähnte?
▲ GPT-4-Antwort-Demo, maschinell übersetzt
GPT-4 unterstützt die Bildeingabe und kann Memes, physikalische Probleme und Aufsätze verstehen. Nach der Veröffentlichung schockierte es alle. Dies ist auch der größte Upgrade-Punkt von GPT-4 im Vergleich zu GPT-3.5.
Laut OpenAI ist die Bildeingabefunktion leider noch eine Forschungsvorschau und noch nicht für die Öffentlichkeit verfügbar.
▲ Ein Bilderkennungssymbol hinzugefügt. Bild von: Reddit
Kürzlich entdeckte jedoch ein Reddit-Internetnutzer, dass sein Bing-Chat-Konto stillschweigend einen Eintrag zum Hochladen von Bildern hinzugefügt hatte.
Microsoft hat zuvor bekannt gegeben, dass Bing Chat das GPT-4-Modell verwendet, und im großen Update-Protokoll letzten Monat erwähnt, dass es multimodale Unterstützung für Bing hinzufügen wird. Im Großen und Ganzen wird Bing Chat wahrscheinlich schrittweise weiterentwickelt, um Benutzern eine offene Karte zu bieten Erkennungsfunktionstest.
Dieser Internetnutzer hat viele Tests mit Bing Chat durchgeführt. Lassen Sie uns sehen, wie leistungsfähig Bing Chat mit „langen Augen“ ist.
Die erste ist GPT-4s erstaunlichste Funktion zum Anzeigen von Memes. GPT-4 kann nicht nur den Inhalt des Bildes verstehen, sondern auch die Witze des Memes wie Menschen analysieren.
In diesem Meme kann GPT-4 beispielsweise erkennen, dass das Bild zum Ausdruck bringen möchte, dass es absurd ist, die veraltete VGA-förmige Schnittstelle zum Aufladen des iPhones zu verwenden, und es sorgt für Lacher.
Netizens luden die gleichen Memes zu Testzwecken auf Bing Chat hoch, und es passierte etwas Seltsames: Bing Chat erkannte nicht, dass es sich um eine VGA-Schnittstelle handelte, konnte den Witz also nicht „verstehen“, aber Bing Chat konnte die Fotos trotzdem entschlüsseln , nannte sogar die Marke des Kabels und gab detailliertere Informationen.
Dies kann ein versehentlicher Fehler von Bing Chat sein oder es kann sein, dass Microsoft in der tatsächlichen Anwendung von GPT-4 weitere Einschränkungsanpassungen vorgenommen hat, was zu einer Abweichung in der Antwort führt.
Netizens haben einen weiteren Meme-Cartoon über maschinelles Lernen hochgeladen, und dieses Mal konnte Bing Chat den Inhalt und die Witze im Bild genauer beantworten.
Bing Chats Analyse eines anderen Memes über das Bügeln von Kleidung im Auto ist ebenfalls genau richtig.
▲ Die Übersetzung hier ist falsch, der Originaltext lautet: Diddy Kong, Pyra, Pikachu, Zero Suit Samus, Donkey Kong, Sonic the Hedgehog, Ness, Cloud Strife und Incineroar
Wie genau ist die Bilderkennung von Bing Chat? Er hat ein Bild der Charaktere aus „Nintendo Smash Bros.“ hochgeladen. Auf demselben Bild sind viele Charaktere angeordnet, und er hat Bing Chat gebeten, alle Charaktere einzeln zu erkennen.
Infolgedessen hat Bing Chat 7 der 12 Zeichen erkannt, und es scheint, dass das zweidimensionale Problem für ihn immer noch etwas schwierig ist.
Als OpenAI veröffentlicht wurde, zeigte es auch einen Fall, in dem eine Webseite programmiert werden kann, indem ein Bild von Hand aufgenommen wird. Der Internetnutzer zeichnete auch ein Bild von Hand, um Bing zu testen.
Lassen Sie uns den langen Code-Link überspringen und sehen Sie sich direkt die Auswirkungen der Ausführung dieser Seite an. Es ist ersichtlich, dass der Prototyp der Basiswebseite noch erstellt wird.
Durch das Hinzufügen der Bilderkennungsfunktion wird Bing Chat um viele Einsatzmöglichkeiten erweitert. Denn in der Realität lassen sich viele Inhalte (z. B. Formeln und Diagramme) nur schwer klar in Worten ausdrücken. Werfen Sie zu diesem Zeitpunkt einfach ein Bild an die KI Holen Sie sich die Antwort.
Lassen Sie uns zum Beispiel den Prozess erklären, durch den sich Chromosomen während der Meiose kreuzen.
Lassen Sie ihn Biologielehrer spielen und analysieren, wie die Nephronfiltration funktioniert.
Es kann sogar als Online-Arzt verwendet werden, um Hautkrankheiten einfach zu diagnostizieren.
Bisher wurde chatgpt aufgrund seines hervorragenden Textverständnisses und seiner hervorragenden Ausdrucksfähigkeiten zum Erlernen von Fremdsprachen und zum Üben von mündlichem Englisch entwickelt.
Nach dem Hinzufügen der visuellen Erkennung kann Bing Chat sogar die Rolle eines Mittelschul-, Oberstufen- oder sogar Universitätslehrers übernehmen, um Schülern bei der Beantwortung komplexer mathematischer, physikalischer und chemischer Probleme zu helfen. Wenn die Bilderkennungsfunktion in Zukunft gefördert werden kann, könnte dies gelöst werden das Problem der Bildung bis zu einem gewissen Grad. Das Problem der unausgewogenen Ressourcen.
Benutzer können es auch für grundlegende medizinische Diagnosen verwenden und so Geld und Zeit sparen, die für medizinische Behandlungen erforderlich sind, was den Wert der KI für die breite Öffentlichkeit widerspiegelt.
Obwohl Bing Chat grundsätzlich den Inhalt der realen Welt verstehen kann, können seine Antworten natürlich nur als Referenz dienen und nicht als professioneller Rat angesehen werden.
Wenn die Kartenerkennungsfunktion vollständig für die Öffentlichkeit zugänglich gemacht werden soll, muss Microsoft daher zahlreiche Einschränkungen und Debugging-Vorgänge durchführen, um sicherzustellen, dass die Öffentlichkeit keine Sicherheitsprobleme aufgrund von Misstrauen gegenüber der Antwort der KI hat.
Kurzfristig dürfte die Bing Chat-Bilderkennung nur eine Testfunktion sein, die einer kleinen Anzahl von Benutzern zur Verfügung steht. Wenn Sie Interesse haben, können Sie sich sofort in Ihr Microsoft-Konto einloggen, um zu sehen, ob es in der Chat-Leiste von Bing noch eine weitere gibt Chat-Bildsymbol.
Derzeit ist Bing Chat für alle Microsoft-Konten geöffnet. Öffnen Sie die Blindbox, um zu sehen, ob Sie die Testqualifikation erhalten haben⬇️
https://www.bing.com/new