OpenAI führt GPT-4o ein, das multimodale Interaktion integriert, die Sprach- und Bildverarbeitungsfähigkeiten verbessert und die Sicherheit erhöht. Es wird bald für die Öffentlichkeit zugänglich sein.
existierenVorherige MitteilungSpäter stellte OpenAI offiziell sein neues GPT-4o-Modell für künstliche Intelligenz vor und brachte eine Desktop-Version der App und eine neue Version der Bedienoberfläche auf den Markt. Darüber hinaus können Benutzer über „Hey, chatgpt“ mit der Sprach- und Bilderkennung interagieren.
OpenAI erklärt, dass das „o“ in GPT-4o vom ersten Buchstaben von „Omnimodel“ (omnipotentes Modell) stammt, was bedeutet, dass es verschiedenen Anwendungsinteraktionen entsprechen kann. Gleichzeitig stammen die Lerndaten von mehr Mehr als 100 Millionen Menschen, die bereits über ChatGPT gelernt und kollaboriert haben, unterstützen auch die Bilderkennung und können sogar Dinge, die der Benutzer erwähnt hat, aus dem Gedächtnis lernen, sodass sie für zukünftige Interaktionen verwendet werden können. Es bietet außerdem Spracherkennung sowie Funktionen zur Analyse und Produktion von Diagramminhalten, die derzeit insgesamt 50 Sprachen entsprechen und etwa 97 % der weltweiten Internetbevölkerung abdecken.
GPT-4o wird kostenlos und offen sein und über API-Ressourcen zugänglich sein, sodass mehr Entwickler dieses Modell der künstlichen Intelligenz verwenden können, um mehr Anwendungsdienste zu erstellen. Die Verarbeitungsgeschwindigkeit von englischem Text und Programmcodierung ist nahezu dieselbe GPT-4 Turbo. Die Leistung und gleichzeitig die Ausführungsleistung bei nicht-englischem Text werden höher sein, wodurch die Nutzungskosten um 50 % gesenkt werden und die Eingabe beliebiger Kombinationen aus Text, Audio, Bild usw. unterstützt wird. und entspricht dann der Ausgabe einer beliebigen Kombination aus Text, Audio, Bild usw. Es kann auch in mindestens 232 Millisekunden und durchschnittlich 320 Millisekunden auf Audioeingabeinhalte reagieren, was fast der Reaktionszeit von entspricht gewöhnliche Menschen in natürlichen Gesprächen.
Als weitere Erklärung gab OpenAI an, dass die durchschnittliche Verzögerung des Sprachkonversationsmodus vor dem Start von GPT-4o bei GPT-3.5 etwa 2,8 Sekunden und bei GPT-4 etwa 5,4 Sekunden betrug, was hauptsächlich auf den Betrieb von drei unabhängigen Modellen zurückzuführen ist Dies umfasst das Konvertieren von Audio in Text, das Analysieren des Textes mit GPT-3.5 oder GPT-4, das Erstellen einer Antwort und das anschließende Konvertieren des Antworttexts in Sprache. Diesmal kann GPT-4o über ein einziges Modell ausgeführt werden Drei Prozesse: Audio zu Text, Textanalyse und Text zu Audio, sodass der Vorgang etwa doppelt so schnell abgeschlossen werden kann wie GPT-4 Turbo.
Da die Durchführung eines Arbeitsablaufs, für den zuvor drei Modelle erforderlich waren, weniger Zeit in Anspruch nimmt, ist GPT-4o in der Lage, die Betonung und den Ausdruck des Benutzers weiter zu analysieren und dann die dahinter stehende Emotion zu bestimmen, z. B. festzustellen, ob der Benutzer glücklich ist oder nicht traurig usw.
In dieser Demonstration erklärte OpenAI, dass GPT-4o es beiden Parteien direkt ermöglichen kann, auf Englisch und Italienisch zu kommunizieren, oder Benutzer bei der Lösung mathematischer Berechnungsprobleme durch Bilderkennung unterstützen kann. Welchen Emotionen entsprechen Ausdrücke des Benutzers?
Darüber hinaus betont OpenAI auch die Sicherheit bei der Verwendung von GPT-4o, indem es die Einrichtung eines neuen Sicherheitssystems zur Schau stellt, um sicherzustellen, dass es bei der interaktiven Verwendung keine Probleme gibt, und betont den Einsatz von Automatisierung und menschlicher Bewertung im Trainingsprozess kombiniert auch Sozialpsychologie, Voreingenommenheit und Fairness sowie Fehler. Experten für Messaging und andere Bereiche führen gemeinsame Tests durch, um unerwartete Risikoprobleme in GPT-4o zu vermeiden.
OpenAI gab an, dass das dieses Mal veröffentlichte GPT-4o in den nächsten Wochen und Monaten nach und nach die relevante technische Infrastruktur, die Verfügbarkeit nach dem Training und die erforderliche Sicherheit für andere Betriebsmodi bekannt geben wird, auch über GPT. Es können nur Standardsounds ausgewählt werden 4o gibt Audioinhalte aus, um zu verhindern, dass absichtlich die Stimmen anderer Personen nachgeahmt werden, um illegale Aktivitäten durchzuführen.
Die aktuellen Text- und Bildverarbeitungsfunktionen von GPT-4o werden ab sofort im ChatGPT-Dienst genutzt und können von allen ChatGPT-Plus-Abonnenten mit mehr als dem Fünffachen des Nachrichtenvolumens genutzt werden Offen für ChatGPT Plus. Verwenden Sie es, es wird jedoch zunächst nur als Testinhalt für die Alpha-Version verfügbar sein.
Könnte apple ein Partner sein?
Zuvor hatte Apple dies bereits angekündigtHand in Hand mit OpenAI arbeitenEs wird erwartet, dass es dem digitalen Assistentendienst Siri in iOS 18 ein neues interaktives Erlebnis bietet und möglicherweise weiter mit dem künstlichen Intelligenzmodell GPT-4o kombiniert wird, um ein neues interaktives Erlebnis zu schaffen. Der konkrete Ankündigungsinhalt muss jedoch der Ankündigung von Apple unterliegen.