Die Hinzufügung von Sprach- und Bildfunktionen zu chatgpt wird mit Sicherheit eine neue Runde des Interesses an der Integration von Konversationsbenutzeroberflächen in die HR-Technologie auslösen.
Letzte Woche begann OpenAI mit der Einführung von Sprach- und Bildfreigabefunktionen, die es Benutzern ermöglichen, auf einfachere und gesprächigere Weise mit der generativen KI zu interagieren und Bilder als Teil ihrer Abfragen zu teilen. Fast sofort begannen Analysten und Experten mit ihren Vergleichen mit Apples Siri und Amazons Alexa, die meisten davon positiv.
„Während das System lediglich eine ChatGPT-Textantwort vorliest, handelt es sich hierbei nicht um die roboterhaften, biederen Text-zu-Sprache-Systeme, mit denen wir aufgewachsen sind“, schrieb Joanna Stern in Das Wall Street Journal.
Dieser Schritt wird mit Sicherheit die Aufmerksamkeit der HCM-Technologieanbieter auf sich ziehen, von denen sich viele bereits seit mehreren Jahren mit der Nutzung von Sprachschnittstellen beschäftigen. Oracle, Ceridian, IBM und andere haben verschiedene Ebenen der Interaktion mit gesprochenem Wort in ihre Systeme integriert und bieten die Möglichkeit, Produkte aufzufordern, „mir die Mitarbeiterakte von Jack Doe im Kundendienst zu zeigen“ oder Mitarbeitern dabei zu helfen, über ihre Arbeitspläne auf dem Laufenden zu bleiben fragen: „Wann ist meine nächste Schicht?“
Öffnen der Benutzeroberfläche
Zusammengenommen werden die Sprach- und Bildfunktionen von ChatGPT „eine intuitivere Art von Schnittstelle“ bieten, sagte OpenAI. Dadurch können Benutzer „ein Sprachgespräch führen oder ChatGPT zeigen, worüber Sie sprechen“. Als Beispiel beschrieb das Unternehmen, ein Foto einer Mathe-Hausaufgabe zu machen, die interessanten Elemente einzukreisen und das resultierende Bild mit ChatGPT zu teilen. Das System kann dann Hinweise zur Lösung des Problems weitergeben.
Ein neues Text-to-Speech-Modell unterstützt die Sprachfunktion, die aus Text und einigen Sekunden Beispielsprache „menschenähnliches Audio“ erzeugen kann. Für Bilder bieten die mobilen Apps von ChatGPT ein Zeichentool, mit dem Sie sich auf bestimmte Bereiche eines Bildes konzentrieren können. Dabei werden die Sprachkompetenzen der KI genutzt, um Bildtypen wie Fotos, Screenshots und Dokumente, die sowohl Text als auch Bilder enthalten, zu interpretieren.
Personalisierte natürliche Sprache
Die neuen Funktionen von ChatGPT unterscheiden sich um einige Schritte von den bisher verfügbaren grundlegenden Sprachbefehlen. Benutzer sind bereits dazu übergegangen, nicht nur einen bestimmten Song von Bruce Springsteen zu spielen, sondern auch Marketingtexte zu entwerfen oder Code zu schreiben. Laut Anbietern kann die Technologie Unternehmen dabei helfen, sich wiederholende Arbeiten zu eliminieren, personalisierte Antworten auf Mitarbeiterfragen anzubieten, das Onboarding-Erlebnis zu verbessern und Leistungsdaten in Echtzeit bereitzustellen.
Das Marktpotenzial ist groß. Entsprechend Grand View-Forschung, wird der globale Markt für sprachgesteuerte Benutzeroberflächen von 24 Milliarden US-Dollar im Jahr 2023 auf 92 Milliarden US-Dollar im Jahr 2030 wachsen, was einer durchschnittlichen jährlichen Wachstumsrate von 21,3 % entspricht. Mit der Verbesserung der KI und der Verarbeitung natürlicher Sprache werden Sprachschnittstellen präziser und kontextbewusster, prognostizierte das Unternehmen. Und Sprachschnittstellen sind für Verbraucher bereits weit verbreitet, ein Indikator dafür, dass Entwickler von Geschäftslösungen ähnliche Funktionen mit Sicherheit in ihre eigenen Produkte integrieren werden.
Die Sprach- und Bildfunktionen werden in den nächsten zwei Wochen für ChatGPT Plus- und Enterprise-Benutzer verfügbar sein, teilte das Unternehmen mit. Sprache wird auf iOS- und Android-Geräten verfügbar sein, während Bilder auf allen Plattformen verfügbar sein werden.
Bild: iStock