Neue Funktionen, aber alte Probleme sind wahrscheinlich immer noch vorhanden.
Es kann schwierig sein, den Zeitpunkt für die Einführung der Technologie zu wählen. Benutzer wünschen sich die vorteilhaftesten Funktionen, aber kluges Einkaufen bedeutet in der Regel, eine Weile abzuwarten, um zu sehen, welche Probleme auftreten.
OpenAI, das Unternehmen hinter chatgpt, hat die neue GPT-4o-Version veröffentlicht, die nach Angaben des Unternehmens „über Audio, Bild und Text in Echtzeit nachdenken kann“. Sie nennen es außerdem „einen Schritt hin zu einer viel natürlicheren Mensch-Computer-Interaktion – es akzeptiert jede Kombination aus Text, Audio, Bild und Video als Eingabe und generiert jede Kombination aus Text, Audio und Bildausgaben.“ Es kann in nur 232 Millisekunden auf Audioeingaben reagieren, im Durchschnitt sind es 320 Millisekunden, was der menschlichen Reaktionszeit in einem Gespräch ähnelt. Es erreicht die GPT-4-Turbo-Leistung bei Text in Englisch und Code, mit deutlicher Verbesserung bei Text in nicht-englischen Sprachen, ist aber auch viel schneller und in der API 50 % günstiger. GPT-4o ist im Vergleich zu bestehenden Modellen insbesondere hinsichtlich der Bild- und Tonverständlichkeit besser.
Machen Sie zunächst einen Schritt zurück, um klar zu denken, denn es sind viele rhetorische Techniken im Spiel, um zu beeinflussen, wie ein Publikum denkt und reagiert, was auch als subtiles Verkaufen bekannt ist.
Software, selbst generative künstliche Intelligenz, argumentiert nicht. Ganz zu schweigen davon, was sie mit hochkomplexen statistischen Systemen erreichen, die Eingaben mit riesigen Datenbanken sprachlicher Zusammenhänge abgleichen und Antworten formulieren können. „Ein Schritt in Richtung“ einer verbesserten Mensch-Computer-Interaktion ist nicht das Erreichen perfekter Systeme. „So wenig wie“ im Timing kann auch viel mehr bedeuten. Durchschnittliche Antworten, die „der menschlichen Reaktionszeit ähneln“, bedeuten, dass eine Verteilung vorliegt. Wenn es oft viel schneller wäre, würde wahrscheinlich jemand die mittlere Zeit erwähnen, weil die langsameren Antworten, die die Durchschnittswerte senken, weniger betont würden. Und „besonders besseres Seh- und Hörverständnis im Vergleich zu bestehenden Modellen“ bedeutet so gut wie nichts, da der Leser weder die Ausgangslage noch den Grad der Verbesserung kennt.
Demos werden immer so erstellt, dass sie so gut wie möglich aussehen. Dennoch kann es potenziell beeindruckend sein, ein Gespräch mit einer automatisierten Stimme zu führen, die ziemlich menschlich klingt. Das scheint ein Werkzeug zu sein, das in vielen CRE-Situationen funktionieren würde. Die unmittelbare Reaktion könnte darin bestehen, über überzeugende Computersysteme zu verfügen, die Kunden per Sprache, Text oder E-Mail bedienen können. Doch der Wunsch, generative KI mit Sprachassistentenfunktionen zu verbinden, birgt noch immer „viele Hürden“, wie das Unternehmen sagt New York Times schreibt. Sie neigen dazu, sich mit dem Phänomen der „Halluzination“ auseinanderzusetzen.
„Diese Mängel übertragen sich auf Sprachassistenten“, stellte die Times fest. „Während Chatbots eine überzeugende Sprache erzeugen können, sind sie weniger gut darin, Aktionen wie die Planung eines Meetings oder die Buchung eines Fluges durchzuführen.“
Vielleicht werden sich die Dinge verbessern, aber das muss auf einer tieferen Ebene geschehen. Warten Sie ab, was mit der Zeit passiert. Sparkly-Technologie kann Spaß machen und attraktiv sein, aber im Geschäftsumfeld darf man bei einer Anwendung, die viel kosten könnte, kein Risiko eingehen.