In einer neuen Studie veröffentlicht in Grenzen in Robotik und KIForscher haben gezeigt, dass Roboter, die mit der Fähigkeit ausgestattet sind, bei Interaktionen mit Menschen in Echtzeit Emotionen auszudrücken, als sympathischer, vertrauenswürdiger und menschenähnlicher wahrgenommen werden. Die Studie nutzte fortschrittliche künstliche Intelligenz und stellte fest, dass die Teilnehmer ihre Erfahrungen positiver bewerteten und bei einer kollaborativen Aufgabe bessere Leistungen erbrachten, wenn Roboter Emotionen zeigten, die zum Kontext ihrer Interaktion mit Menschen passten.
Die Motivation hinter dieser innovativen Forschung ergibt sich aus der zunehmenden Integration sozialer Roboter in alltägliche menschliche Umgebungen. Mit zunehmender Verbreitung von Robotern in Umgebungen, die von Privathaushalten bis hin zu Gesundheitseinrichtungen reichen, ist es für sie immer wichtiger geworden, menschliche Gefühle zu verstehen und auszudrücken. Das Erkennen von Gesichtsausdrücken und das Reagieren mit entsprechenden emotionalen Hinweisen ist entscheidend für den Aufbau von Beziehungen, Vertrauen und eine einfache Kommunikation zwischen Menschen und Robotern.
Frühere Studien haben gezeigt, dass Roboter, die Emotionen zeigen können, von den Benutzern eher akzeptiert und gemocht werden. Die Entwicklung von Robotern, die Emotionen in Echtzeitinteraktionen genau modellieren und ausdrücken können, bleibt jedoch eine komplexe Herausforderung und veranlasst Forscher, das Potenzial von Large Language Models (LLMs) wie GPT-3.5 für die Emotionserzeugung bei Mensch-Roboter-Interaktionen zu untersuchen.
„Angesichts der jüngsten Fortschritte bei LLMs liegt der Schwerpunkt stark auf dem Bau der nächsten Generation von Allzweckrobotern. Viele Unternehmen haben bereits ihre Prototypen vorgestellt und sehen eine große Nachfrage nach solchen Robotern in der Gesellschaft“, erklärt der Studienautor Chinmaya MishraPostdoktorandin in der Abteilung Multimodale Sprache am Max-Planck-Institut für Psycholinguistik.
„Da Roboter in unserer Gesellschaft immer präsenter werden, wird es immer wichtiger, dass sie affektives Verhalten zeigen. Ein Roboter, der entsprechende Emotionen zeigt, ist nicht nur leichter zu verstehen, sondern beeinflusst auch das gesamte Interaktionserlebnis, indem er eine effektive Kommunikation und eine stärkere Beziehung zu Menschen ermöglicht.“
„Die Modellierung affektiven Verhaltens bei Robotern ist ein schwieriges Problem, da der Roboter in der Lage sein muss, menschliches Verhalten wahrzunehmen, die übermittelte Botschaft zu verstehen, eine angemessene Reaktion zu formulieren und die damit verbundenen Emotionen auszudrücken. Darüber hinaus ist es schwierig, dies in Echtzeit zu tun, was für eine nahtlose Mensch-Roboter-Interaktion (HRI) von entscheidender Bedeutung ist.“
„Mein Interesse an diesem Thema war zweierlei: 1.) Ich wollte die Leistungsfähigkeit von LLMs nutzen und prüfen, ob der Einsatz für diese Art von Problem machbar ist, und 2.) weg von plattformabhängigen und rechenintensiven Modellen hin zu einer Cloud.“ -basierte Architektur, die auf jeder sozialen Roboterplattform da draußen verwendet werden kann“, sagte Mishra.
An der Studie nahmen 47 Teilnehmer teil, die an einem einzigartigen Spiel zum Sortieren affektiver Bilder mit einem Roboter teilnahmen, um die emotionale Ausdruckskraft des Roboters zu testen. Der für diese Studie verwendete Roboter war ein Furhat-Roboter, der für seinen menschenähnlichen Kopf und seine Gesichtsausdrücke bekannt ist und in der Lage ist, durch rückprojizierte Gesichtsanimationen ein breites Spektrum an Emotionen darzustellen.
Im Spiel zum Sortieren affektiver Bilder wurde den Teilnehmern eine Reihe affektiver Bilder auf einem Touchscreen präsentiert, die sie nach den Emotionen, die diese Bilder hervorriefen, von der geringsten bis zur positivsten zu sortieren hatten. Die aus etablierten psychologischen Datensätzen und dem Internet ausgewählten Bilder sollten ein breites Spektrum emotionaler Reaktionen hervorrufen.
Der von GPT-3.5 angetriebene Roboter interagierte mit den Teilnehmern, gab Feedback und drückte Emotionen durch Gesichtsausdrücke aus, die auf den laufenden Dialog zugeschnitten waren. Jeder Teilnehmer spielte das Spiel unter den drei Bedingungen: im kongruent In diesem Zustand entsprachen die Gesichtsausdrücke des Roboters den vorhergesagten Emotionen basierend auf dem laufenden Dialog. im inkongruent Zustand, die Ausdrücke standen bewusst im Gegensatz zu den erwarteten Emotionen; und in der neutral In diesem Zustand zeigte der Roboter keine emotionalen Ausdrücke.
Um die Wirksamkeit der emotionalen Ausdrücke des Roboters zu beurteilen, füllten die Teilnehmer nach der Interaktion mit dem Roboter in jeder Bedingung einen Fragebogen aus. Darüber hinaus lieferten die Ergebnisse der Sortieraufgaben objektive Daten über die Leistung der Teilnehmer.
Mishra und seine Kollegen fanden heraus, dass die Teilnehmer ihre Erfahrungen mit dem Roboter positiver bewerteten, wenn dieser Emotionen zeigte, die mit dem laufenden Dialog übereinstimmten, im Gegensatz dazu, wenn die Ausdrücke des Roboters inkongruent waren oder wenn er überhaupt keine emotionalen Ausdrücke zeigte.
Insbesondere im kongruenten Zustand empfanden die Teilnehmer diese Interaktionen als positiver, emotional angemessener und deuteten auf einen Roboter hin, der in seinem Verhalten eher einem Menschen ähnelte. Dies deutet darauf hin, dass die Ausrichtung der nonverbalen Signale eines Roboters auf den emotionalen Kontext einer Interaktion eine entscheidende Rolle dabei spielt, wie Menschen Roboter wahrnehmen und mit ihnen interagieren.
Interessanterweise fanden die Forscher auch heraus, dass diese emotionale Kongruenz nicht nur die Wahrnehmung des Roboters durch die Teilnehmer verbesserte, sondern sich auch positiv auf ihre Leistung bei der jeweiligen Aufgabe auswirkte. Die Teilnehmer erzielten im Sortierspiel höhere Punktzahlen, wenn sie unter der kongruenten Bedingung mit dem Roboter interagierten, was die praktischen Vorteile emotional ausdrucksstarker Roboter bei kollaborativen Aufgaben hervorhebt.
„Es ist möglich, LLMs zu nutzen, um den Kontext eines Gesprächs zuverlässig einzuschätzen und so über eine angemessene Emotion zu entscheiden, die Roboter während einer Interaktion ausdrücken sollen“, sagte Mishra gegenüber PsyPost. „Emotionale Äußerungen von Robotern werden als beabsichtigt wahrgenommen und entsprechende Emotionen haben einen positiven Einfluss auf die Erfahrung und das Ergebnis der Interaktionen, die wir mit Robotern haben. Die Erzeugung dieser Verhaltensweisen bei Robotern in Echtzeit erleichtert es uns, sie zu verstehen und mit ihnen zu sprechen, da sie diese Emotionen nutzen, um ihren inneren Zustand und ihre Absichten zu signalisieren.“
„Es ist jedoch wichtig zu bedenken, dass das Verständnis des Roboters für eine Situation und der Entscheidungsprozess beim Ausdruck der entsprechenden Emotionen davon abhängen, wie ein Entwickler/Forscher die Architektur aufbaut.“ Um realistische Verhaltensweisen von Robotern nachzuahmen, zerlegen wir komplexe menschliche Verhaltensweisen in vereinfachte Teile. Diese vereinfachten Bits (eines oder mehrere davon) werden dann verwendet, um das Verhalten eines Roboters zu modellieren. Auch wenn sie angemessen aussehen und sich angemessen anfühlen, sind wir noch weit davon entfernt, tatsächlich Roboter mit Fähigkeiten zu modellieren, die denen von Menschen ähneln.“
Die Studie untersuchte auch die Art und Weise, wie die Teilnehmer die emotionalen Ausdrücke des Roboters interpretierten, insbesondere im inkongruenten Zustand. Einige Teilnehmer schrieben dem Roboter komplexe emotionale Zustände zu, was auf eine Tendenz hindeutet, das Verhalten des Roboters zu vermenschlichen und tiefer in die Ausdrücke des Roboters einzudringen. Dieser Befund lässt darauf schließen, dass Menschen geschickt darin sind, in Interaktionen emotionale Kohärenz anzustreben und Robotern aufgrund ihres Ausdrucks sogar menschenähnliche emotionale Komplexität zuzuschreiben.
„Es war überraschend zu sehen, dass die Teilnehmer dem Verhalten des Roboters komplexe Emotionen zuschrieben und sich darauf bezogen“, sagte Mishra.
„In einem Fall, in dem der Roboter beispielsweise angewiesen wurde, widersprüchliches Verhalten zu zeigen, lächelte der Roboter, als er eine traurige Situation beschrieb. Der Teilnehmer teilte mir mit, dass er dachte, der Roboter sei möglicherweise so traurig, dass er es mit einem Lächeln maskierte. Sie sagten, dass sie das auch tun würden. In einem anderen Fall interpretierte der Teilnehmer das Lächeln eines Roboters als Sarkasmus.“
„Dies zeigt weiter, wie kraftvoll der Ausdruck von Emotionen bei einem Roboter sein kann“, sagte Mishra gegenüber PsyPost. „Obwohl die Menschen wissen, dass sie mit einem Roboter sprechen, beziehen sie sich dennoch auf ihn, als ob er real wäre. Darüber hinaus zeigt es uns auch, wie verdrahtet unser Gehirn darauf ausgelegt ist, Emotionen bei Interaktionen zu interpretieren.“
Trotz der vielversprechenden Ergebnisse stieß die Studie auf mehrere Einschränkungen. Es wurden technische Probleme wie Verzögerungen bei den Reaktionszeiten des Roboters aufgrund von API-Aufrufverzögerungen und die Unfähigkeit von GPT-3.5, einen längeren Gesprächsverlauf für die Emotionsvorhersage zu berücksichtigen, festgestellt. Darüber hinaus beschränkte das Design der Studie die Bandbreite der Emotionen auf grundlegende Kategorien und übersah möglicherweise die Nuancen des menschlichen emotionalen Ausdrucks.
„Eine wesentliche Einschränkung wäre die Verwendung der Nur-Text-Modalität in der aktuellen Studie“, erklärte Mishra. „Menschliche Emotionen sind multimodal und umfassen die Darstellung und Interpretation vieler Verhaltensweisen wie Mimik, Sprache, Gesten, Körperhaltung und Kontext. Ich glaube, dass dies in den kommenden Tagen mit der Einführung und den Fortschritten multimodaler LLMs überwunden werden wird.“
„Eine weitere Einschränkung wäre die Abhängigkeit von LLM-API-Anbietern wie OpenAI. Es besteht ein erheblicher Mangel an öffentlich zugänglichen LLM-APIs, die mit dem kommerziell erhältlichen vergleichbar sind. Dies schränkt die Nutzung und Forschung zu diesem Thema auf nur Gruppen/Einzelpersonen ein, die sich den Preis leisten können.“
Zukünftige Forschungen könnten ausgefeiltere Modelle erforschen, die in der Lage sind, ein breiteres Spektrum an Emotionen und multimodalen Eingaben, einschließlich Gesichtsausdrücken und Körpersprache, einzubeziehen, um noch differenziertere und effektivere emotionale Interaktionen zwischen Menschen und Robotern zu schaffen.
„Langfristig möchte ich die Modelle des affektiven Verhaltens von Robotern verbessern, indem ich sie multimodaler mache“, sagte Mishra. „Das würde sie während der HRI menschlicher und angemessener machen.“
Die Studie, „Echtzeit-Emotionserzeugung im Mensch-Roboter-Dialog mithilfe großer Sprachmodelle„, wurde von Chinmaya Mishra, Rinus Verdonschot, Peter Hagoort und Gabriel Skantze verfasst.