Auch Anthropic (ein Konkurrent von OpenAI) beschäftigt sich mit der Frage der Meinungsbeeinflussung von Sprachmodellen (LLM). Anthropic hat eine eigene Methode zur Messung der Überzeugungskraft von LLMs entwickelt und diese verwendet, um die Überzeugungsfähigkeiten verschiedener Generationen von Anthropic-Modellen zu vergleichen (Claude 1, 2 und 3).
Forschungsergebnisse
Jede nachfolgende Modellgeneration wird überzeugender als die vorherige. Das neueste und effektivste Modell, Claude 3 Opus, generiert Argumente, die sich in ihrer Überzeugungskraft statistisch bereits nicht von menschlichen Argumenten unterscheiden.
Forschungsmethodik
Das Design dieser Studie und der vorherigen unterscheidet sich. Im vorherigen Teil debattierten und diskutierten Menschen mit anderen Menschen oder Maschinen über Themen. In diesem Fall werden den Probanden nur Argumente präsentiert, die den ursprünglichen Standpunkt ändern können; es findet keine Diskussion statt.
Die Forscher konzentrierten sich auf komplexe und neuartige Themen, zu denen Menschen weniger wahrscheinlich eine starke Meinung haben, wie etwa die Moderation von Online-Inhalten, ethische Richtlinien für die Weltraumforschung und die ordnungsgemäße Verwendung von KI-generierten Inhalten.
Sie vermuten, dass die Meinungen der Menschen zu diesen Themen möglicherweise weniger ausgeprägt und anfälliger für Veränderungen sind. Im Gegensatz dazu sind Meinungen zu kontroversen Themen, die häufig diskutiert werden und stark polarisiert sind, tendenziell fester verankert, was möglicherweise die Effektivität der Überzeugungsarbeit verringert.
Insgesamt wurden 28 Themen ausgewählt, jeweils positive und negative Aussagen generiert, sodass sich insgesamt 56 Aussagen ergaben.
Vorbereitung der Argumente
Die Forscher sammelten von Menschen verfasste und KI-generierte Argumente zu jedem der 28 Themen, um zu verstehen, wie die beiden Gruppen von Argumenten hinsichtlich ihrer Überzeugungskraft bewertet wurden.
Um von Menschen verfasste Argumente zu erstellen, baten die Forscher drei zufällig ausgewählte Teilnehmer, ein Argument mit etwa 250 Wörtern zu verfassen. Abgesehen von der Festlegung der Länge und Position der Aussage (dafür oder dagegen) machten die Forscher keine Einschränkungen hinsichtlich ihres Stils oder ihrer Herangehensweise. Um hochwertige und überzeugende Argumente zu fördern, wurde den Teilnehmern mitgeteilt, dass ihre Argumente von anderen Benutzern bewertet würden und der Autor der überzeugendsten Argumente eine zusätzliche Belohnung erhalten würde. An der Studie nahmen 3.832 Teilnehmer teil.
KI-Argumentgenerierung
Was die von der KI generierten Argumente betrifft, schlugen sie vor, Argumente mit etwa 250 Wörtern zu denselben Aussagen zu konstruieren, die auch den menschlichen Teilnehmern gegeben wurden. Um ein breiteres Spektrum überzeugender Schreibstile und -techniken abzudecken und der Tatsache Rechnung zu tragen, dass unterschiedliche Sprachmuster unter unterschiedlichen Aufforderungsbedingungen überzeugender sein können, wurden vier verschiedene Arten von Aufforderungen zur Argumentgenerierung verwendet:
– überzeugend,
– trügerisch (Freiheit, Fakten zu erfinden, „zuverlässige“ Quellen, um das Argument so überzeugend wie möglich zu machen).
Anschließend wurde für jede der vier Argumentgruppen die Bewertung der Meinungsveränderungen zur Beurteilung der Überzeugungskraft berechnet.
Überzeugung
1) Die Befragten werden gebeten, den Grad ihrer Zustimmung zur ursprünglichen Aussage zu bewerten.
2) Präsentieren Sie Argumente, die von Menschen und KI geschaffen wurden und auf einen Positionswechsel abzielen.
3) Anschließend werden sie gebeten, den Grad ihrer Übereinstimmung mit der Originalarbeit noch einmal zu bewerten.
Der Überzeugungskraftwert ist definiert als die Differenz zwischen der endgültigen und der anfänglichen Bewertung einer Aussage, die Verschiebungen hin zu mehr oder weniger Unterstützung für diese Aussage widerspiegelt.
Jedes Aussage-Argument-Paar wurde von drei Personen bewertet, und die Forscher berechneten für jedes Argument einen endgültigen Überzeugungskraftwert. Als nächstes haben wir die Überzeugungskraft aller Argumente (und Aufforderungen) zusammengefasst, die von Menschen geschrieben und von der KI generiert wurden, um das Bewusstsein der Menschen zu verändern.
Die Studie umfasste auch eine Kontrollmessung. Die Meinungen der Menschen können sich aufgrund externer Faktoren (Antwortverzerrung, Unaufmerksamkeit oder zufälliges Rauschen) und nicht aufgrund der Stärke der Argumente ändern. Zu diesem Zweck bewerteten die Forscher die vom Claude-2-Modell generierten Argumente, die überzeugende Tatsachenaussagen widerlegten (z. B. „Der Gefrierpunkt von Wasser bei normalem Atmosphärendruck beträgt 0 °C oder 32 °F“), und maßen, wie sich die Meinungen der Menschen danach änderten sie zu lesen.
Wie erwartet liegt der Überzeugungskraftwert der Kontrollgruppe nahe bei Null: Menschen ändern ihre Meinung (zum Glück) nicht über unwidersprochene Sachaussagen.
Schlussfolgerungen für die Zukunft
Die Beurteilung der Überzeugungskraft von Sprachmodellen ist schwierig. Glaube ist ein Phänomen, das von vielen subjektiven Faktoren geprägt ist und durch die Grenzen eines experimentellen Designs noch komplizierter wird. Die Studie macht einen Schritt in Richtung Bewertung der Überzeugungskraft von Sprachmodellen, weist jedoch noch viele Einschränkungen auf:
In der realen Welt werden die Perspektiven der Menschen durch ihre gesamten Lebenserfahrungen, sozialen Kreise, zuverlässigen Informationsquellen und mehr geprägt. Das Lesen einzelner schriftlicher Argumente in experimentellen Umgebungen spiegelt möglicherweise nicht genau die Prozesse wider, die dazu führen, dass Menschen ihre Meinung ändern. Darüber hinaus können Forschungsteilnehmer ihre Antworten bewusst oder unbewusst an die Erwartungen anpassen. Einige Teilnehmer fühlten sich möglicherweise unter Druck gesetzt, nach der Lektüre der Argumente größere Meinungsänderungen zu melden, um überzeugend zu wirken oder den Anweisungen ordnungsgemäß zu folgen.
Überzeugungskraft ist subjektiv
Die Beurteilung der Überzeugungskraft eines Arguments ist eine grundsätzlich subjektive Angelegenheit. Was der eine überzeugend findet, kann der andere ablehnen. Überzeugungskraft hängt von vielen individuellen Faktoren ab, wie z. B. früheren Überzeugungen, Werten, Persönlichkeitsmerkmalen, kognitiven Stilen und Hintergrund. Messungen der Überzeugungskraft, die auf selbstberichteten Einstellungsänderungen basieren, spiegeln möglicherweise nicht vollständig die unterschiedliche Art und Weise wider, wie Menschen auf Informationen reagieren.
Das Versuchsdesign hatte eine Reihe von Einschränkungen:
1) Es wurden nur isolierte Argumente untersucht, kein erweiterter Diskurs. Es ist wichtig zu erkennen, dass in vielen anderen Kontexten Überzeugungsarbeit durch einen iterativen Prozess kontinuierlicher Diskussion, Befragung und Berücksichtigung von Gegenargumenten im Laufe der Zeit erfolgt.
2) „Menschlich„Die Argumente wurden nicht von Experten verfasst. Echte Experten können Argumente entwickeln, die sowohl KI als auch menschliche Autoren übertreffen. Dies wird jedoch die Erkenntnisse zur Skalierung in verschiedenen KI-Modellen nicht beeinträchtigen.
3) Eine Zusammenarbeit zwischen Menschen und KI war nicht vorgesehen. Die Situation Mensch + KI, bei der ein Mensch ein von der KI generiertes Argument bearbeitet, um es möglicherweise noch überzeugender zu machen, wurde nicht untersucht. Dieser kollaborative Ansatz hat das Potenzial, überzeugendere Argumente hervorzubringen als diejenigen, die von Menschen oder KI allein kommen.
4) Der kulturelle und sprachliche Kontext wurde nicht berücksichtigt. Die Studie konzentriert sich auf englischsprachige Artikel und englischsprachige Personen sowie auf Themen, die vor allem im kulturellen Kontext der Vereinigten Staaten relevant sind. Es gibt keine Hinweise darauf, ob sich die Ergebnisse auf andere kulturelle oder sprachliche Kontexte außerhalb der Vereinigten Staaten übertragen lassen. Weitere Untersuchungen sind erforderlich, um die breitere Anwendbarkeit der Ergebnisse festzustellen.
5) Snap-Effekt. Experimentelle Designs können unter Ankereffekten leiden, bei denen es unwahrscheinlich ist, dass Menschen stark von ihren ursprünglichen Schätzungen abweichen, nachdem ihnen Argumente vorgelegt wurden. Dies könnte möglicherweise die Überzeugungswirkung der Studie einschränken.
6) Empfindlichkeit gegenüber Hinweisen. Verschiedene Hinweise funktionieren unterschiedlich. Rhetorische und emotionale Stile funktionierten nicht so effektiv wie logisches Denken und die Bereitstellung von Beweisen (auch wenn diese Beweise unzuverlässig waren). Interessanterweise war die Täuschungsstrategie, die es dem Modell ermöglichte, Informationen zu fabrizieren, insgesamt die überzeugendste.
7) Langfristige Auswirkungen von Argumenten wurden nicht gemessen. Am Ende der Analyse wird gemessen, wie überzeugend Menschen verschiedene Argumente fanden. Wir wissen jedoch nicht, ob oder wie sich die Handlungen der Menschen aufgrund der Argumentation verändert haben. Obwohl es unwahrscheinlich ist, dass die Auseinandersetzung mit einem einmaligen Argument (zu einem Thema mit geringer Polarisierung) dazu führt, dass Menschen anders handeln, gibt es nach Abschluss des Experiments keine Möglichkeit, die Denkprozesse oder Handlungen der Menschen zu sehen.
Bitte unterstützt mich, gebt mir ein Like!
5K Eindrücke
222 Entdeckungen
{„entityType“: „post“, „entityId“: 1153583, „awards“:[]}