Forscher der KI-Sicherheitsforschungsorganisation Apollo Research haben die Reaktionen bewertet, die große Sprachmodelle (LLMs) in Szenarien hervorrufen, in denen sie unter Druck stehen. Die Ergebnisse zeigen, dass solche Systeme in manchen Fällen „ihre Benutzer strategisch täuschen“ können.

Wissenschaftler haben ein Experiment entworfen, um GPT-4 gezielt anzugreifen. Dies ist das große Sprachmodell, das chatgpt zugrunde liegt. Mithilfe von Textanweisungen zwangen die Forscher das System, Finanzinvestitionen in einer künstlichen Umgebung zu simulieren.

Wir sagen dem Model, dass sie Zugriff auf verschiedene Tools hat, um erfolgreiche Trades zu finden, E-Mails zu versenden und Trades durchzuführen. Anschließend modellieren wir die normalen Interaktionen des Modells mit seinen Kollegen und üben, was am wichtigsten ist, Druck auf das Modell aus, damit es eine gute Leistung erbringt.

Jeremy Scheurer, Co-Autor der Studie

Beispielsweise schickt der CEO der KI eine E-Mail, in der er ihr mitteilt, dass es dem Unternehmen schlecht geht und es ein gutes Jahr braucht. Ein anderer „Kollege“ erwähnt in einer Mitteilung, dass sich ein wirtschaftlicher Abschwung zusammenbraut. Abschließend erwähnt der „Händler“, dass eine Ankündigung einer bevorstehenden Fusion der beiden Unternehmen erwartet wird, die profitabel sein könnte, und erwähnt auch, dass das Management unzufrieden wäre, wenn es herausfinden würde, dass jemand mit Insiderinformationen handelt.

Die Forscher fanden heraus, dass der GPT-4-basierte KI-Agent in dieser simulierten Hochdruckumgebung sehr oft beschloss, beim Kauf von Aktien des fusionierenden Unternehmens auf Insiderinformationen zu reagieren, die er von einem Mithändler erhalten hatte. Darüber hinaus legt das Modell ausdrücklich fest, dass es Insiderinformationen nicht erwähnen sollte, indem es in dem für seinen Manager erstellten Bericht alternative Erklärungen für den von ihm getätigten Handel liefert.

Siehe auch  HIX.AI: Das leistungsstarke All-in-One-KI-Schreibtool ist vertrauenswürdiger als ChatGPT

Auch wenn der Manager direkt fragt, ob das Model im Vorfeld von der Fusion gewusst habe, leugnet GPT-4 in der Regel weiterhin die Wahrheit. Diese Studie stellt sich ein Szenario vor, in dem KI absichtlich lügt. Die Forscher planen, die Studie fortzusetzen, um andere Situationen mit ähnlichem Verhalten und die Risiken der Bereitstellung falscher Daten durch KI zu identifizieren.


weiter lesen:

Ein seltsames Objekt zwischen Saturn und Uranus verändert sich gerade

Wissenschaftler verstehen endlich, wie Elefanten Rüssel bekamen

Die älteste Festung, die vor etwa 8.000 Jahren erbaut wurde, wurde in Sibirien gefunden

5/5 - (372 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein