Forscher der KI-Sicherheitsforschungsorganisation Apollo Research haben die Reaktionen bewertet, die große Sprachmodelle (LLMs) in Szenarien hervorrufen, in denen sie unter Druck stehen. Die Ergebnisse zeigen, dass solche Systeme in manchen Fällen „ihre Benutzer strategisch täuschen“ können.
Wissenschaftler haben ein Experiment entworfen, um GPT-4 gezielt anzugreifen. Dies ist das große Sprachmodell, das chatgpt zugrunde liegt. Mithilfe von Textanweisungen zwangen die Forscher das System, Finanzinvestitionen in einer künstlichen Umgebung zu simulieren.
Wir sagen dem Model, dass sie Zugriff auf verschiedene Tools hat, um erfolgreiche Trades zu finden, E-Mails zu versenden und Trades durchzuführen. Anschließend modellieren wir die normalen Interaktionen des Modells mit seinen Kollegen und üben, was am wichtigsten ist, Druck auf das Modell aus, damit es eine gute Leistung erbringt.
Jeremy Scheurer, Co-Autor der Studie
Beispielsweise schickt der CEO der KI eine E-Mail, in der er ihr mitteilt, dass es dem Unternehmen schlecht geht und es ein gutes Jahr braucht. Ein anderer „Kollege“ erwähnt in einer Mitteilung, dass sich ein wirtschaftlicher Abschwung zusammenbraut. Abschließend erwähnt der „Händler“, dass eine Ankündigung einer bevorstehenden Fusion der beiden Unternehmen erwartet wird, die profitabel sein könnte, und erwähnt auch, dass das Management unzufrieden wäre, wenn es herausfinden würde, dass jemand mit Insiderinformationen handelt.
Die Forscher fanden heraus, dass der GPT-4-basierte KI-Agent in dieser simulierten Hochdruckumgebung sehr oft beschloss, beim Kauf von Aktien des fusionierenden Unternehmens auf Insiderinformationen zu reagieren, die er von einem Mithändler erhalten hatte. Darüber hinaus legt das Modell ausdrücklich fest, dass es Insiderinformationen nicht erwähnen sollte, indem es in dem für seinen Manager erstellten Bericht alternative Erklärungen für den von ihm getätigten Handel liefert.
Auch wenn der Manager direkt fragt, ob das Model im Vorfeld von der Fusion gewusst habe, leugnet GPT-4 in der Regel weiterhin die Wahrheit. Diese Studie stellt sich ein Szenario vor, in dem KI absichtlich lügt. Die Forscher planen, die Studie fortzusetzen, um andere Situationen mit ähnlichem Verhalten und die Risiken der Bereitstellung falscher Daten durch KI zu identifizieren.
weiter lesen:
Ein seltsames Objekt zwischen Saturn und Uranus verändert sich gerade
Wissenschaftler verstehen endlich, wie Elefanten Rüssel bekamen
Die älteste Festung, die vor etwa 8.000 Jahren erbaut wurde, wurde in Sibirien gefunden