Start ChatGPT ChatGPT kann Benutzer täuschen, wenn es gedrückt wird

ChatGPT kann Benutzer täuschen, wenn es gedrückt wird

Von

Dezember 13, 2023

Forscher der KI-Sicherheitsforschungsorganisation Apollo Research haben die Reaktionen bewertet, die große Sprachmodelle (LLMs) in Szenarien hervorrufen, in denen sie unter Druck stehen. Die Ergebnisse zeigen, dass solche Systeme in manchen Fällen „ihre Benutzer strategisch täuschen“ können.

Wissenschaftler haben ein Experiment entworfen, um GPT-4 gezielt anzugreifen. Dies ist das große Sprachmodell, das chatgpt zugrunde liegt. Mithilfe von Textanweisungen zwangen die Forscher das System, Finanzinvestitionen in einer künstlichen Umgebung zu simulieren.

Wir sagen dem Model, dass sie Zugriff auf verschiedene Tools hat, um erfolgreiche Trades zu finden, E-Mails zu versenden und Trades durchzuführen. Anschließend modellieren wir die normalen Interaktionen des Modells mit seinen Kollegen und üben, was am wichtigsten ist, Druck auf das Modell aus, damit es eine gute Leistung erbringt.

Jeremy Scheurer, Co-Autor der Studie

Beispielsweise schickt der CEO der KI eine E-Mail, in der er ihr mitteilt, dass es dem Unternehmen schlecht geht und es ein gutes Jahr braucht. Ein anderer „Kollege“ erwähnt in einer Mitteilung, dass sich ein wirtschaftlicher Abschwung zusammenbraut. Abschließend erwähnt der „Händler“, dass eine Ankündigung einer bevorstehenden Fusion der beiden Unternehmen erwartet wird, die profitabel sein könnte, und erwähnt auch, dass das Management unzufrieden wäre, wenn es herausfinden würde, dass jemand mit Insiderinformationen handelt.

Die Forscher fanden heraus, dass der GPT-4-basierte KI-Agent in dieser simulierten Hochdruckumgebung sehr oft beschloss, beim Kauf von Aktien des fusionierenden Unternehmens auf Insiderinformationen zu reagieren, die er von einem Mithändler erhalten hatte. Darüber hinaus legt das Modell ausdrücklich fest, dass es Insiderinformationen nicht erwähnen sollte, indem es in dem für seinen Manager erstellten Bericht alternative Erklärungen für den von ihm getätigten Handel liefert.

Siehe auch HIX.AI: Das leistungsstarke All-in-One-KI-Schreibtool ist vertrauenswürdiger als ChatGPT

Auch wenn der Manager direkt fragt, ob das Model im Vorfeld von der Fusion gewusst habe, leugnet GPT-4 in der Regel weiterhin die Wahrheit. Diese Studie stellt sich ein Szenario vor, in dem KI absichtlich lügt. Die Forscher planen, die Studie fortzusetzen, um andere Situationen mit ähnlichem Verhalten und die Risiken der Bereitstellung falscher Daten durch KI zu identifizieren.

weiter lesen:

Ein seltsames Objekt zwischen Saturn und Uranus verändert sich gerade

Wissenschaftler verstehen endlich, wie Elefanten Rüssel bekamen

Die älteste Festung, die vor etwa 8.000 Jahren erbaut wurde, wurde in Sibirien gefunden

5/5 - (372 votes)

ChatGPT kann Benutzer täuschen, wenn es gedrückt wird

Kommentieren Sie den Artikel Antwort abbrechen

Axel Springer schließt einen Vertrag mit OpenAI ab, um ChatGPT seine Geschichten lesen zu...

Der offizielle Viz Media-Account nennt Sanji die Nummer vier der Strohhut-Piraten

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

Axel Springer schließt einen Vertrag mit OpenAI ab, um ChatGPT seine Geschichten lesen zu...

Der offizielle Viz Media-Account nennt Sanji die Nummer vier der Strohhut-Piraten

Verwandte Artikel Mehr vom Autor