OpenAI veröffentlichte kürzlich ein Papier über KritikerGPTeine Version von GPT-4, die darauf abgestimmt ist, von chatgpt generierten Code zu kritisieren. Im Vergleich zu menschlichen Prüfern erkennt CriticGPT mehr Fehler und erstellt bessere Kritiken. OpenAI plant, CriticGPT zu verwenden, um zukünftige Versionen seiner Modelle zu verbessern.
Bei der ursprünglichen Entwicklung von ChatGPT setzte OpenAI menschliche „KI-Trainer“ ein, um die Ergebnisse des Modells zu bewerten. Dadurch entstand ein Datensatz, der zur Feinabstimmung mithilfe von Reinforcement Learning from Human Feedback (RLHF) verwendet wurde. Da sich KI-Modelle jedoch verbessern und nun einige Aufgaben auf dem gleichen Niveau wie menschliche Experten ausführen können, kann es für menschliche Gutachter schwierig werden, ihre Ergebnisse zu bewerten. CriticGPT ist Teil der Bemühungen von OpenAI, skalierbare Überwachungdas dieses Problem lösen soll. OpenAI beschloss zunächst, ChatGPT dabei zu helfen, seine Fähigkeiten zur Codegenerierung zu verbessern. Die Forscher verwendeten CriticGPT, um Codekritiken zu generieren; sie bezahlten auch qualifizierte menschliche Programmierer, die dasselbe taten. Bei den Bewertungen bevorzugten KI-Trainer in 80 % der Fälle die Kritiken von CriticGPT, was zeigt, dass CriticGPT eine gute Quelle für RLHF-Trainingsdaten sein könnte. Laut OpenAI:
Der Bedarf an skalierbarer Überwachung, im weitesten Sinne verstanden als Methoden, die Menschen helfen können, Modellergebnisse richtig zu bewerten, ist größer denn je. Unabhängig davon, ob RLHF seinen dominanten Status als primäres Mittel beibehält, mit dem LLMs nachträglich zu nützlichen Assistenten ausgebildet werden, müssen wir immer noch die Frage beantworten, ob bestimmte Modellergebnisse vertrauenswürdig sind. Hier verfolgen wir einen sehr direkten Ansatz: Trainingsmodelle, die Menschen helfen, Modelle zu bewerten….Es ist…unverzichtbar, skalierbare Methoden zu finden, die sicherstellen, dass wir das richtige Verhalten unserer KI-Systeme belohnen, auch wenn sie viel intelligenter werden als wir. Wir halten LLM-Kritiker für einen vielversprechenden Anfang.
Interessanterweise ist CriticGPT auch eine Version von GPT-4, die mit RLHF optimiert wurde. In diesem Fall bestanden die RLHF-Trainingsdaten aus fehlerhaftem Code als Eingabe und einer von Menschen erstellten Kritik oder Erklärung des Fehlers als gewünschte Ausgabe. Der fehlerhafte Code wurde erstellt, indem ChatGPT Code schrieb und dann ein menschlicher Auftragnehmer einen Fehler einfügte und die Kritik schrieb.
Zur Bewertung von CriticGPT setzte OpenAI menschliche Juroren ein, um mehrere Kritiken nebeneinander zu bewerten. Den Juroren wurden die Ergebnisse von CriticGPT und dem Basis-ChatGPT sowie von Menschen allein oder von Menschen mit Unterstützung von CriticGPT („Human+CriticGPT“) erstellte Kritiken angezeigt. Die Juroren bevorzugten die Ergebnisse von CriticGPT gegenüber denen von ChatGPT und menschlichen Kritikern. OpenAI stellte außerdem fest, dass die Ergebnisse der Human+CriticGPT-Teams „wesentlich umfassender“ waren als die von Menschen allein. Allerdings gab es tendenziell mehr „Kleinigkeiten“.
In einem Diskussion über die Arbeit Auf Hacker News schrieb ein Benutzer:
Für diejenigen, die neu auf dem Gebiet der AGI-Sicherheit sind: Dies ist eine Implementierung von Paul Christianos Vorschlag für ein Ausrichtungsverfahren namens Iterierte Verstärkung von vor 6 Jahren … Es ist wunderbar zu sehen, wie seine Idee Früchte trägt! Ich bin ehrlich gesagt selbst etwas skeptisch gegenüber der Idee (das ist, als würde man vorschlagen, den Stapel „Schildkröten ganz unten“ zu stabilisieren, indem man mehr Schildkröten hinzufügt) … aber jede innovative Idee ist einen Versuch wert, in einem so zeitkritischen und dringenden Bereich wie der AGI-Sicherheit.
Christian leitete früher das Sprachmodell-Ausrichtungsteam von OpenAI. Neben OpenAI arbeiten auch andere Unternehmen an skalierbarer Überwachung. Insbesondere Anthropic hat Forschungsarbeiten zu diesem Problem veröffentlicht, beispielsweise ihre Arbeit zur Verwendung eines Debatte zwischen LLMs um die Modellwahrheit zu verbessern.