OpenAI-Forscher haben das GPT-4-Modell verfeinert und „CriticGPT“ trainiert, Fehler im von ChatGPT generierten Code zu finden, was großen Sprachmodellen dabei hilft, Inhalte genauer zu generieren.
GPT-4 wird für die Steuerung von ChatGPT verwendet, und OpenAI nutzt Reinforcement Learning from Human Feedback (RLHF) zur Ausrichtung. RLHF ist eine Technologie für maschinelles Lernen, die menschliches Feedback zur Feinabstimmung des Modells nutzt, um festzustellen, ob der vom Modell generierte Inhalt kohärent, genau und nicht anstößig ist. KI-Trainer vergeben Bewertungen, die in die Algorithmen zurückfließen, die das Modell steuern. Um Chatbots wie ChatGPT zuverlässiger zu machen und Fehlverhalten zu verhindern, spielt RLHF eine sehr wichtige Rolle, macht ChatGPT-Fehler jedoch subtiler und schwieriger zu erkennen.
Ein Artikel „LLM-Kritiker helfen beim Aufspüren von LLM-Fehlern„Das neue Papier beschreibt, dass OpenAI CriticGPT als neuen Assistenten für KI-Trainer entwickelt hat, der für die Überprüfung des von ChatGPT generierten Codes und das Aufzeigen von Fehlern verantwortlich ist und Menschen dabei hilft, Fehler zu finden, die möglicherweise übersehen wurden.“
Tatsächlich verwendet CriticGPT auch RLHF für das Training. Im Gegensatz zu ChatGPT haben OpenAI-Forscher jedoch absichtlich eine große Menge an Fehlercodedaten eingefügt, um CriticGPT beizubringen, verschiedene Codefehler zu identifizieren und zu markieren.
▲ CriticGPT findet Fehler im von ChatGPT generierten Code. (Quelle:OpenAI-Blog)
OpenAI plant, CriticGPT-ähnliche Modelle in den RLHF-Annotationsprozess zu integrieren, um dem KI-Schulungspersonal klare Hilfestellung zu bieten. CriticGPT hilft OpenAI dabei, leistungsfähigere Modelle zu trainieren, um sicherzustellen, dass die generierten Inhalte vertrauenswürdig sind und den menschlichen Werten entsprechen.
(Quelle des ersten Bildes:Unsplash)
Neue wissenschaftliche und technologische Erkenntnisse, die von Zeit zu Zeit aktualisiert werden