OpenAI hat CriticGPT eingeführt, ein neues Modell für künstliche Intelligenz, das Fehler in Code identifizieren soll, der direkt von chatgpt generiert wird. CriticGPT wird als algorithmischer Assistent für Tester verwendet, die den von ChatGPT erstellten Programmcode überprüfen.

Bildquelle: Copilot

Nach dem neuen Forschung „LLM Critics Help Catch LLM Bugs“, veröffentlicht von OpenAI, ist das neue CriticGPT-Modell als KI-Assistent für erfahrene Tester konzipiert, die den von ChatGPT generierten Programmcode überprüfen. CriticGPT basiert auf der GPT-4 Large Language Model (LLM)-Familie, analysiert Code und kennzeichnet potenzielle Fehler, sodass Programmierer Fehler leichter erkennen können, die andernfalls aufgrund menschlicher Fehler unentdeckt bleiben würden. Die Forscher trainierten CriticGPT anhand eines Datensatzes von Codebeispielen, die absichtlich eingeführte Fehler enthielten, und brachten ihm bei, verschiedene Fehler zu erkennen und zu kennzeichnen.

Die Wissenschaftler fanden heraus, dass in 63 % der Fälle, in denen es um natürlich auftretende LLM-Fehler ging, die Kommentatoren die menschliche Kritik von CriticGPT bevorzugten. Darüber hinaus haben Teams, die CriticGPT verwenden, umfassendere Rezensionen geschrieben als Personen, die den KI-Assistenten nicht verwenden, und gleichzeitig die Rate an Konfabulationen (falsche Fakten und Halluzinationen) verringert.

Die Entwicklung eines automatisierten „Kritikers“ umfasste das Training eines Modells anhand einer großen Anzahl von Eingabedaten mit absichtlich eingeführten Fehlern. Experten wurden gebeten, den von ChatGPT geschriebenen Code zu ändern, Fehler einzuführen und dann ein Ergebnis mit angeblich entdeckten Fehlern bereitzustellen. Durch diesen Prozess lernte das Modell, verschiedene Arten von Fehlern im Code zu identifizieren und zu kritisieren.

In Experimenten hat CriticGPT die Fähigkeit demonstriert, sowohl eingeführte Fehler als auch natürlich auftretende Fehler in den ChatGPT-Antwortergebnissen zu erkennen. Die Forscher haben außerdem eine neue Methode namens „Force Sampling Beam Search“ (FSBS) entwickelt, die CriticGPT dabei hilft, detailliertere Codeüberprüfungen zu schreiben, sodass sie die Gründlichkeit ihrer Problemsuchen anpassen und gleichzeitig die Falsch-Positiv-Rate kontrollieren können.

Siehe auch  ChatGPT-Geldberatung: So stellen Sie sicher, dass es sicher und korrekt ist

Interessanterweise gehen die Fähigkeiten von CriticGPT über die einfache Codeüberprüfung hinaus. In den Experimenten wurde das Modell auf einen Satz von ChatGPT-Trainingsdaten angewendet, die zuvor von Menschen als fehlerfrei bewertet wurden. Überraschenderweise stellte CriticGPT in 24 % der Fälle Fehler fest, die anschließend von Experten bestätigt wurden. OpenAI glaubt, dass dies nicht nur das Potenzial des Modells für die Lösung technischer Probleme zeigt, sondern auch seine Fähigkeit unterstreicht, subtile Fehler zu erkennen, die selbst einer sorgfältigen menschlichen Inspektion entgehen können.

Trotz seiner vielversprechenden Ergebnisse weist CriticGPT, wie alle KI-Modelle, Einschränkungen auf. Das Modell wurde anhand relativ kurzer ChatGPT-Antworten trainiert, wodurch es möglicherweise nicht vollständig auf die Bewertung der längeren, komplexeren Aufgaben vorbereitet ist, mit denen zukünftige KI-Systeme konfrontiert sein könnten. Das Forschungsteam erkennt, dass das Modell am effektivsten Fehler erkennt, die in einem bestimmten Engpassbereich des Codes identifiziert werden können. Echte Fehler in der KI-Ausgabe können jedoch oft über mehrere Teile der Antwort verteilt sein, was eine Herausforderung für zukünftige Iterationen des Modells darstellt.

Darüber hinaus reduziert CriticGPT zwar die Konfabulation, beseitigt sie jedoch nicht vollständig, und menschliche Experten können aufgrund dieser falschen Daten immer noch Fehler machen.

Wenn Sie einen Fehler bemerken, wählen Sie ihn mit der Maus aus und drücken Sie STRG+ENTER.

5/5 - (144 votes)
Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein