Bei allem Tamtam machen texterzeugende KI-Modelle wie GPT-4 von OpenAI viele Fehler – einige davon schädlich. James Vincent von The Verge einmal nannte ein solches Modell einen „emotional manipulativen Lügner“, was den aktuellen Stand der Dinge ziemlich gut zusammenfasst.

Die Unternehmen hinter diesen Modellen sagen, dass sie Schritte unternehmen, um die Probleme zu beheben, wie die Implementierung von Filtern und Teams menschlicher Moderatoren, um Probleme zu beheben, sobald sie gekennzeichnet werden. Aber es gibt nicht die eine richtige Lösung. Selbst die besten Modelle von heute sind anfällig für Verzerrungen, Toxizität und böswillige Angriffe.

Auf der Suche nach „sichereren“ Textgenerierungsmodellen hat Nvidia heute NeMo Guardrails veröffentlicht, ein Open-Source-Toolkit, das darauf abzielt, KI-gestützte Apps „genauer, angemessener, themenbezogener und sicherer“ zu machen.

Jonathan Cohen, Vizepräsident für angewandte Forschung bei Nvidia, sagt, dass das Unternehmen „seit vielen Jahren“ am zugrunde liegenden System von Guardrails arbeite, aber erst vor etwa einem Jahr erkannt habe, dass es gut zu Modellen wie GPT-4 und ChatGPT passt .

„Seitdem haben wir uns auf diese Version von NeMo Guardrails hin entwickelt“, sagte Cohen per E-Mail gegenüber TechCrunch. „Sicherheitstools für KI-Modelle sind entscheidend für die Bereitstellung von Modellen für Anwendungsfälle in Unternehmen.“

Guardrails enthält Code, Beispiele und Dokumentation, um KI-Apps, die sowohl Text als auch Sprache generieren, „Sicherheit hinzuzufügen“. Nvidia behauptet, dass das Toolkit so konzipiert ist, dass es mit den meisten generativen Sprachmodellen funktioniert und es Entwicklern ermöglicht, Regeln mit wenigen Codezeilen zu erstellen.

Insbesondere können Guardrails verwendet werden, um zu verhindern – oder zumindest zu verhindern, dass Modelle vom Thema abweichen, mit ungenauen Informationen oder giftiger Sprache antworten und Verbindungen zu „unsicheren“ externen Quellen herstellen. Denken Sie beispielsweise daran, einen Kundendienstmitarbeiter daran zu hindern, Fragen zum Wetter zu beantworten, oder einen Suchmaschinen-Chatbot daran zu hindern, auf anrüchige wissenschaftliche Zeitschriften zu verlinken.

Siehe auch  Staffel 3, Folge 8, "Surrender"

„Letztendlich kontrollieren Entwickler mit Guardrails, was für ihre Anwendung außerhalb der Grenzen liegt“, sagte Cohen. „Sie können Leitplanken entwickeln, die zu breit oder umgekehrt zu schmal für ihren Anwendungsfall sind.“

Eine universelle Lösung für die Mängel von Sprachmodellen klingt jedoch zu gut, um wahr zu sein – und das ist sie auch. Während Unternehmen wie Zapier Guardrails verwenden, um ihren generativen Modellen eine Sicherheitsebene hinzuzufügen, räumt Nvidia ein, dass das Toolkit nicht unvollkommen ist; es wird nicht alles fangen, mit anderen Worten.

Cohen merkt auch an, dass Guardrails am besten mit Modellen funktioniert, die „ausreichend gut darin sind, Anweisungen zu befolgen“, à la ChatGPT, und die das beliebte verwenden LangChain Framework zum Erstellen von KI-gestützten Apps. Das disqualifiziert einige der Open-Source-Optionen da draußen.

Und – abgesehen von der Effektivität der Technologie – muss betont werden, dass Nvidia Guardrails nicht unbedingt aus reiner Herzensgüte herausbringt. Es ist Teil des NeMo-Frameworks des Unternehmens, das über die KI-Softwaresuite für Unternehmen von Nvidia und den vollständig verwalteten Cloud-Service NeMo verfügbar ist. Jedes Unternehmen kann die Open-Source-Version von Guardrails implementieren, aber Nvidia würde es sicherlich vorziehen, stattdessen für die gehostete Version zu bezahlen.

Obwohl es in Guardrails wahrscheinlich keinen Schaden gibt, denken Sie daran, dass es keine Wunderwaffe ist – und seien Sie vorsichtig, wenn Nvidia jemals etwas anderes behauptet.

4.6/5 - (277 votes)
Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein