Der Ansatz des chatgpt-Entwicklers OpenAI zum Aufbau künstlicher Intelligenz geriet diese Woche unter Beschuss ehemaliger Mitarbeiter, die dem Unternehmen vorwarfen, unnötige Risiken mit einer Technologie einzugehen, die schädlich werden könnte.
Heute hat OpenAI ein neues Forschungspapier veröffentlicht, das offenbar zeigen soll, dass es dem Unternehmen ernst damit ist, KI-Risiken zu begegnen, indem es seine Modelle besser erklärbar macht. In dem Papierhaben Forscher des Unternehmens einen Weg gefunden, einen Blick in das KI-Modell zu werfen, das ChatGPT antreibt. Sie entwickeln eine Methode, um herauszufinden, wie das Modell bestimmte Konzepte speichert – darunter auch solche, die zu Fehlverhalten eines KI-Systems führen könnten.
Obwohl die Studie die Bemühungen von OpenAI, KI unter Kontrolle zu halten, sichtbarer macht, wirft sie auch ein Schlaglicht auf die jüngsten Turbulenzen im Unternehmen. Die neue Studie wurde von dem kürzlich aufgelösten „Superalignment“-Team bei OpenAI durchgeführt, das sich der Untersuchung der langfristigen Risiken der Technologie widmete.
Die ehemaligen Leiter der Gruppe, Ilya Sutskever und Jan Leike – die beide OpenAI verlassen haben – werden als Mitautoren genannt. Sutskever, Mitbegründer von OpenAI und ehemaliger Chefwissenschaftler, gehörte zu den Vorstandsmitgliedern, die im vergangenen November für die Entlassung von CEO Sam Altman stimmten, was einige chaotische Tage auslöste, die in Altmans Rückkehr als Leiter gipfelten.
ChatGPT wird von einer Familie sogenannter großer Sprachmodelle namens GPT angetrieben, die auf einem Ansatz des maschinellen Lernens basieren, der als künstliche neuronale Netzwerke bekannt ist. Diese mathematischen Netzwerke haben eine große Leistungsfähigkeit beim Erlernen nützlicher Aufgaben durch die Analyse von Beispieldaten gezeigt, aber ihre Funktionsweise lässt sich nicht so einfach untersuchen wie herkömmliche Computerprogramme. Das komplexe Zusammenspiel zwischen den Schichten von „Neuronen“ innerhalb eines künstlichen neuronalen Netzwerks macht das Reverse Engineering, warum ein System wie ChatGPT eine bestimmte Antwort geliefert hat, zu einer enormen Herausforderung.
„Anders als bei den meisten menschlichen Schöpfungen verstehen wir die Funktionsweise neuronaler Netzwerke nicht wirklich“, schrieben die Forscher hinter der Arbeit in einem Begleitdokument. Blogeintrag. Einige prominente KI-Forscher glauben, dass die leistungsstärksten KI-Modelle, darunter ChatGPT, möglicherweise zum Entwerfen chemischer oder biologischer Waffen und zur Koordinierung von Cyberangriffen verwendet werden könnten. Eine längerfristige Sorge besteht darin, dass KI-Modelle Informationen verbergen oder auf schädliche Weise handeln könnten, um ihre Ziele zu erreichen.
Das neue Papier von OpenAI beschreibt eine Technik, die das Mysterium ein wenig lindert, indem mithilfe eines zusätzlichen maschinellen Lernmodells Muster identifiziert werden, die bestimmte Konzepte innerhalb eines maschinellen Lernsystems darstellen. Die wichtigste Neuerung besteht darin, das Netzwerk zu verfeinern, das verwendet wird, um durch die Identifizierung von Konzepten in das betreffende System hineinzuschauen und es effizienter zu machen.
OpenAI hat den Ansatz unter Beweis gestellt, indem es Muster identifizierte, die Konzepte innerhalb von GPT-4, einem seiner größten KI-Modelle, darstellen. Das Unternehmen freigegebener Code im Zusammenhang mit der Interpretierbarkeitsarbeit sowie ein Visualisierungstool Damit lässt sich in GPT-4 und einem anderen Modell feststellen, wie die Wörter in verschiedenen Sätzen Konzepte aktivieren, darunter Schimpfwörter und erotische Inhalte. Zu wissen, wie ein Modell bestimmte Konzepte darstellt, könnte ein Schritt in die Richtung sein, diejenigen Konzepte, die mit unerwünschtem Verhalten verbunden sind, zu reduzieren, um ein KI-System auf Kurs zu halten. Es könnte auch möglich sein, ein KI-System so abzustimmen, dass es bestimmte Themen oder Ideen bevorzugt.