Seit dem Start von chatgpt im November 2022 OpenAI hat viel Aufmerksamkeit von Wissensarbeitern, Entwicklern und fast allen, die das Internet und das Web nutzen, erhalten. Aber OpenAI gibt es schon lange, noch bevor ChatGPT erstellt wurde, und bietet Entwicklern viele aufregende Dienste. Es ist eines der ersten Plattformunternehmen, das generative KI über einfache REST-API-Endpunkte verfügbar macht.
Dies ist der erste in einer Reihe von Artikeln über OpenAI, in denen wir das Gesamtbild von OpenAI und die Struktur der Plattform untersuchen werden. Wir werden die Grundlagen und die grundlegenden Bausteine der OpenAI-Plattform verstehen.
OpenAI: Demokratisierung der generativen KI
OpenAI wurde 2015 als gemeinnützige Forschungsorganisation von Ilya Sutskever, Greg Brockman, Trevor Blackwell, Vicki Cheung, Andrej Karpathy, Durk Kingma, John Schulman, Pamela Vagata und Wojciech Zaremba gegründet. Sam Altman und Elon Musk waren die ersten Vorstandsmitglieder.
OpenAI trat ins Rampenlicht, als Microsoft 2019 eine Investition von 1 Milliarde US-Dollar und Anfang dieses Jahres eine weitere Runde von 10 Milliarden US-Dollar ankündigte. Infosys und Khosla Ventures sind die Unternehmensinvestoren, während Reid Hoffman, Peter Thiel und Jessica Livingston die Einzelinvestoren sind.
Obwohl OpenAI oft dafür kritisiert wird, dass es von einem gemeinnützigen Unternehmen zu einem kommerziellen KI-Unternehmen geworden ist, steht es an der Spitze der generativen KI-Forschung. Dank der Partnerschaft mit Microsoft erhielt das Unternehmen Zugriff auf die hochmoderne Infrastruktur, die von Azure-Datenverarbeitungsdiensten unterstützt wird.
Lassen Sie uns, ohne zu viel Zeit damit zu verbringen, die Geschichte und Entwicklung von OpenAI zu verstehen, einen Blick auf den aktuellen Stand des Unternehmens werfen.
Die generativen KI-Modelle werden mit großen Datensätzen trainiert, die auf unüberwachtem Lernen, sogenannten Foundation-Modellen, basieren. Auf hoher Ebene verfügt OpenAI über drei grundlegende Basismodelle: GPT, DALL-E und Whisper. GPT ist eines der beliebtesten Modelle, das für den Umgang mit Textinhalten trainiert wurde. DALL-E kann Bilder basierend auf Eingaben in natürlicher Sprache generieren. Schließlich ist Whisper ein Modell, um Sprache in Text umzuwandeln und eine Sprache in eine andere zu übersetzen.
Alle von OpenAI unterstützten Anwendungsfälle und generativen KI-Szenarien drehen sich um diese drei Grundmodelle. Von diesen erhielt GPT aufgrund des Erfolgs von ChatGPT, das auf der neuesten Version des Modells – GPT-4 – basiert, die maximale Aufmerksamkeit. Es gibt mehrere Variationen des GPT-Modells, um Szenarien wie Wortvervollständigung, interaktiven Chat, Bearbeitung, Umformulierung, Zusammenfassung und Textklassifizierung zu unterstützen. In ähnlicher Weise kann DALL-E zum Erstellen, Bearbeiten und Erstellen von Variationen von Bildern verwendet werden. Das Whisper-Modell kann zur Transkription und Übersetzung von Audiodateien verwendet werden.
Um es den Entwicklern zu erleichtern, generative KI zu integrieren, hat OpenAI mehrere APIs verfügbar gemacht, die auf die Anwendungsfälle ausgerichtet sind. Um Modelle wie GPT oder DALL-E zu integrieren, müssen die Entwickler den API-Schlüssel erhalten und damit auf die Open AI REST-Endpunkte zugreifen.
Die APIs von OpenAI demokratisierten die generative KI, indem sie hochmoderne Sprach- und Visionsmodelle über eine einfache REST-Schnittstelle zugänglich machten. Jeder Entwickler, der mit der Verwendung von APIs vertraut ist, kann die Leistungsfähigkeit der generativen KI in seine Anwendungen einfließen lassen. Sie müssen weder die komplexe Mathematik hinter neuronalen Netzwerken verstehen noch Zugang zu einer leistungsstarken Recheninfrastruktur haben, die auf High-End-CPUs und -GPUs basiert.
Es ist möglich, die Basismodelle von OpenAI mit benutzerdefinierten, privaten Datensätzen zu optimieren. Das fein abgestimmte Modell kann dann verwendet werden, um Rückschlüsse auf private Daten zu ziehen, was den Wert der generativen KI erheblich steigert. OpenAI hat die Feinabstimmung als eine API bereitgestellt, die die Variation eines Basismodells und eines benutzerdefinierten Datensatzes akzeptiert.
Das folgende Diagramm fasst zusammen, wie die OpenAI-Plattform aufgebaut ist. Die unterste Schicht besteht aus den Basismodellen, während die nächste Schicht mehrere Geschmacksrichtungen und Variationen der Modelle enthält, die jeweils für einen bestimmten Anwendungsfall optimiert sind. Die oberste Schicht ist die REST-API, die die Modelle über bekannte Endpunkte verfügbar macht.
Erkundung des OpenAI-Ökosystems
OpenAI hat die Tools, SDKs und Dienste entwickelt, die sich an Entwickler und Endbenutzer richten. ChatGPT ist ein Beispiel für einen Dienst, der sich an Endbenutzer richtet. OpenAI verwendet hauptsächlich ChatGPT, um interaktives Feedback von den Benutzern zu erhalten, was einen großen Beitrag zur Verbesserung des GPT-Modells leistet. Es verwendet auch die Eingaben und Eingabeaufforderungen, um zu analysieren, wie Benutzer mit dem Modell interagieren.
Für die Entwickler hat OpenAI eine Spielwiese, die als interaktive Schnittstelle zur REST-API fungiert. Es kann verwendet werden, um zu testen, wie die fein abgestimmten Modelle auf dieselbe Eingabe oder Eingabeaufforderung reagieren. Es kann auch verwendet werden, um die Parameter zu optimieren, die die Genauigkeit und Kreativität der Modelle beeinflussen.
Während die Verwendung eines Tools wie cURL zum Aufrufen der REST-API einfach ist, verfügt OpenAI über eine offizielle Python-Bibliothek, die es einfach macht, die API in Umgebungen wie einem Jupyter-Notebook zu verwenden. Es gibt ein offizielles Node.js-Bibliothekstool für diejenigen, die an der Verwendung von JavaScript interessiert sind. Die OSS-Community hat verschiedene Bibliotheken für Sprachen wie C#, C++, Go, Kotlin und Swift erstellt.
Der folgende Screenshot zeigt den Aufruf der Vervollständigungs-API über cURL:
Dasselbe kann über die offizielle Python-Bibliothek erfolgen, die von OpenAI verwaltet wird.
OpenAI hat auch Tools und Bibliotheken veröffentlicht, die Wörter in Token umwandeln – die grundlegende Eingabeeinheit großer Sprachmodelle wie GPT. Diese Tools helfen Entwicklern, die Kosten einzuschätzen, die mit der Nutzung der API von OpenAI verbunden sind. Wenn Sie die Python-Bibliothek über PIP installieren, erhalten Sie auch ein praktisches CLI-Tool zum Testen der API.
Wenn Sie ein Microsoft Azure-Entwickler sind, können Sie sich für den Azure OpenAI-Dienst anmelden, der eng in die Cloud-Dienste von Microsoft integriert ist, wie z. B. Active Directory, virtuelle Netzwerke, rollenbasierte Zugriffskontrollen und mehr.
Im nächsten Teil dieser Serie gehen wir näher auf Prompt Engineering und seine Bedeutung im Umgang mit GPT ein. Bleiben Sie dran.