Im KI-Bereich kommen täglich neue große Sprachmodelle auf den Markt und die Dinge verändern sich in rasendem Tempo. In nur wenigen Monaten der Entwicklung können wir nun ein ChatGPT-ähnliches LLM offline auf unserem PC ausführen. Darüber hinaus können wir einen KI-Chatbot trainieren und einen personalisierten KI-Assistenten erstellen. Was mich jedoch in letzter Zeit fasziniert hat, ist der praxisorientierte Ansatz von Microsoft bei der KI-Entwicklung. Microsoft arbeitet derzeit an einer fortschrittlichen Form eines KI-Systems namens JARVIS (ein offensichtlicher Hinweis auf Marvels Iron Man), der sich mit mehreren KI-Modellen verbindet und mit einem Endergebnis antwortet. Die Demo wird auf Huggingface gehostet und jeder kann jetzt die Fähigkeiten von JARVIS ausprobieren. Wenn Sie also Interesse haben, lernen Sie gleich den Umgang mit Microsoft JARVIS (HuggingGPT) kennen.
Was ist Microsoft JARVIS (HuggingGPT)?
Microsoft hat eine Art einzigartiges kollaboratives System entwickelt, bei dem mehrere KI-Modelle verwendet werden können, um eine bestimmte Aufgabe zu erfüllen. Und in all dem, ChatGPT fungiert als Verantwortlicher der Aufgabe. Das Projekt heißt JARVIS auf GitHub (besuchen), und es ist jetzt auf Huggingface (daher HuggingGPT genannt) zum Ausprobieren verfügbar. In unserem Test funktionierte es wunderbar mit Texten, Bildern, Audio und sogar Videos.
Es funktioniert ähnlich wie OpenAI die multimodalen Fähigkeiten von GPT 4 mit Texten und Bildern demonstrierte. JARVIS geht jedoch noch einen Schritt weiter und integriert verschiedene Open-Source-LLMs für Bilder, Videos, Audio und mehr. Das Beste daran ist, dass es kann auch eine Verbindung zum Internet herstellen und auf Dateien zugreifen. Sie können beispielsweise eine URL einer Website eingeben und Fragen dazu stellen. Das ist ziemlich cool, oder?

Sie können mehrere Aufgaben in einer einzigen Abfrage hinzufügen. Sie können es beispielsweise bitten, ein Bild einer außerirdischen Invasion zu erstellen und Gedichte darüber zu schreiben. Dabei analysiert ChatGPT die Anfrage und plant die Aufgabe. Danach, ChatGPT wählt das richtige Modell aus (gehostet auf Huggingface), um die Aufgabe zu erfüllen. Das ausgewählte Modell schließt die Aufgabe ab und gibt das Ergebnis an ChatGPT zurück.
Schließlich generiert ChatGPT die Antwort anhand der Inferenzergebnisse aller Modelle. Für diese Aufgabe verwendete JARVIS das Modell Stable Diffusion 1.5, um das Bild zu generieren, und ChatGPT selbst, um ein Gedicht zu schreiben.

Es gibt so viele wie 20 Modelle mit JARVIS verknüpft (UmarmungGPT). Einige davon sind t5-base, Stable-Diffusion 1.5, Bert, Facebooks Bart-Large-CNN, Intels DPT-Large und mehr. Zusammenfassend lässt sich sagen: Wenn Sie sofort multimodale Funktionen wünschen, schauen Sie sich gleich Microsoft JARVIS an. Wie Sie es einrichten und gleich testen, haben wir hier erklärt:
Schritt 1: Holen Sie sich die Schlüssel zur Verwendung von Microsoft JARVIS
1. Gehen Sie zunächst zu diesen Linkmelden Sie sich bei Ihrem OpenAI-Konto an und klicken Sie auf „Neuen geheimen Schlüssel erstellen“, um Ihren zu erhalten OpenAI-API-Schlüssel. Speichern Sie den Schlüssel zur späteren Verwendung in einer Notepad-Datei.

2. Öffnen Sie als Nächstes die Website Huggingface.co (besuchen) Und Erstellen Sie ein kostenloses Konto.

3. Klicken Sie anschließend darauf Link um Ihren Hugging Face-Token zu generieren. Klicken Sie auf „Neuer Token” im rechten Bereich.

4. Geben Sie hier einen Namen ein (zum Beispiel habe ich den Namen „jarvis“ eingegeben). Ändern Sie dann die Rolle in „Schreiben“ und klicken Sie dann auf „Generieren Sie einen Token„.

5. Klicken Sie anschließend auf „KopieKlicken Sie auf die Schaltfläche und das Token wird in die Zwischenablage kopiert. Speichern Sie das Token in einer Notepad-Datei.

Schritt 2: Beginnen Sie mit der Verwendung von Microsoft JARVIS (HuggingGPT)
1. Um Microsoft JARVIS zu verwenden, öffnen Sie es diesen Link Und Fügen Sie den OpenAI-API-Schlüssel ein im ersten Feld. Klicken Sie anschließend auf „Senden“. Fügen Sie auf ähnliche Weise das Huggingface-Token in das zweite Feld ein und klicken Sie auf „Senden“.

2. Sobald beide Token validiert sind, scrollen Sie nach unten und geben Sie Ihre Abfrage ein. Zu Beginn habe ich JARVIS gefragt, worum es auf dem Foto geht und hat eine URL geteilt des Bildes.

3. Das Bild wurde automatisch heruntergeladen und verwendete drei KI-Modelle für die Aufgabe, einschließlich ydshieh/vit-gpt2-coco-en (zum Konvertieren von Bildern in Text), facebook/detr-resnet-101 (zur Objekterkennung) und dandelin/vilt-b32-finetuned-vqa (zur visuellen Fragen-Antworten). Schließlich kam man zu dem Schluss, dass das Foto eine Katze zeigt, die sich selbst im Spiegel betrachtet. Ist das nicht erstaunlich?

4. In einem anderen Beispiel habe ich darum gebeten Eine Audiodatei transkribierenund zwar mithilfe des OpenAI/Whisper-Base-Modells. Es gibt viele Anwendungsfälle von JARVIS und Sie können sie kostenlos auf HuggingFace ausprobieren.

Verwenden Sie mit HuggingGPT mehrere KI-Modelle gleichzeitig
So können Sie HuggingGPT verwenden, um eine Aufgabe mithilfe verschiedener KI-Modelle zu erledigen. Ich habe JARVIS mehrmals getestet und es hat ziemlich gut funktioniert, außer dass man sich ziemlich oft hinter die Warteschlange stellen muss. Sie können JARVIS nicht lokal auf einem halbwegs anständigen PC ausführen, da es mindestens 16 GB VRAM und etwa 300 GB Speicherplatz für verschiedene Modelle benötigt.
Auch bei Huggingface können Sie es nicht klonen und die Warteschlange unter dem kostenlosen Konto überspringen. Sie müssen ein Abonnement abschließen, um das leistungsstarke Modell auf einem Nvidia A10G laufen zu lassen – einer großen GPU, die 3,15 $/Stunde kostet. Wie auch immer, das ist alles von uns. Wenn Sie CodeGPT in VS Code zur Unterstützung beim Programmieren verwenden möchten, lesen Sie unseren verlinkten Leitfaden. Und um ChatGPT 4 kostenlos zu nutzen, haben wir eine Liste für Sie parat. Wenn Sie abschließend noch Fragen haben, teilen Sie uns dies bitte im Kommentarbereich unten mit.