Eine aktuelle Forschungsarbeit ergab, dass ein Open-Source-KI-System mit Retrieval-Augmentation proprietäre Chatbot-Modelle wie GPT-3.5 von OpenAI übertreffen kann.

Das Papier veröffentlicht am 4. Oktober von Nvidia-Forschern vergleicht verschiedene Techniken für den Umgang mit langen Kontexten in großen Sprachmodellen (LLMs) – den Schlüsselalgorithmen hinter der heutigen Konversations-KI. Eine Methode besteht einfach darin, das Kontextfenster zu erweitern, sodass der LLM direkt mehr Texttokens als Eingabe „lesen“ und diese bei der Ausgabe seiner Ausgabe berücksichtigen kann. Der andere Ansatz nutzt den Abruf, um dem LLM nur den relevantesten Kontext aus einer großen Datenbank bereitzustellen.

Ihr bester Ansatz kombiniert beide Techniken – ein LLaMA-Open-Source-Modell mit 70 Milliarden Parametern und einem erweiterten Kontextfenster mit 32.000 Token, das durch den Abruf relevanter Passagen aus einem Korpus weiter erweitert wird. Der Retriever stellt Kontext auf Abruf bereit, anstatt dass der LLM alles speichern muss, was ihn effizienter macht.

Bei einer Reihe von 7 Langform-Benchmarks zur Beantwortung und Zusammenfassung von Fragen erreichte dieses LLaMA mit Hybrid-Abruferweiterung eine durchschnittliche Punktzahl von 43,6 und übertraf damit GPT-3,5-Turbo, das 16.000 Kontext-Tokens ermöglicht (durchschnittlich 42,8). Es entsprach dem umfangreichen proprietären 175B-Parameter-Davinci-Modell von OpenAI bei einer Teilmenge von 4 Aufgaben.

Die Autoren argumentieren, dass das Abrufen erhebliche Vorteile bietet, selbst wenn sehr große LLMs bereits über erweiterte Kontextfenster verfügen. Sie fanden einen LLaMA mit 4.000 Token, dessen Abruf ähnlich funktionierte wie LLaMAs ohne Abruf mit 16.000 Token, war aber aufgrund der geringeren Eingabe viel schneller.

Die Forscher glauben, dass eine Leistung auf Augenhöhe mit geschlossenen kommerziellen Systemen wie chatgpt erreicht werden kann, indem bestehende Open-Source-Modelle wie LLaMA mit Abruftechniken kombiniert werden. Die Ergebnisse legen nahe, dass die Integration von Retrieval und langem Kontext eine vielversprechende Richtung für den Aufbau leistungsfähigerer Open-Source-Konversations-KI ist.

Siehe auch  Der Roboterhund Spot kann dank ChatGPT sprechen

Das Papier liefert Beweise dafür, dass Open-Source-KI mit den richtigen Algorithmen mit proprietären Chatbots mithalten oder diese übertreffen kann. Die Ergebnisse könnten beeinflussen, wie die nächsten KI-Systeme Modelle integrieren, die lange Texteingaben mit zusätzlichen relevanten Informationen verarbeiten können und neben der Kontextlängenerweiterung auch den Abruf als Schlüsselelement darstellen.

Ausgewählte Bildquelle: Markus Winkler; Pexels; Danke schön!

Radek Zielinski

Radek Zielinski ist ein erfahrener Technologie- und Finanzjournalist mit einer Leidenschaft für Cybersicherheit und Zukunftsforschung.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein