Screenshot 2024 01 17 At 2.11.20 Pm
https://arxiv.org/abs/2401.02994

Im Bereich der Konversations-KI ist der Trend zu größeren Modellen spürbar, beispielhaft dargestellt durch Giganten wie chatgpt, Bard und Gemini. Man geht davon aus, dass die Erhöhung der Modellparameter und Trainingsdaten die Qualität und Leistungsfähigkeit von Sprachmodellen erheblich verbessert. Der Rechenaufwand dieser riesigen Modelle wirft jedoch Bedenken hinsichtlich der Effizienz auf. Können kleinere Modelle bei intelligenter Kombination mit ihren größeren Pendants mithalten oder diese sogar übertreffen? Dies ist die zentrale Frage, die in der vorliegenden Studie untersucht wird.

Rtgyhjpxwj7Rnhv9Kfstxjq68Aglvxg Knxtire2Ccjzl7Z6Urtw7Rbpoyxc0Gfvpkqsxxcpj Piv O9N0Mpaquszud90Kga5Eok2W 7Rl1Tfgfrwb Gzxljuta76Djjnav Rev4Nrblwmvvd1M9Iw
Referenz: https://arxiv.org/pdf/2401.02994.pdf
Knpmin6G Fjem0Ptdnwu1Ec7Lg72Zff K69Ufvnigk0Oj6Lyaeqb8 Tza C1Dao7Vniwmv3Xxn4Rk4Qlsn
Referenz: https://arxiv.org/pdf/2401.02994.pdf

Um diese Idee zu testen, präsentieren die Autoren Blended (dargestellt in Algorithmus 1), ein bahnbrechender Ansatz, der zeigt, dass die zufällige Auswahl von Antworten aus einer Gruppe von Basis-Chat-KIs zu einer äußerst leistungsfähigen und ansprechenden kombinierten Chat-KI führt. Überraschenderweise übertrifft dieses kollaborative Modell Systeme mit um Größenordnungen größeren Parametern. Das gemischte Modell scheint die „besten aller“ Eigenschaften zu verkörpern: Anpassungs- und Lernfähigkeiten aus verschiedenen Systemen basierend auf der Konversationsgeschichte. Dies fördert fesselndere und vielfältigere Antworten und führt zu einem ansprechenderen Benutzererlebnis. Die Wirksamkeit von Blended wird durch groß angelegte A/B-Tests an echten Benutzern innerhalb der CHAI-Plattform validiert.

In der Chat-KI-Landschaft besteht das Ziel darin, ein automatisches System zu schaffen, das ansprechende und unterhaltsame Gespräche führt. Eine durch θ parametrisierte Chat-KI als implizites Sprachmodell modelliert die Wahrscheinlichkeit der nächsten Antwort anhand des Gesprächsverlaufs. Um diese Modelle zu erstellen, umfasst die von InstructGPT inspirierte dreistufige Pipeline die Feinabstimmung eines vorab trainierten Sprachmodells, das Training eines Belohnungsmodells mithilfe von menschlichem Feedback und die Verwendung dieses Modells zur Verbesserung des ursprünglichen Sprachmodells.

Das Entwerfen einer Chat-KI erfordert verschiedene Auswahlmöglichkeiten, darunter das Basissprachmodell, die Feinabstimmung von Daten und die Art des Feedbacks. Man kann also davon ausgehen, dass unterschiedliche Rezepturen und Trainingssamen zu äußerst unterschiedlichen Systemen führen können, die einzigartige Stärken und Eigenschaften aufweisen. Die Studie schlägt die Kombination solcher anderer Chat-KIs, dargestellt durch die Parameter {θ1, θ2…θN}, durch eine diskrete Summationsnäherung des kontinuierlichen Integrals vor, die sich an den Bayes'schen statistischen Prinzipien orientiert.

Siehe auch  ChatGPT Sam Altman sagt, er habe eine „Internet-Troll-Serie“ gehabt

Der Schwerpunkt dieses Ansatzes (Vermischt) wählt für jede Antwort zufällig eine Chat-KI θ aus und erstellt so eine Konversation, die die Stärken einzelner Chat-KIs vereint. Bei dieser Zusammenführung handelt es sich um einen kollaborativen Prozess, bei dem frühere Antworten die aktuelle Ausgabe beeinflussen, was zu einem ansprechenderen und vielfältigeren Gespräch führt.

Nun stellt sich die Frage: Wie bewerten wir NLG-Ergebnisse? Die traditionellen Goldstandard-Ansätze verwenden menschliche Bewerter, die die Qualität der generierten Antworten bewerten, was kostspielig sein kann. Allerdings verwendet die Studie Benutzerinteraktionsstatistiken, um aussagekräftige Maße für Engagement und Qualität zu liefern. Benutzerbindung und -engagement gelten als Proxy-Funktionen zur Bewertung der Chat-KI-Qualität. Als branchenübliche Messgrößen dienen die Benutzerbindung, gemessen am Anteil der wiederkehrenden Benutzer, und das Benutzerengagement, dargestellt durch die durchschnittliche Zeit, die pro Benutzer verbracht wird.

Die Experimente (in Abbildung 1 dargestellt) umfassen vier Basis-Chat-KIs, darunter mittelgroße Open-Source-LLMs und das hochmoderne GPT-3.5. Gemischt (25B Parameter), bestehend aus Pygmillion, Chai-Modell, Und Vicunja, wird mit einzelnen Systemen verglichen und GPT-3.5(175B Parameter) durch A/B-Tests an echten Benutzern. Blended zeigt ein deutlich höheres Engagement und eine höhere Benutzerbindung und übertrifft sogar GPT-3.5, wobei nur ein Bruchteil der Parameter und Inferenzkosten einem einzelnen 6B/13B-System entspricht (in Abbildung 2 und Abbildung 3 dargestellt).

Ymwrkbzht9Mvgfvrstvurm5Ci1Rtodm38Ujuitecqxf0Lu17Axelhv 8 K2Khf1Bdlw9G9Thoqisbvrwbkbzhmht
Referenz: https://arxiv.org/pdf/2401.02994.pdf

Die Ergebnisse stellen die Vorstellung einer Skalierung von Modellen zur Qualitätsverbesserung in Frage. Die Kombination kleinerer Open-Source-Systeme erweist sich als praktikable Strategie zur Verbesserung des Gesprächserlebnisses, ohne den Rechenaufwand zu erhöhen. Abschließend schlägt die Studie Möglichkeiten für weitere Verbesserungen vor und betont die Bedeutung der Modellzusammenarbeit gegenüber der einfachen Parameterskalierung bei der Gestaltung erfolgreicher Chat-KIs.

Siehe auch  Wenn ChatGPT Ihnen hilft, einen großen Literaturpreis zu gewinnen

Besuche die Papier. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, uns zu folgen Twitter. Verbinden unser 36k+ ML SubReddit, Über 41.000 Facebook-Community, Discord-KanalUnd LinkedIn GrOup.

Wenn Ihnen unsere Arbeit gefällt, werden Sie unsere lieben Newsletter..

Vergessen Sie nicht, sich unserem anzuschließen Telegrammkanal

Img20221002180119 Vineet Kumar

Vineet Kumar ist Beraterpraktikant bei MarktechPost. Derzeit absolviert er seinen Bachelor am Indian Institute of Technology (IIT) in Kanpur. Er ist ein Enthusiast des maschinellen Lernens. Seine Leidenschaft gilt der Forschung und den neuesten Fortschritten in den Bereichen Deep Learning, Computer Vision und verwandten Bereichen.

🐝 Nehmen Sie am am schnellsten wachsenden Newsletter zur KI-Forschung teil, der von Forschern von google + NVIDIA + Meta + Stanford + MIT + Microsoft und vielen anderen gelesen wird …

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.