Die jüngste Veröffentlichung von chatgpt im letzten Jahr hat die Community für künstliche Intelligenz im Sturm erobert. Basierend auf der Transformer-Architektur von GPT, dem neuesten Large Language Model, hat ChatGPT erhebliche Auswirkungen sowohl auf akademische als auch kommerzielle Anwendungen. Der Chatbot kann problemlos auf Menschen reagieren, Inhalte generieren, Fragen beantworten und eine Reihe von Aufgaben ausführen, indem er die Fähigkeiten des Reinforcement Learning from Human Feedback (RLHF) und der Befehlsabstimmung durch überwachte Feinabstimmung nutzt.
In einer aktuellen Studie hat ein Forscherteam der NTU Singapur, SalesForce AI und I2R eine umfangreiche Umfrage durchgeführt, um aktuelle Forschungsergebnisse zu Open-Source-Large-Language-Modellen (LLMs) zusammenzustellen und einen vollständigen Überblick über Modelle zu geben, die genauso gut funktionieren wie oder in einer Vielzahl von Kontexten besser als ChatGPT. Die Veröffentlichung und der Erfolg von ChatGPT haben zu einem Aufschwung bei LLM-bezogenen Aktivitäten geführt, da sowohl die Wissenschaft als auch die Industrie eine Fülle neuer LLMs beobachten konnten, die häufig von Start-ups stammen, die sich diesem Bereich widmen.
Obwohl Closed-Source-LLMs wie Claude von Anthropic im Allgemeinen besser abgeschnitten haben als ihre Open-Source-Gegenstücke, haben sich Modelle wie GPT von OpenAI viel schneller weiterentwickelt. Es gibt zunehmend Behauptungen, bei bestimmten Aufgaben die gleiche oder sogar bessere Leistung zu erzielen, was die historische Dominanz von Closed-Source-Modellen gefährdet hat.
Was die Forschung angeht, haben die kontinuierliche Veröffentlichung neuer Open-Source-LLMs und ihre angeblichen Erfolge eine Neubewertung der Stärken und Schwächen dieser Modelle erzwungen. Die Entwicklungen bei Open-Source-Software zur Sprachmodellierung stellen Unternehmen, die Sprachmodelle in ihre Abläufe integrieren möchten, vor geschäftsbezogene Herausforderungen. Unternehmen haben jetzt mehr Optionen und Wahlmöglichkeiten, wenn es darum geht, das beste Modell für ihre individuellen Anforderungen auszuwählen, da sie die Möglichkeit haben, eine Leistung zu erzielen, die mit proprietären Alternativen gleichwertig oder sogar besser ist.
Das Team hat drei Hauptkategorien geteilt, die zur Charakterisierung der Beiträge ihrer Umfrage verwendet werden können.
- Konsolidierung der Bewertungen: Die Umfrage hat eine Vielzahl von Bewertungen von Open-Source-LLMs zusammengestellt, um einen objektiven und umfassenden Überblick darüber zu bieten, wie sich diese Modelle von ChatGPT unterscheiden. Diese Synthese vermittelt den Lesern ein umfassendes Verständnis der Vor- und Nachteile von Open-Source-LLMs im Vergleich zum ChatGPT-Benchmark.
- Systematische Überprüfung von Modellen: Es wurden Open-Source-LLMs untersucht, die bei verschiedenen Aufgaben eine ebenso gute oder bessere Leistung als ChatGPT erbringen. Darüber hinaus hat das Team seine Webseite geteilt, die in Echtzeit aktualisiert wird, damit die Leser die neuesten Änderungen sehen können, was die dynamische Natur der Open-Source-LLM-Entwicklung widerspiegelt.
- Ratschläge und Einblicke: Zusätzlich zu Rezensionen und Bewertungen liefert die Umfrage aufschlussreiche Informationen über die Muster, die die Entwicklung von Open-Source-LLMs beeinflussen. Es wurden auch potenzielle Probleme mit diesen Modellen erörtert und Best Practices für die Ausbildung von Open-Source-LLMs untersucht. Diese Ergebnisse bieten einen detaillierten Überblick über den bestehenden Kontext und das zukünftige Potenzial von Open-Source-LLMs und richten sich sowohl an den Unternehmenssektor als auch an die wissenschaftliche Gemeinschaft.
Besuche die Papier.Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachen unser 33k+ ML SubReddit, Über 41.000 Facebook-Community, Discord-Kanal, Und E-Mail-Newsletterwo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.
Wenn Ihnen unsere Arbeit gefällt, werden Sie unseren Newsletter lieben.
Tanya Malhotra studiert im letzten Jahr an der University of Petroleum & Energy Studies in Dehradun und studiert BTech in Informatik mit Spezialisierung auf künstliche Intelligenz und maschinelles Lernen. Sie ist eine Data-Science-Enthusiastin mit gutem analytischem und kritischem Denken sowie einem großen Interesse daran, sich neue Fähigkeiten anzueignen, Gruppen zu leiten und die Arbeit organisiert zu verwalten.