Microsoft Research stellte kürzlich Orca vor, ein neues Open-Source-LLM, das auf llama13b aufbaut, und zeigte, dass es trotz „nur“ 13 Milliarden Parametern oft die Leistung von chatgpt erreicht oder übertrifft und in einigen Bereichen sogar mit GPT-4 konkurriert .
Großartige Foundation-Modelle wie ChatGPT und GPT-4 bieten eine bemerkenswerte Zero-Shot-Leistung für eine Vielzahl von Aufgaben. Dies ist auf die Skalierung der Modell- und Datensatzgrößen sowie auf die Integration einer zweiten Trainingsschicht zurückzuführen, um die Modelle besser an die Absichten des Benutzers anzupassen. Diese Ausrichtung wird durch die Verfeinerung der Modelle durch überwachtes Lernen und durch verstärkendes Lernen erreicht.
Die jüngste Forschung konzentrierte sich auf die Verbesserung der Fähigkeiten kleinerer Modelle durch Nachahmungslernen und baute auf den von LFMs generierten Ergebnissen auf. ChatGPT und GPT-4 wurden daher für Alpaca, WizardLM und Vicuna verwendet. Diese letztgenannten Modelle können zwar Inhalte produzieren, die dem Stil ihrer Lehrer entsprechen, sie verfügen jedoch häufig nicht über die Argumentations- und Verständnisfähigkeiten der größeren Basismodelle.
Die Forscher trainierten Orca mit Unterstützung von ChatGPT darin, den Argumentationsprozess von LFMs anhand umfangreicher Signale von GPT-4 nachzuahmen, einschließlich Erklärungsspuren, Schritt-für-Schritt-Denkprozessen und anderen komplexen Anweisungen.
Die Ergebnisse
Die Forscher verglichen die Zero-Shot-Leistung von Text-da-vinci-003, ChatGPT, GPT-4, Vicuna und Orca im AGIEval-Benchmark bei englischen Multiple-Choice-Fragen.
Insgesamt schneidet Orca auf Augenhöhe mit Text-da-vinci-003 ab und behält 88 % der Qualität von ChatGPT, liegt aber deutlich hinter GPT-4 zurück. Allerdings übertrifft er Vicuna um 42 %.
Auf Big-Bench Hard mit einem Standard-Zero-Shot-Trigger (kein Beispiel, kein CoT) schneidet Orca insgesamt bei allen Aufgaben etwas besser ab als ChatGPT, deutlich hinter GPT-4, übertrifft aber Vicuna um 113 %.
Die Ergebnisse zeigen, dass Orca andere kleinere Open-Source-Modelle deutlich übertrifft. Darüber hinaus kann es in manchen Kontexten mit der Qualität von ChatGPT mithalten oder diese sogar übertreffen, obwohl weiterhin ein erheblicher Unterschied zu GPT-4 besteht.
Allerdings kann es, genau wie bei anderen LLMs, zu Verzerrungen in den Quelldaten kommen. Die Forscher warnen auch: „Dieses Modell ist nur für Forschungsumgebungen konzipiert und seine Tests wurden nur in solchen Umgebungen durchgeführt. Es sollte nicht in nachgelagerten Anwendungen verwendet werden, da zusätzliche Analysen erforderlich sind, um potenzielle Risiken oder Verzerrungen in der vorgeschlagenen Anwendung zu bewerten.“
Diese Studie legt jedoch nahe, dass kleinere Modelle ohne wesentlichen Qualitätsverlust so trainiert werden können, dass sie in eingeschränkten Kontexten fokussierter und anpassungsfähiger sind.
Referenz : Orca: Progressives Lernen aus komplexen Erklärungsspuren von GPT-4 arXiv: 2306.02707v1
Autoren: Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi, Ahmed Awadallah, Microsoft Research