Start ChatGPT Microsoft veröffentlicht DeepSpeed-Chat für das RLHF-Training von ChatGPT-ähnlichen Modellen

Microsoft veröffentlicht DeepSpeed-Chat für das RLHF-Training von ChatGPT-ähnlichen Modellen

Von

August 9, 2023

chatgpt-ähnliche Modelle haben die Arbeit mit künstlicher Intelligenz durch ihre unglaublichen Fähigkeiten zur Lösung realer Aufgaben wie Zusammenfassung, Codierung und Übersetzung revolutioniert und dabei die Leistung menschlicher Experten erreicht oder diese sogar übertroffen. Trotz der beeindruckenden Fähigkeiten dieser Modelle fehlt immer noch eine End-to-End-RLHF-Pipeline (Reinforcement Learning with Human Feedback) für das Training eines ChatGPT-ähnlichen Modells.

In einem neuen Papier DeepSpeed-Chat: Einfaches, schnelles und kostengünstiges RLHF-Training von ChatGPT-ähnlichen Modellen in allen Maßstäbenein Forschungsteam von Deepspeed of Microsoft, stellt DeepSpeed-Chat vor, eine neuartige End-to-End-RLHF-Pipeline, die benutzerfreundliches Training und Inferenz für ChatGPT-ähnliche Modelle bietet und gleichzeitig beispiellose Effizienz und Skalierbarkeit für Trainingsmodelle mit Hunderten von Milliarden bietet von Parametern.

Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 10

Das Team fasst den vorgeschlagenen DeepSpeed-Chat mit den folgenden drei Funktionen zusammen:

Benutzerfreundliche Trainings- und Inferenzerfahrung für ChatGPT-ähnliche Modelle.
DeepSpeed-RLHF-Pipeline, die die Trainingspipeline aus dem InstructGPT-Papier mit großer Sorgfalt reproduziert, um Vollständigkeit und Eins-zu-Eins-Übereinstimmung sicherzustellen.
DeepSpeed-RLHF-System, das die Trainings- und Inferenzfähigkeiten von DeepSpeed in einer einzigen einheitlichen Hybrid-Engine (DeepSpeedHE) für RLHF kombiniert.

Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 2 — Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 11

Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 11

Das Team zeichnet sich dadurch aus, dass es zeigt, wie einfach sich OPT-13B- und OPT-66B-Modelle mit dem DeepSpeed-RLHF-System trainieren lassen und wie man die DeepSpeed-Chat-RLHF-API nutzt, um benutzerdefinierte Pipelines anzupassen. Insbesondere ist nur ein Skript erforderlich, um alle drei Phasen abzuschließen: 1) Supervised Finetuning (SFT), 2) Feinabstimmung des Belohnungsmodells und 3) RLHF, um ein eigenes ChatGPT-ähnliches Modell des Benutzers zu erstellen. Sie bieten außerdem flexible APIs, die eine allgemeine Schnittstelle und ein Backend ermöglichen, damit Benutzer problemlos ihre eigene RLHF-Schulungspipeline erstellen können.

Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 4 — Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 12

Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 12

Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 6 — Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 13

Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 13

Darüber hinaus kombinieren die Forscher die volle Systemfähigkeit von DeepSpeed Training und Inference in einer einheitlichen Architektur, die sie Hybrid Engine nennen. Die Engine nutzt ein leichtes Speicherverwaltungssystem, um den Durchsatz erheblich zu steigern und Speicheroptimierungstechniken für eine hohe Trainingseffizienz zu ermöglichen. Es unterstützt außerdem Tensorparallelität und einen ZeRO-basierten Sharding-Mechanismus, der die Kosten erheblich senkt und eine beispiellose Skalierbarkeit und Systemeffizienz für RLHF-Workloads bietet.

Siehe auch JPMorgan entwickelt ein ChatGPT für Anlageberatung

Insgesamt bietet das DeepSpeed-Chat-System einfache, effiziente, erschwingliche und hervorragende Skalierbarkeit für das RLHF-Training von ChatGPT-ähnlichen Modellen. Das Team verfügt über Open-Source-DeepSpeed-Chat und ist offen für die Zusammenarbeit mit der KI-Community, um an der Anwendung von DeepSpeed in der realen Welt zu arbeiten Anwendungen.

Der Code ist in Projekten verfügbar GitHub. Das Papier DeepSpeed-Chat: Einfaches, schnelles und kostengünstiges RLHF-Training von ChatGPT-ähnlichen Modellen in allen Maßstäben An arXiv.

Autor: Hekate Er | Editor: Kette Zhang

Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 8 — Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 14

Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 14

Wir wissen, dass Sie keine Neuigkeiten oder Forschungsdurchbrüche verpassen möchten. Abonnieren Sie unseren beliebten Newsletter Wöchentlich synchronisierte globale KI um wöchentliche KI-Updates zu erhalten.

⬅ Bewerten Sie post

Microsoft veröffentlicht DeepSpeed-Chat für das RLHF-Training von ChatGPT-ähnlichen Modellen

Kommentieren Sie den Artikel Antwort abbrechen

Nicolas Cages „Dead By Daylight“-Sprechzeilen sind null chillig

Verwandte ArtikelMehr vom Autor

Das ChatGPT Hong Kong-Tutorial zeigt Ihnen Schritt für Schritt, wie Sie sich kostenlos registrieren, wie Sie es verwenden und wie Sie das Abonnement bezahlen

ChatGPT erklärte, was mit dem Hamster Kombat-Whitepaper nicht stimmt

Sparen Sie 80 % auf dieses AI Super Skills Bundle feat. ChatGPT, Leonardo, Midjourney und mehr

Kommentieren Sie den Artikel Antwort abbrechen

Nicolas Cages „Dead By Daylight“-Sprechzeilen sind null chillig

Verwandte Artikel Mehr vom Autor