chatgpt-ähnliche Modelle haben die Arbeit mit künstlicher Intelligenz durch ihre unglaublichen Fähigkeiten zur Lösung realer Aufgaben wie Zusammenfassung, Codierung und Übersetzung revolutioniert und dabei die Leistung menschlicher Experten erreicht oder diese sogar übertroffen. Trotz der beeindruckenden Fähigkeiten dieser Modelle fehlt immer noch eine End-to-End-RLHF-Pipeline (Reinforcement Learning with Human Feedback) für das Training eines ChatGPT-ähnlichen Modells.
In einem neuen Papier DeepSpeed-Chat: Einfaches, schnelles und kostengünstiges RLHF-Training von ChatGPT-ähnlichen Modellen in allen Maßstäbenein Forschungsteam von Deepspeed of Microsoft, stellt DeepSpeed-Chat vor, eine neuartige End-to-End-RLHF-Pipeline, die benutzerfreundliches Training und Inferenz für ChatGPT-ähnliche Modelle bietet und gleichzeitig beispiellose Effizienz und Skalierbarkeit für Trainingsmodelle mit Hunderten von Milliarden bietet von Parametern.
Das Team fasst den vorgeschlagenen DeepSpeed-Chat mit den folgenden drei Funktionen zusammen:
- Benutzerfreundliche Trainings- und Inferenzerfahrung für ChatGPT-ähnliche Modelle.
- DeepSpeed-RLHF-Pipeline, die die Trainingspipeline aus dem InstructGPT-Papier mit großer Sorgfalt reproduziert, um Vollständigkeit und Eins-zu-Eins-Übereinstimmung sicherzustellen.
- DeepSpeed-RLHF-System, das die Trainings- und Inferenzfähigkeiten von DeepSpeed in einer einzigen einheitlichen Hybrid-Engine (DeepSpeedHE) für RLHF kombiniert.
Das Team zeichnet sich dadurch aus, dass es zeigt, wie einfach sich OPT-13B- und OPT-66B-Modelle mit dem DeepSpeed-RLHF-System trainieren lassen und wie man die DeepSpeed-Chat-RLHF-API nutzt, um benutzerdefinierte Pipelines anzupassen. Insbesondere ist nur ein Skript erforderlich, um alle drei Phasen abzuschließen: 1) Supervised Finetuning (SFT), 2) Feinabstimmung des Belohnungsmodells und 3) RLHF, um ein eigenes ChatGPT-ähnliches Modell des Benutzers zu erstellen. Sie bieten außerdem flexible APIs, die eine allgemeine Schnittstelle und ein Backend ermöglichen, damit Benutzer problemlos ihre eigene RLHF-Schulungspipeline erstellen können.
Darüber hinaus kombinieren die Forscher die volle Systemfähigkeit von DeepSpeed Training und Inference in einer einheitlichen Architektur, die sie Hybrid Engine nennen. Die Engine nutzt ein leichtes Speicherverwaltungssystem, um den Durchsatz erheblich zu steigern und Speicheroptimierungstechniken für eine hohe Trainingseffizienz zu ermöglichen. Es unterstützt außerdem Tensorparallelität und einen ZeRO-basierten Sharding-Mechanismus, der die Kosten erheblich senkt und eine beispiellose Skalierbarkeit und Systemeffizienz für RLHF-Workloads bietet.
Insgesamt bietet das DeepSpeed-Chat-System einfache, effiziente, erschwingliche und hervorragende Skalierbarkeit für das RLHF-Training von ChatGPT-ähnlichen Modellen. Das Team verfügt über Open-Source-DeepSpeed-Chat und ist offen für die Zusammenarbeit mit der KI-Community, um an der Anwendung von DeepSpeed in der realen Welt zu arbeiten Anwendungen.
Der Code ist in Projekten verfügbar GitHub. Das Papier DeepSpeed-Chat: Einfaches, schnelles und kostengünstiges RLHF-Training von ChatGPT-ähnlichen Modellen in allen Maßstäben An arXiv.
Autor: Hekate Er | Editor: Kette Zhang
Wir wissen, dass Sie keine Neuigkeiten oder Forschungsdurchbrüche verpassen möchten. Abonnieren Sie unseren beliebten Newsletter Wöchentlich synchronisierte globale KI um wöchentliche KI-Updates zu erhalten.