chatgpt-ähnliche Modelle haben die Arbeit mit künstlicher Intelligenz durch ihre unglaublichen Fähigkeiten zur Lösung realer Aufgaben wie Zusammenfassung, Codierung und Übersetzung revolutioniert und dabei die Leistung menschlicher Experten erreicht oder diese sogar übertroffen. Trotz der beeindruckenden Fähigkeiten dieser Modelle fehlt immer noch eine End-to-End-RLHF-Pipeline (Reinforcement Learning with Human Feedback) für das Training eines ChatGPT-ähnlichen Modells.

In einem neuen Papier DeepSpeed-Chat: Einfaches, schnelles und kostengünstiges RLHF-Training von ChatGPT-ähnlichen Modellen in allen Maßstäbenein Forschungsteam von Deepspeed of Microsoft, stellt DeepSpeed-Chat vor, eine neuartige End-to-End-RLHF-Pipeline, die benutzerfreundliches Training und Inferenz für ChatGPT-ähnliche Modelle bietet und gleichzeitig beispiellose Effizienz und Skalierbarkeit für Trainingsmodelle mit Hunderten von Milliarden bietet von Parametern.

Image 19
Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 10

Das Team fasst den vorgeschlagenen DeepSpeed-Chat mit den folgenden drei Funktionen zusammen:

  1. Benutzerfreundliche Trainings- und Inferenzerfahrung für ChatGPT-ähnliche Modelle.
  2. DeepSpeed-RLHF-Pipeline, die die Trainingspipeline aus dem InstructGPT-Papier mit großer Sorgfalt reproduziert, um Vollständigkeit und Eins-zu-Eins-Übereinstimmung sicherzustellen.
  3. DeepSpeed-RLHF-System, das die Trainings- und Inferenzfähigkeiten von DeepSpeed ​​in einer einzigen einheitlichen Hybrid-Engine (DeepSpeedHE) für RLHF kombiniert.
Image 21
Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 11

Das Team zeichnet sich dadurch aus, dass es zeigt, wie einfach sich OPT-13B- und OPT-66B-Modelle mit dem DeepSpeed-RLHF-System trainieren lassen und wie man die DeepSpeed-Chat-RLHF-API nutzt, um benutzerdefinierte Pipelines anzupassen. Insbesondere ist nur ein Skript erforderlich, um alle drei Phasen abzuschließen: 1) Supervised Finetuning (SFT), 2) Feinabstimmung des Belohnungsmodells und 3) RLHF, um ein eigenes ChatGPT-ähnliches Modell des Benutzers zu erstellen. Sie bieten außerdem flexible APIs, die eine allgemeine Schnittstelle und ein Backend ermöglichen, damit Benutzer problemlos ihre eigene RLHF-Schulungspipeline erstellen können.

Image 22
Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 12
Image 20
Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 13

Darüber hinaus kombinieren die Forscher die volle Systemfähigkeit von DeepSpeed ​​Training und Inference in einer einheitlichen Architektur, die sie Hybrid Engine nennen. Die Engine nutzt ein leichtes Speicherverwaltungssystem, um den Durchsatz erheblich zu steigern und Speicheroptimierungstechniken für eine hohe Trainingseffizienz zu ermöglichen. Es unterstützt außerdem Tensorparallelität und einen ZeRO-basierten Sharding-Mechanismus, der die Kosten erheblich senkt und eine beispiellose Skalierbarkeit und Systemeffizienz für RLHF-Workloads bietet.

Siehe auch  JPMorgan entwickelt ein ChatGPT für Anlageberatung

Insgesamt bietet das DeepSpeed-Chat-System einfache, effiziente, erschwingliche und hervorragende Skalierbarkeit für das RLHF-Training von ChatGPT-ähnlichen Modellen. Das Team verfügt über Open-Source-DeepSpeed-Chat und ist offen für die Zusammenarbeit mit der KI-Community, um an der Anwendung von DeepSpeed ​​in der realen Welt zu arbeiten Anwendungen.

Der Code ist in Projekten verfügbar GitHub. Das Papier DeepSpeed-Chat: Einfaches, schnelles und kostengünstiges RLHF-Training von ChatGPT-ähnlichen Modellen in allen Maßstäben An arXiv.


Autor: Hekate Er | Editor: Kette Zhang


Image 122
Microsoft Veröffentlicht Deepspeed-Chat Für Das Rlhf-Training Von Chatgpt-Ähnlichen Modellen 14

Wir wissen, dass Sie keine Neuigkeiten oder Forschungsdurchbrüche verpassen möchten. Abonnieren Sie unseren beliebten Newsletter Wöchentlich synchronisierte globale KI um wöchentliche KI-Updates zu erhalten.

⬅ Bewerten Sie post
Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein