NLP oder Natural Language Processing ist ein Bereich der KI, der sich auf die Mensch-Computer-Interaktion mithilfe von Sprache konzentriert. Textanalyse, Übersetzung, Chatbots und Stimmungsanalyse sind nur einige der zahlreichen Anwendungen. NLP zielt darauf ab, Computer dazu zu bringen, menschliche Sprache zu verstehen, zu interpretieren und zu erzeugen.

Die jüngste NLP-Forschung hat sich auf die Verbesserung von FSL-Methoden (Few-Shot-Learning) als Reaktion auf Datenmangel-Herausforderungen konzentriert. Während diese Methoden die Modellfähigkeiten durch Architekturentwürfe und vorab trainierte Sprachmodelle verbessern, bestehen weiterhin Einschränkungen in Bezug auf Datenqualität und -quantität.

Darüber hinaus haben sich Methoden zur Erweiterung von Textdaten als wertvolle Werkzeuge zur Beseitigung von Einschränkungen der Stichprobengröße erwiesen. Diese modellunabhängigen Techniken, einschließlich Synonymersetzung und fortgeschrittenerer Verfahren wie Rückübersetzung, ergänzen FSL-Methoden im NLP und bieten Lösungen für diese Herausforderungen.

Im gleichen Zusammenhang veröffentlichte ein Forschungsteam ein neues Papier, in dem eine neuartige Datenerweiterungsmethode namens „AugGPT“ vorgestellt wurde. Diese Methode nutzt chatgpt, ein großes Sprachmodell, um Hilfsbeispiele für Textklassifizierungsaufgaben mit wenigen Schüssen zu generieren.

Die Methode befasst sich mit der Herausforderung des Wenig-Schuss-Lernens, bei dem erwartet wird, dass ein auf einer Quelldomäne mit begrenzten Daten trainiertes Modell mit nur wenigen Beispielen auf eine Zieldomäne verallgemeinert wird. Die vorgeschlagene AugGPT-Methode nutzt ChatGPT, um mehr Stichproben zu generieren und die Trainingsdaten für die Textklassifizierung zu verbessern.

Konkret wird das Modell mit einem Basisdatensatz (Db) trainiert, der einen relativ großen Satz markierter Proben enthält, und einem neuartigen Datensatz (Dn) mit nur wenigen markierten Daten. Ziel ist es, eine zufriedenstellende Generalisierbarkeit des neuartigen Datensatzes zu erreichen. Das AugGPT-Framework besteht aus der Feinabstimmung von BERT für den Basisdatensatz, der Generierung erweiterter Daten (Daugn) mithilfe von ChatGPT und der Feinabstimmung von BERT mit den erweiterten Daten. ChatGPT wird zur Datenerweiterung eingesetzt, indem Eingabesätze in zusätzliche Sätze umformuliert werden, um die Anzahl der Stichproben zu erhöhen. Das Textklassifizierungsmodell mit wenigen Schüssen basiert auf BERT und verwendet Kreuzentropie- und Kontrastverlustfunktionen, um Proben effektiv zu klassifizieren. AugGPT wird mit anderen Datenerweiterungsmethoden verglichen, einschließlich Ersetzungen auf Zeichen- und Wortebene, Tastatursimulation, Synonymersetzung und mehr. Die Eingabeaufforderungen der Methode sind für Single-Turn- und Multi-Turn-Dialoge konzipiert und ermöglichen eine effektive Datenerweiterung für verschiedene Datensätze und Szenarien.

Siehe auch  Für jeweils 5 bis 50 an ChatGPT gestellte Fragen verbraucht das dahinter stehende Rechenzentrum 500 ml Wasser.

Zusammenfassend werden zur Durchführung des vorgeschlagenen AugGPT-Ansatzes zur Verbesserung der Textklassifizierung mit wenigen Schüssen die folgenden Schritte unternommen:

1- Datensatz-Setup:

  • Erstellen Sie einen Basisdatensatz (Db) mit einer großen Menge beschrifteter Stichproben.
  • Bereiten Sie einen neuartigen Datensatz (Dn) mit nur wenigen markierten Proben vor.

2- Feinabstimmung von BERT:

  • Beginnen Sie mit der Feinabstimmung des BERT-Modells am Basisdatensatz (Db), um dessen vorab trainierte Sprachverständnisfunktionen zu nutzen.

3- Datenerweiterung mit ChatGPT:

  • Nutzen Sie ChatGPT, ein großes Sprachmodell, um erweiterte Daten (Daugn) für die Textklassifizierungsaufgabe mit wenigen Schüssen zu generieren.
  • Wenden Sie ChatGPT an, um Eingabesätze neu zu formulieren und zusätzliche Sätze zu erstellen, um die wenigen Stichproben zu erweitern. Dieser Prozess erhöht die Datenvielfalt.

4- Feinabstimmung von BERT mit Augmented Data:

  • Optimieren Sie das BERT-Modell mit den erweiterten Daten (Daugn), um es für die Klassifizierungsaufgabe mit wenigen Schüssen anzupassen.

5- Einrichtung des Klassifizierungsmodells:

  • Entwerfen Sie ein auf BERT basierendes Textklassifizierungsmodell mit wenigen Schüssen und verwenden Sie die erweiterten Daten für das Training.

Die Autoren führten Experimente mit BERT als Basismodell durch, um die vorgeschlagene Technik zu bewerten. AugGPT übertraf andere Methoden zur Datenerweiterung hinsichtlich der Klassifizierungsgenauigkeit für verschiedene Datensätze. AugGPT generierte außerdem hochwertige erweiterte Daten und verbesserte die Modellleistung. Beim Vergleich von ChatGPT für nachgelagerte Aufgaben schnitt es bei einfacheren Aufgaben hervorragend ab, erforderte jedoch eine Feinabstimmung des Modells für komplexere Aufgaben wie PubMed, was den Wert des vorgeschlagenen Ansatzes bei der Leistungssteigerung zeigt.

Abschließend stellte das Papier AugGPT vor, eine neuartige Datenerweiterungsmethode für die Klassifizierung mit wenigen Schüssen, die auf semantischer Ebene arbeitet und im Vergleich zu anderen Methoden zu einer verbesserten Datenkonsistenz und -robustheit führt. Es unterstreicht das Potenzial der Verwendung großer Sprachmodelle wie ChatGPT in verschiedenen NLP-Aufgaben und schlägt die Feinabstimmung dieser Modelle für domänenspezifische Anwendungen vor. Der Erfolg von AugGPT bei der Verbesserung von Klassifizierungsaufgaben eröffnet Möglichkeiten für seine Anwendung bei Textzusammenfassungs- und Computer-Vision-Aufgaben, insbesondere bei der Generierung von Bildern aus Text.

Siehe auch  ChatGPT auf iOS integriert jetzt Bing

Besuche die Papier. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, mitzumachen unser 32k+ ML SubReddit, Über 41.000 Facebook-Community, Discord-Kanal, Und E-Mail-Newsletterwo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen.

Wenn Ihnen unsere Arbeit gefällt, werden Sie unseren Newsletter lieben.

Wir sind auch dabei Telegramm Und WhatsApp.

Mahmoud ist Doktorand im Bereich maschinelles Lernen. Er hält auch einen Bachelor-Abschluss in Physik und Master-Abschluss in Telekommunikations- und Netzwerksysteme. Seine aktuellen Bereiche von Die Forschung befasst sich mit Computer Vision, Börsenvorhersage und Tiefgründigkeit Lernen. Er verfasste mehrere wissenschaftliche Artikel über Personenre- Identifizierung und Untersuchung der Robustheit und Stabilität von Tiefen Netzwerke.

Anzeige
Nina Weber
Nina Weber is a renowned Journalist, who worked for many German Newspaper's Tech coloumns like Die Zukunft, Handelsblatt. She is a contributing Journalist for futuriq.de. She works as a editor also as a fact checker for futuriq.de. Her Bachelor degree in Humanties with Major in Digital Anthropology gave her a solid background for journalism. Know more about her here.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein