Mehr als ein Jahr nach der Veröffentlichung von chatgpt hat es mehr als 180 Millionen Nutzer auf der ganzen Welt und immer mehr Menschen nutzen es häufig. In den letzten Monaten gab es jedoch endlose Fragen darüber, ob GPT-4 dümmer oder fauler geworden ist . Allmählich verliere ich mein Verständnis und meine Genauigkeit, und von Zeit zu Zeit fallen mir falsche Antworten ein oder ich beantworte sie einfach überhaupt nicht.
Benutzer haben viele Spekulationen über den Grund, warum GPT-4 die Intelligenz verringert. Kürzlich hat die University of California, Santa CruzPapierSchlagen Sie die neuesten Erklärungen aus der Wissenschaft vor. „Wir haben festgestellt, dass LLM in Datenbanken, die vor dem Erstellungsdatum der LLM-Trainingsdaten veröffentlicht wurden, überraschend besser abschnitt als spätere Datenbanken.“ Mit anderen Worten: Das große Modell schnitt bei Aufgaben, die es zuvor „gesehen“ hatte, gut ab, bei neuen Aufgaben jedoch relativ schlecht . Dies ähnelt eher der Retrieval-Simulation-Wisness-Methode. Die Beantwortung von Fragen hängt ausschließlich vom Auswendiglernen ab und nicht nur von der Lern- und Verständnisfähigkeit.
▲ Datenbanken, die vor und nach dem Erfassungsdatum der LLM-Trainingsdaten veröffentlicht wurden und die Aufgabengenauigkeit bei Nullstichproben (blau) und bei wenigen Stichproben (grün) vergleichen.
Daher geht das Papier davon aus, dass die hervorragende Leistung vieler großer Modelle bei der Verarbeitung früher Daten tatsächlich durch „Aufgabenverschmutzung“ beeinträchtigt wird. Der Grund, warum große Sprachmodelle leistungsstark sind, liegt darin, dass verschiedene Nullstichproben und wenige Stichproben eine gute Leistung erbringen und Flexibilität bei der Behandlung komplexer und vielfältiger Probleme zeigen. „Aufgabenkontamination“ bezieht sich auf die Kontamination von Bewertungsmethoden mit Nullstichproben oder wenigen Stichproben, was bedeutet, dass die Daten vor dem Training Aufgabentrainingsbeispiele enthalten. Glauben Sie, dass GPT zum ersten Mal so einfach zu beantworten ist? NEIN! Tatsächlich hat die KI diese Daten während des Trainingsprozesses „gesehen“.
Bewertungsmodelle und Datenbanken
Da das geschlossene Modell die Trainingsdatenbank nicht offenlegt und das offene Modell nur Datenquellen bereitstellt, ist es nicht einfach, die Website zu crawlen, um Daten zu erhalten, und daher ist es schwierig, sie einfach zu überprüfen. Um den Umfang der Aufgabenkontamination tatsächlich zu messen, bewertet das Papier insgesamt 12 Modelle, darunter fünf geschlossene Modelle der GPT-3-Serie und sieben offene Modelle wie Fairseq MoE, Bloom und LLaMA, und listet die Erstellung und das Modell der Trainingsdatenbank auf Veröffentlichungstermine.
Die Datenbanken sind in zwei Kategorien unterteilt: Datenbanken, die vor 2021 und nach 2021 veröffentlicht wurden. Vergleichen Sie die Leistungsunterschiede zwischen der alten und der neuen Datenbank bei Nullstichproben oder wenigen Stichproben.
vier Messmethoden
Die Forscher verwendeten vier Methoden, um das Ausmaß der Kontamination großer Modellmissionen zu messen.
1. Schulungsmaterialien prüfen: Durchsuchen Sie Trainingsdaten direkt, um Beispiele für Aufgabentraining zu finden. Die Lama-Modelle Alpaca und Vicuna wurden verfeinert und während des Trainings wurden einige Aufgabenbeispiele hinzugefügt, um die Leistung im Vergleich zum Original-Lama zu verbessern.
2. Aufgabenbeispiele extrahieren: Aufgabenbeispiele aus vorhandenen Modellen extrahieren.
Verwenden Sie prompte Wortanweisungen, um das Modell aufzufordern, Trainingsbeispiele zu generieren. Das Modell sollte während der Nullstichproben- oder Wenigstichprobenauswertung nicht an Aufgabenbeispielen trainiert werden. Solange LLM also Beispiele auf der Grundlage von Eingabeaufforderungen generieren kann, ist dies ein Beweis für eine Aufgabenkontamination. Infolgedessen gibt es von der ersten Generation des GPT-3 davinci-001 bis zum späteren 3,5 T immer mehr rote Xs, die die generierten Trainingsbeispiele darstellen, was beweist, dass die Verschmutzung immer schwerwiegender wird.
3. Ableiten der Mitgliedschaftsidentität: Gilt nur für Generierungsaufgaben. Der Kern besteht darin, zu prüfen, ob der vom Modell für das Eingabebeispiel generierte Inhalt genau mit der Originaldatenbank übereinstimmt. Wenn er konsistent ist, kann festgestellt werden, dass das Beispiel Mitglied der LLM-Schulung ist Daten.
Denn wenn bei der offenen Generierungsaufgabe eine genaue Übereinstimmung vorliegt, kann das Modell den Inhalt der Datenbank vorhersagen und genau reproduzieren, was als „Supershow“ bezeichnet werden kann. Dies impliziert stark, dass das Modell gelernt hat Diese Inhalte während des Trainings, was zeigt, dass die GPT-3-Serie und kürzlich große Open-Source-Modelle Inhalte erzeugen, die genau den Originaldaten entsprechen, und der Grad der Kontamination mit der Zeit zunimmt.
4. Zeitsequenzanalyse: Modellieren Sie mit bekannten Trainingsdatenerfassungszeiten, messen Sie die Leistung anhand von Datenbanken mit bekannten Veröffentlichungsdaten und prüfen Sie anhand von Zeitreihennachweisen, ob Hinweise auf eine Kontamination vorliegen. Alle Datenbanken und LLM analysieren globale Zeitreihen und stellen fest, dass die Datenbank, die vor der Veröffentlichung von LLM gesammelt wurde (links), eine höhere Wahrscheinlichkeit aufweist, die meisten Baselines zu übertreffen, unabhängig von Aufgaben mit Nullstichproben oder wenigen Stichproben.
Wichtigste Schlussfolgerungen des Experiments:
- Aufgrund der Aufgabenkontamination ist die Null-Schuss- oder Wenig-Schuss-Bewertungsleistung von Closed-Source-Modellen übertrieben, insbesondere von Reinforcement Learning mit menschlichem Feedback (RLHF) oder Modellen zur Feinabstimmung von Anweisungen. Das Ausmaß der Kontamination ist unbekannt und sollte mit Vorsicht behandelt werden.
- Experimente zu Klassifizierungsaufgaben, die die Möglichkeit einer Kontamination nicht nachweisen, sowie Zero-Shot- und Fence-Shot-Einstellungen für große Modelle zeigen selten statistisch signifikante Verbesserungen gegenüber den meisten Ausgangswerten.
- Im Laufe der Zeit wird die Leistungsverbesserung von Modellen der GPT-3-Serie bei Null- oder wenigen Stichproben bei vielen nachgelagerten Aufgaben wahrscheinlich durch Aufgabenkontamination verursacht.
- Selbst bei Open-Source-LLMs kann die Überprüfung von Trainingsdaten auf Aufgabenkontamination aus mehreren Gründen schwierig sein.
- Ermutigen Sie den offenen Zugang zu Schulungsdatenbanken, damit Kontaminationsprobleme leicht diagnostiziert werden können.
Ist GPT nicht der Einzige, der „dümmer wird“? Erreichen alle großen Modelle das gleiche Ziel auf unterschiedlichen Wegen?
Viele Internetnutzer äußerten sich pessimistisch: Der Verlust der Intelligenz könnte das gemeinsame Schicksal aller großen Modelle sein. Bei Modellen für maschinelles Lernen ohne kontinuierliche Lernfähigkeit werden die Gewichte nach dem Training eingefroren, aber die Eingabeverteilung driftet weiter. Fast 200 Millionen Benutzer haben Tag und Nacht mit verschiedenen Problemen zu kämpfen. Wenn sich das Modell nicht an Änderungen anpassen kann, nimmt die Leistung allmählich ab.
Beispielsweise werden auch Programmiertools, die auf großen Modellen basieren, mit der Aktualisierung von Programmiersprachen beeinträchtigt. Die kontinuierliche Neuschulung des Modells ist sehr kostspielig und die Menschen werden früher oder später weniger effiziente Methoden aufgeben. Für das aktuelle LLM ist es schwierig, ein Modell für maschinelles Lernen zu erstellen, das das bisherige Wissen nicht ernsthaft beeinträchtigt und sich gleichzeitig kontinuierlich an neues Wissen anpasst. Internetnutzer glauben: „Der ganze Hype um künstliche Intelligenz basiert auf der Annahme, dass künstliche Intelligenz immer besser wird. Aber je nach der Art und Weise, wie große Sprachmodelle entworfen werden, ist allgemeine künstliche Intelligenz fast unmöglich. Nischenbeispiele in bestimmten Szenarien sind die besten.“ Nutzung dieser Technologie. Weg“.
Kontinuierliches Lernen ist genau der Vorteil biologischer neuronaler Netze. Aufgrund seiner starken Generalisierungskraft kann das Erlernen verschiedener Aufgaben die Systemleistung weiter steigern. Das aus einer Aufgabe gewonnene Wissen kann dazu beitragen, die Lerneffizienz insgesamt zu verbessern. „Grundsätzlich gilt: Je mehr Probleme man löst, desto besser. Obwohl große Modelle jeden Tag durch Millionen von Problemen getestet werden, lösen sie Aufgaben nicht automatisch gut, weil ihre Lernfähigkeit zu einem bestimmten Zeitpunkt eingefroren ist.“
Die etwas widersprüchliche Realität ist jedoch, dass sich die Menschen heute immer mehr auf KI verlassen, um Inhalte zu generieren und Antworten aus degradierten mittleren und großen Modellen zu nutzen, um praktische Probleme im Leben zu lösen. In Zukunft werden immer mehr Daten erstellt, die von großen Modellen gewonnen werden von KI statt von Menschen kommend. . Wenn KI mithilfe von KI-Produkten umgeschult wird, wohin wird das Endergebnis führen? Wenn die Probleme der Datenverschmutzung und des kontinuierlichen Lernens nicht grundlegend gelöst werden, wird die Welt der Zukunft wahrscheinlich immer dümmer werden wie große Modelle.
(Dieser Artikel wurde geschrieben von Pinwan Nachdruck mit Genehmigung; Quelle des ersten Bildes: Shutterstock)
Weiterführende Literatur: