Wir sehen viele Meinungen zu chatgpt, aber was wissen wir letztendlich? Nur dass es sich um ein künstliches neuronales Netzwerk mit Milliarden von Parametern handelt, das in der Lage ist, eine Diskussion auf hoher Ebene zu führen, aber auch in grobe Fallen zu tappen, die von scherzhaften Internetnutzern gestellt werden. Wir hören viel darüber, aber letztendlich wissen wir sehr wenig darüber, wie es funktioniert.

Ich schlage daher vor, die Hauptmechanismen, auf denen ChatGPT basiert, vorzustellen und zu zeigen, dass das Ergebnis zwar manchmal beeindruckend ist, seine elementaren Mechanismen jedoch clever, aber nicht wirklich neu sind. Sehen wir uns dazu die verschiedenen Begriffe des Akronyms „ChatGPT“ an.

Ich mag Transformator

Ein „Transformer“ ist ein neuronales Netzwerk, das vom gleichen Lernalgorithmus profitiert wie tiefe Netzwerke (tiefe Netzwerke), das sich bereits für das Training großer Architekturen bewährt hat. Es profitiert außerdem von zwei bewährten Funktionen: Einerseits „lexikalische Einbettungstechniken“ zur Kodierung von Wörtern; auf der anderen Seite Aufmerksamkeitstechniken, um die Tatsache zu berücksichtigen, dass Wörter vorhanden sind sequentiell.


Weiterlesen: Von Cambridge Analytica bis ChatGPT – verstehen, wie KI Wörtern Sinn verleiht


Dieser zweite Punkt ist wichtig für die Interpretation der Bedeutung jedes Wortes im Kontext des gesamten Satzes. Die von den Transformatoren vorgeschlagene Technik bevorzugt einen numerischen und statistischen Ansatz, der sich einfach und umfangreich berechnen lässt und sehr effektiv ist. Dieser Ansatz besteht darin, für jedes Wort und anhand der Beobachtung zahlreicher Texte zu lernen, welche anderen Wörter des Satzes „beachtet“ werden müssen, um den Kontext zu identifizieren, der die Bedeutung dieses Wortes verändern kann. Auf diese Weise können Sie ein Wort zuordnen oder ein Pronomen durch die Wörter der Phrase ersetzen, die es darstellt.

G wie generativ

ChatGPT ist dazu in der Lage generieren Sprache: Wir stellen ihr ein Problem und sie antwortet mit Sprache – es ist ein „Sprachmodell“.

Siehe auch  Pressemitteilung – ChatGPT im Dienste von VSEs: KI direkt in das incwo CRM integriert

Die Möglichkeit, ein generatives Modell mit einem neuronalen Netz zu erlernen, gibt es schon seit mehr als dreißig Jahren: in einem Modell Auto-Encoder, wird die Ausgabe des Netzwerks darauf trainiert, ihre Eingabe (z. B. ein Gesichtsbild) so getreu wie möglich zu reproduzieren, indem sie eine klein gewählte Zwischenschicht von Neuronen durchläuft: Wenn wir die Eingabe reproduzieren können, die eine so kompakte Darstellung durchläuft, ist dies der Fall dass die wichtigsten Aspekte dieser Eingabe (die Nase, die Augen) in der Codierung dieser mittleren Schicht erhalten bleiben (die Details sollten jedoch vernachlässigt werden, da weniger Raum für die Darstellung der Informationen vorhanden ist). Anschließend werden sie dekodiert, um als Ausgabe ein ähnliches Gesicht zu rekonstruieren.

Im generativen Modus wählen wir eine zufällige Aktivität für die Zwischenschicht und erhalten als Ausgabe über den Decoder etwas, das wie ein Gesicht mit Nase und Augen aussieht, aber ein beispielloses Beispiel für das betrachtete Phänomen darstellt.

Die Neuronenschichten eines Autokodierungsmodells: Die erste Schicht empfängt die Eingaben, eine Zwischenschicht kodiert sie kompakter und die letzte dekodiert sie, um das Originalformat zu finden. Friedrich Alexander, Zur Verfügung gestellt vom Autor

Wenn man beispielsweise diesem Prozess folgt (bei großen Netzwerken), kann man etwas schaffen Deepfakesalso sehr realistische Tricks.

Wenn wir nun sequentielle Phänomene (Videos oder Sätze) generieren wollen, müssen wir den sequentiellen Aspekt des Eingabestroms berücksichtigen. Dies kann mit dem oben beschriebenen Aufmerksamkeitsmechanismus erreicht werden, der in einer prädiktiven Form verwendet wird. Wenn wir in der Praxis ein Wort maskieren oder nach dem nächsten Wort suchen, können wir dieses fehlende Wort aus der statistischen Analyse der anderen Texte vorhersagen. Sehen Sie sich zur Veranschaulichung an, wie gut Sie einen Comic lesen können Schlümpfe und jeden „Schlumpf“ durch ein Wort zu ersetzen, das sich aus der Aufmerksamkeitsanalyse der anderen Wörter ergibt.

Siehe auch  ChatGPT verzeichnete im Juni zum ersten Mal einen Benutzerrückgang

Die Wirksamkeit eines einfachen Aufmerksamkeitsmechanismus (der andere wichtige Wörter im Kontext, aber nicht explizit in ihrer Reihenfolge berücksichtigt) zur Verarbeitung des sequentiellen Aspekts von Eingaben war eine wichtige Erkenntnis bei der Entwicklung von Transformatoren („Sie brauchen nicht nur Aufmerksamkeit“, so die Überschrift). Die Publikationskorrespondent: „Aufmerksamkeit ist alles, was Sie brauchen“), da die bevorzugten Methoden zuvor komplexere Netzwerke verwendeten, sogenannte rekurrente Netzwerke, deren Lernen vergleichsweise viel langsamer und weniger effizient ist; Darüber hinaus parallelisiert sich dieser Aufmerksamkeitsmechanismus sehr gut, was diesen Ansatz umso mehr beschleunigt.

P mag vortrainiert

Die Wirksamkeit von Transformatoren beruht nicht nur auf der Leistungsfähigkeit dieser Methoden, sondern (und vor allem) auch auf der Größe der Netzwerke und dem Wissen, das sie für das Training aufbringen.

Quantifizierte Details sind schwer zu erhalten, aber wir hören von Transformatoren Milliarden von Parametern (von Gewicht in neuronalen Netzen); Um effektiver zu sein, werden mehrere Aufmerksamkeitsmechanismen (bis zu hundert) parallel aufgebaut, um die Möglichkeiten besser auszuloten (wir sprechen von „Mehrkopf“-Aufmerksamkeit). Wir können eine Folge von etwa zehn Encodern und Decodern usw. haben.

Denken Sie daran, dass der Deep-Network-Learning-Algorithmus generisch ist und unabhängig von der Tiefe (und Breite) der Netzwerke gilt; Es reicht aus, genügend Beispiele zu haben, um alle diese Gewichte zu trainieren, was sich auf ein weiteres unverhältnismäßiges Merkmal dieser Netzwerke bezieht: die in der Lernphase verwendete Datenmenge.

Auch hier gibt es wenig offizielle Informationen, aber Es scheint, als wären es ganze Teile des Internets Es wird angestrebt, an der Schulung dieser Sprachmodelle teilzunehmen, insbesondere an der gesamten Wikipedia, den mehreren Millionen Büchern, die im Internet zu finden sind (von denen von Menschen übersetzte Versionen sehr nützlich sind, um Übersetzungstransformatoren vorzubereiten), aber auch an den meisten wahrscheinlich die Texte, die in unseren bevorzugten sozialen Netzwerken zu finden sind.

Dieses umfangreiche Training findet offline statt, kann Wochen dauern und unverhältnismäßig hohe Rechen- und Energieressourcen verbrauchen (quantifiziert bei mehrere Millionen Dollar, ganz zu schweigen von den mit diesen Berechnungen verbundenen Umweltaspekten der CO₂-Emissionen).

Siehe auch  Die Auswirkungen generativer KI auf den Versicherungsschutz: Ein Interview mit ChatGPT-4 und Versicherungsberatern darüber, was Versicherungsnehmer jetzt tun sollten – Versicherungsgesetze und -produkte

Plaudern wie Chatten

Jetzt können wir ChatGPT besser vorstellen: Es handelt sich um einen Konversationsagenten, der auf einem Sprachmodell basiert, bei dem es sich um einen vorab trainierten generativen Transformator (GPT) handelt.

Statistische Analysen (mit Aufmerksamkeitsansätzen) der verwendeten sehr großen Korpora ermöglichen die Erstellung von Wortfolgen mit sehr guter Syntaxqualität. Lexikalische Einbettungstechniken bieten Eigenschaften semantischer Nähe, die Sätze ergeben, deren Bedeutung oft zufriedenstellend ist.

Zusätzlich zu dieser Fähigkeit, qualitativ hochwertige Sprache zu erzeugen, muss ein Gesprächsagent auch wissen, wie man sich unterhält, d. h. die gestellten Fragen analysieren und relevante Antworten geben (oder Fallstricke erkennen, um sie zu vermeiden). Dies wurde in einer weiteren Phase des Offline-Lernens mit einem Modell namens „InstructGPT“ durchgeführt, das die Teilnahme von Menschen erforderte, die den Konversationsagenten spielten oder auf zu vermeidende Themen wiesen. In diesem Fall handelt es sich um „Lernen durch Verstärkung“: Dies ermöglicht es, Antworten entsprechend den ihnen gegebenen Werten auszuwählen; Es ist eine Art Halbüberwachung, bei der Menschen sagen, was sie gerne gehört hätten (oder nicht).


Weiterlesen: Wie motiviert man eine KI?


ChatGPT macht das, wofür es programmiert wurde

Die hier dargelegten Merkmale machen es verständlich, dass die Hauptfunktion von ChatGPT darin besteht, aus den vielen Texten, die es bereits gesehen hat, das wahrscheinlichste nächste Wort vorherzusagen und aus den verschiedenen wahrscheinlichen Sequenzen diejenigen auszuwählen, die im Allgemeinen von Menschen bevorzugt werden.

Diese Verarbeitungssequenz kann Annäherungen umfassen, wenn Statistiken ausgewertet werden oder in den Dekodierungsphasen des generativen Modells, wenn neue Beispiele erstellt werden.

Dies erklärt auch das Phänomen der gemeldeten Halluzinationen, wenn jemand nach der Biografie oder Angaben zu einem Unternehmen gefragt wird und er Zahlen und Fakten erfindet. Ihm wurde beigebracht, plausible und kohärente Sätze zu konstruieren, keine wahrheitsgetreuen Sätze. Man muss ein Thema nicht verstehen, um eloquent darüber sprechen zu können, ohne unbedingt eine Garantie für die Qualität der Antworten zu geben (aber auch Menschen wissen, wie man das macht …).

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein