Auf dieselben mathematischen Probleme gab chatgpt völlig unterschiedliche Antworten, stellt ein Team der Stanford University in Kalifornien fest, das im März und Juni dieses Jahres GPT 3.5 und GPT 4 verglich. Diese Forscher testeten diese verschiedenen Versionen des „Roboters“. das Unternehmen OpenAI: mathematische Probleme lösen, „sensible“ Fragen beantworten oder „visuelles Denken“.

Die ErgebnisseZusammenfassung das beliebte Magazin New Scientist, seien „inkonsistent“. In der Mathematik reagierte ChatGPT 4 im Juni weniger gut als im März, während sich die Leistung von Version 3.5 verbesserte. Und das mit Diskrepanzen, die nicht logisch erscheinen: 98 % der richtigen Antworten für Version 4 im März gegenüber … 2,4 % im Juni. Und ein Sprung von 7,4 % auf 87 % für die andere Version.

Die Aufgabe bestand darin, den Roboter zu fragen, ob eine Zahl eine Primzahl ist (eine Zahl, die nur durch 1 und sich selbst geteilt werden kann). Zwei Forscher der Princeton University der diese Ergebnisse kommentiert hat – vorveröffentlicht am 18. Juli – schreiben jedoch, dass diejenigen, die zu dem Schluss kommen, dass es im Laufe der Zeit zu einer Verschlechterung der Leistung kommt, „Fähigkeit“ (eine Arbeit zu erledigen) und „Verhalten“ verwechseln.

„Ein Modell, das über die Fähigkeit verfügt, kann diese Fähigkeit als Reaktion auf eine bestimmte Anfrage zeigen oder auch nicht. »

Ihre Interpretation ist, dass ChatGPT nicht „überprüfte“, ob es sich um eine Primzahl handelte, wie es ein Mensch tun würde: Mit anderen Worten, es führte keine Berechnungen durch. Sie ihrerseits forderten den Roboter auf, zusammengesetzte Zahlen zu identifizieren: alle Zahlen, die keine Primzahlen sind, mit Ausnahme von 0 und 1. Diesmal war die Leistung deutlich besser.

Siehe auch  ChatGPT-Börsengang: Das aktuelle Szenario

Dennoch geben sie zu, dass der Artikel von Lingjiao Chen und seinen Kollegen in Stanford „einen sensiblen Nerv trifft“. Es ist nicht das erste Mal seit diesem Frühjahr, dass Experten behaupten, dass sich die Leistung des Roboters mit der Zeit verschlechtert habe. Und ob diese Experten Recht haben oder nicht, ist die Frage Aktualisierung des Roboters, um Fehler zu korrigieren oder alle möglichen „Anpassungen“ vorzunehmen, wird a schwere Last wirtschaftlich für jedes zukünftige Unternehmen, ganz zu schweigen von einem aufstrebenden Unternehmen wie OpenAI.

OpenAI ist ein Zeugnis dieser drohenden Schwierigkeiten diskret angekündigt, am 20. Juli, dass es die Entwicklung seines „KI-Erkennungstools“ beendet. Diese Anwendung wurde im Januar als Antwort auf die Befürchtungen vieler, darunter auch Lehrer, vorgestellt: ein Tool, das theoretisch in der Lage ist, von einer KI wie ChatGPT generierte Inhalte von von Menschen generierten Inhalten zu unterscheiden. Das Unternehmen begründet das Ende der Tests mit der geringen Erfolgsquote des Tools.

Anzeige

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein