Im Wettlauf um die Entwicklung fortschrittlicher künstlicher Intelligenz sind nicht alle großen Sprachmodelle gleich. Zwei neue Studien zeigen auffällige Unterschiede in den Fähigkeiten beliebter Systeme wie chatgpt, wenn sie an komplexen realen Aufgaben getestet werden.
Laut Forschern der Purdue University hat ChatGPT selbst mit grundlegenden Codierungsherausforderungen zu kämpfen. Das Team wertete die Antworten von ChatGPT auf über 500 Fragen auf Stack Overflow, einer Online-Community für Entwickler und Programmierer, zu Themen wie Debugging und API-Nutzung aus.
„Unsere Analyse zeigt, dass 52 % der von ChatGPT generierten Antworten falsch und 77 % ausführlich sind“, so die Forscher schrieb. „ChatGPT-Antworten werden jedoch aufgrund ihrer Vollständigkeit und ihres gut artikulierten Sprachstils immer noch in 39,34 % der Fälle bevorzugt.“
Im Gegensatz dazu a Studium an der UCLA und der Pepperdine University aus Malibu demonstriert die Kompetenz von ChatGPT bei der Beantwortung schwieriger medizinischer Untersuchungsfragen. Bei einer Befragung zu über 850 Multiple-Choice-Fragen in der Nephrologie, einem fortgeschrittenen Fachgebiet der Inneren Medizin, erzielte ChatGPT eine Punktzahl von 73 % – ähnlich der Erfolgsquote für Humanmediziner.
Bildnachweis: UCLA über Arvix
„Die nachgewiesene aktuelle überlegene Fähigkeit von GPT-4 bei der genauen Beantwortung von Multiple-Choice-Fragen in der Nephrologie weist auf den Nutzen ähnlicher und leistungsfähigerer KI-Modelle in zukünftigen medizinischen Anwendungen hin“, schlussfolgerte das UCLA-Team.
Claude AI von Anthropic war mit 54,4 % richtigen Antworten der zweitbeste LLM. Das Team bewertete andere Open-Source-LLMs, diese waren jedoch alles andere als akzeptabel. Die beste Punktzahl erzielte Vicuna mit 25,5 %.
Warum zeichnet sich ChatGPT in der Medizin aus, scheitert aber beim Codieren? Die Modelle des maschinellen Lernens haben unterschiedliche Stärken, Anmerkungen MIT-Informatiker Lex Fridman. Claude, das Modell hinter dem medizinischen Wissen von ChatGPT, erhielt zusätzliche proprietäre Trainingsdaten von seinem Hersteller Anthropic. ChatGPT von OpenAI stützte sich nur auf öffentlich verfügbare Daten. KI-Modelle leisten Großes, wenn sie richtig mit großen Datenmengen umgehen, sogar besser als die meisten anderen Modelle.
Bild mit freundlicher Genehmigung: MIT
Allerdings ist eine KI außerhalb der Parameter, auf die sie trainiert wurde, nicht in der Lage, richtig zu agieren, und versucht daher, Inhalte zu erstellen, ohne sie vorher zu kennen, was zu sogenannten Halluzinationen führt. Wenn der Datensatz eines KI-Modells einen bestimmten Inhalt nicht enthält, kann es in diesem Bereich keine guten Ergebnisse liefern.
Wie die UCLA-Forscher erklärten: „Ohne die Bedeutung der Rechenleistung bestimmter LLMs zu negieren, wird der fehlende freie Zugang zu Trainingsdatenmaterial, das derzeit nicht öffentlich zugänglich ist, auf absehbare Zeit wahrscheinlich eines der Hindernisse für die Erzielung einer weiteren Leistungsverbesserung bleiben.“ Zukunft.“
Das Klappern von ChatGPT beim Codieren stimmt mit anderen Bewertungen überein. Als Entschlüsseln Wie bereits berichtet, stellten Forscher an der Stanford University und der UC Berkeley fest, dass die mathematischen und visuellen Denkfähigkeiten von ChatGPT zwischen März und Juni 2022 stark nachgelassen haben. Obwohl ChatGPT zunächst gut mit Primzahlen und Rätseln umgehen konnte, erreichte es im Sommer bei wichtigen Benchmarks nur noch 2 %.
Auch wenn ChatGPT den Arzt spielen kann, muss es noch viel lernen, bevor es ein Spitzenprogrammierer wird. Aber das ist nicht weit von der Realität entfernt, denn wie viele Ärzte kennen Sie, die auch geschickte Hacker sind?