Was ist multimodale KI und verdient sie den Hype, den sie erzeugt?
Wenn Sie letzte Woche/zwei Wochen LinkedIn besucht haben, wurden Sie wahrscheinlich von Leuten überschwemmt, die wegen der Integration von Multimodalität in die Funktionen von GPT den Verstand verloren haben. Normalerweise würde ich mir etwas Zeit nehmen, um Ihnen zu sagen, dass dies ein weiteres Beispiel dafür ist, wie die Hype-Maschine Überstunden macht, um Ihnen eine weitere grundsätzlich nutzlose Idee zu verkaufen.
Nun, dieses Mal ist es anders. Multimodalität ist eine wirklich kraftvolle Entwicklung, die die Aufmerksamkeit verdient, die ihr zuteil wird. In diesem Artikel gebe ich Ihnen eine kurze Einführung in die Multimodalität, warum sie für KI-Modelle eine große Sache ist und welche Probleme sie mit sich bringen kann (denken Sie daran, nichts ist eine Wunderwaffe).
- Was ist multimodale KI? Einfach ausgedrückt bezieht sich multimodale KI auf KI, die mehrere Arten von Daten (mehrere Informationsmodalitäten) integriert. Traditionell entwickeln wir Sprachmodelle für Sprache, akustische Modelle für Klang, statistische Modelle für tabellarische Daten usw. Multimodale Modelle werden mit einer Mischung dieser Eingaben im selben Trainingsprozess trainiert. Dies geschieht in der Regel dadurch, dass die Eingabe durch Einbettungsmodelle ausgeführt wird, die eine Vektordarstellung Ihrer Daten in einem gemeinsamen n-dimensionalen Raum erstellen
- Warum Multimodalität eine große Sache ist– Anstatt zu rechnen, möchte ich, dass du sofort nach draußen gehst. Spazieren gehen. Schauen Sie nun in den Himmel und stellen Sie sich vor, Sie hätten einen Jetpack. Überlegen Sie, wie viele Wege Sie noch einschlagen könnten – selbst wenn Sie im selben geografischen Gebiet bleiben würden. Multimodalität fügt Ihren Daten eine weitere Dimension hinzu – sie ermöglicht Ihrem Modell, Stichproben aus einem um eine Größenordnung größeren Suchraum zu ziehen. In unserem Laufbeispiel gingen wir von x² möglichen Trefferpunkten auf x³ Punkte über. Bei der Einführung seiner multimodalen KI-Infrastruktur Pathways schrieb google Folgendes:
- Die Gefahr der Multimodalität– Während Multimodalität sich positiv auf die Modellleistung auswirkt, geht sie nicht wirklich auf die grundlegenderen Probleme von GPT und LLMs ein, die ihre Einführung in größerem Maßstab behindern. Der vergrößerte Suchraum treibt die Kosten in die Höhe, Multimodalität hat keinen wirklichen Einfluss auf die Halluzination und viele der Probleme mit Unzuverlässigkeit und Fragilität bestehen immer noch fort. Ich bin nach wie vor der Meinung, dass viele der Anwendungsfälle, die die Leute um diese Modelle herumtreiben, durch einfachere Technologien besser abgedeckt werden können. Lassen Sie sich nicht durch das glänzende Neue von den Grundlagen ablenken.
Insgesamt ist die Multimodalität wirklich cool. Es ermöglicht alle Arten von Anwendungen in den Bereichen Komprimierung, Datenannotation, Beschriftung usw. Das mag etwas ketzerisch klingen, aber ich persönlich bin mehr von multimodalen Einbettungen begeistert als von den multimodalen KI-Modellen selbst. Ich bin vielleicht der Einzige hier, aber ich sehe einfach mehr Nutzen in der Entwicklung besserer Einbettungen als in der Erstellung besserer Modelle. Allerdings kann die Integration multimodaler Funktionen in Ihre KI-Modelle unter den richtigen Umständen durchaus ein großer Fehler sein.
Wenn Sie AI Made Simple nützlich finden und mein Schreiben unterstützen möchten, denken Sie bitte darüber nach, ein Premium-Mitglied meiner Sekte zu werden, indem Sie sich unten anmelden. Durch das Abonnieren haben Sie Zugriff auf viel mehr Inhalte und können mit dem Schreiben fortfahren. Dies kostet Sie 400 INR (5 USD) monatlich oder 4000 INR (50 USD) pro Jahr und beinhaltet eine 60-tägige vollständige Rückerstattungsrichtlinie. Verstehen Sie die neuesten Entwicklungen und entwickeln Sie Ihr Verständnis für die wichtigsten Ideen, Alles zum Preis einer Tasse Kaffee.
Unterstützen Sie KI ganz einfach
Verwenden Sie die untenstehenden Links, um sich meine anderen Inhalte anzusehen, mehr über Nachhilfe zu erfahren, mich wegen Projekten zu kontaktieren oder einfach nur Hallo zu sagen.
Kleine Ausschnitte über Technologie, KI und maschinelles Lernen hier
KI-Newsletter – https://artificialintelligencemadesimple.substack.com/
Der Lieblings-Tech-Newsletter meiner Oma – https://codinginterviewsmadesimple.substack.com/
Schauen Sie sich meine anderen Artikel auf Medium an. : https://rb.gy/zn1aiu
Mein YouTube: https://rb.gy/88iwdd
Kontaktieren Sie mich auf LinkedIn. Lassen Sie uns verbinden: https://rb.gy/m5ok2y
Mein Instagram: https://rb.gy/gmvuy9
Mein Twitter: https://twitter.com/Machine01776819