VentureBeat präsentiert: AI Unleashed – eine exklusive Veranstaltung für Führungskräfte im Bereich Unternehmensdaten. Vernetzen Sie sich und lernen Sie mit Branchenkollegen. Erfahren Sie mehr
Leckerdas von Forschern von DeepMind, google, Baidu und Meta gegründete KI-Startup, hat Yasa-1 angekündigt, ein multimodaler KI-Assistent, der über Text hinausgeht, um Bilder, kurze Videos und Audioausschnitte zu verstehen.
Yasa-1 ist in der privaten Vorschau verfügbar und kann an private Datensätze beliebiger Modalität angepasst werden, sodass Unternehmen neue Erfahrungen für eine Vielzahl von Anwendungsfällen erstellen können. Der Assistent unterstützt 20 verschiedene Sprachen und bietet außerdem die Möglichkeit, Antworten mit Kontext aus dem Internet bereitzustellen, lange Kontextdokumente zu verarbeiten und Code auszuführen.
Es ist der direkte Konkurrent von chatgpt von OpenAI, das kürzlich ein eigenes multimodales Upgrade mit Unterstützung für visuelle und akustische Eingabeaufforderungen erhalten hat.
„Ich bin stolz auf das, was das Team erreicht hat, indem es in weniger als sechs Monaten von einer leeren Leinwand zu einem echten, vollwertigen Produkt gelangt ist“, sagte Yi Tay, Chefwissenschaftler und Mitbegründer des Unternehmens. schrieb auf X (ehemals Twitter).
Laut Reka umfasste dies alles, angefangen von der Vorschulung der Basismodelle und der Ausrichtung auf Multimodalität bis hin zur Optimierung der Trainings- und Service-Infrastruktur und der Einrichtung eines internen Bewertungsrahmens.
Allerdings betonte das Unternehmen auch, dass der Assistent noch sehr neu sei und einige Einschränkungen aufweist – die in den kommenden Monaten behoben werden.
Yasa-1 und seine multimodalen Fähigkeiten
Yasa-1 ist über APIs und als Docker-Container für die On-Premise- oder VPC-Bereitstellung verfügbar und nutzt ein einziges einheitliches Modell, das von Reka trainiert wurde, um multimodales Verständnis zu liefern, wobei es nicht nur Wörter und Phrasen, sondern auch Bilder, Audio- und kurze Videoclips versteht.
Mit dieser Funktion können Benutzer herkömmliche textbasierte Eingabeaufforderungen mit Multimediadateien kombinieren, um spezifischere Antworten zu erhalten.
Beispielsweise kann Yasa-1 mit dem Bild eines Produkts aufgefordert werden, einen Social-Media-Beitrag zu erstellen, der dafür wirbt, oder es könnte verwendet werden, um ein bestimmtes Geräusch oder die Quelle zu erkennen, die es erzeugt hat, sei es ein Instrument, eine Maschine, oder ein Organismus.
Laut Reka kann der Assistent sogar erkennen, was in einem Video vor sich geht, einschließlich der besprochenen Themen, und vorhersagen, was der Proband als nächstes tun wird. Diese Art des Verständnisses kann für die Videoanalyse nützlich sein, aber es scheint, dass die Technologie immer noch einige Probleme aufweist.
„Für multimodale Aufgaben zeichnet sich Yasa durch die Bereitstellung hochwertiger Beschreibungen von Bildern, Videos oder Audioinhalten aus“, schrieb das Unternehmen in einem Blogeintrag. „Ohne weitere Anpassungen ist die Fähigkeit, komplexe Details in multimodalen Medien zu erkennen, jedoch begrenzt. Für die aktuelle Version empfehlen wir für ein optimales Erlebnis, dass Audio- oder Videoclips nicht länger als eine Minute sind.“
Es hieß auch, dass das Modell, wie die meisten LLMs da draußen, halluzinieren kann und man sich nicht ausschließlich auf kritische Ratschläge verlassen sollte.
Zusatzfunktionen
Über die Multimodalität hinaus bietet Yasa-1 auch zusätzliche Funktionen wie die Unterstützung von 20 verschiedenen Sprachen, die Verarbeitung langer Kontextdokumente und die Möglichkeit, Code aktiv auszuführen (exklusiv für On-Premise-Bereitstellungen), um arithmetische Operationen durchzuführen, Tabellenkalkulationen zu analysieren oder Visualisierungen für bestimmte Daten zu erstellen Punkte.
„Letzteres wird über ein einfaches Flag aktiviert. Wenn Yasa aktiv ist, identifiziert es automatisch den Codeblock in seiner Antwort, führt den Code aus und hängt das Ergebnis am Ende des Blocks an“, schrieb das Unternehmen.
Darüber hinaus erhalten Benutzer die Möglichkeit, die neuesten Inhalte aus dem Internet in die Antworten von Yasa-1 einfließen zu lassen. Dies geschieht über ein weiteres Flag, das den Assistenten in Echtzeit mit verschiedenen kommerziellen Suchmaschinen verbindet und so die Nutzung aktueller Informationen ohne Stichtagsbeschränkung ermöglicht.
Insbesondere wurde ChatGPT kürzlich mit der gleichen Funktion mithilfe eines neuen Basismodells, GPT-4V, aktualisiert. Für Yasa-1 weist Reka jedoch darauf hin, dass es keine Garantie dafür gibt, dass der Assistent die relevantesten Dokumente als Zitate für eine bestimmte Anfrage abruft.
Vorausplanen
In den kommenden Wochen will Reka mehr Unternehmen den Zugang zu Yasa-1 ermöglichen und daran arbeiten, die Fähigkeiten des Assistenten zu verbessern und seine Einschränkungen auszugleichen.
„Wir sind stolz darauf, eines der besten Modelle seiner Rechenklasse zu haben, aber wir fangen gerade erst an. Yasa ist ein generativer Agent mit multimodalen Fähigkeiten. „Es ist ein erster Schritt in Richtung unserer langfristigen Mission, eine Zukunft aufzubauen, in der superintelligente KI eine Kraft des Guten ist und gemeinsam mit Menschen an der Lösung unserer großen Herausforderungen arbeitet“, so das Unternehmen.
Ein Kernteam mit Forschern von Unternehmen wie Meta und Google kann Reka zwar einen Vorteil verschaffen, es ist jedoch wichtig zu beachten, dass das Unternehmen im KI-Wettbewerb noch sehr neu ist. Das Unternehmen kam erst vor drei Monaten mit einer Finanzierung von 58 Millionen US-Dollar von DST Global Partners, Radical Ventures und mehreren anderen Angels aus dem Verborgenen und konkurriert mit finanzstarken Playern, darunter OpenAI mit Unterstützung von Microsoft und Anthropic mit Unterstützung von Amazon.
Weitere namhafte Konkurrenten des Unternehmens sind Flexions-KIdas fast 1,5 Milliarden US-Dollar eingesammelt hat, und Geschickt mit 415 Millionen Dollar in der Tasche.
Die Mission von VentureBeat soll ein digitaler Stadtplatz für technische Entscheidungsträger sein, um sich Wissen über transformative Unternehmenstechnologie anzueignen und Transaktionen durchzuführen. Entdecken Sie unsere Briefings.