Start ChatGPT Es entsteht ein neues Open-Source-KI-Visionsmodell, das es mit ChatGPT aufnehmen kann

Es entsteht ein neues Open-Source-KI-Visionsmodell, das es mit ChatGPT aufnehmen kann

Von

Nina Weber

Dezember 4, 2023

Glücklich hide

1 Wir Hermes 2 Vision Alpha

1.1 VB-Ereignis

2 Trotz der Differenzierung bleiben in dieser Phase weiterhin Probleme bestehen

Sind Sie bereit, Ihrer Marke mehr Bekanntheit zu verleihen? Erwägen Sie, Sponsor der AI Impact Tour zu werden. Erfahren Sie mehr über die Möglichkeiten google.com/forms/d/e/1FAIpQLSc4XmgDYjIsCfJwjCkYaWEumoDJB13uSrLhraw9mB24U7jyxg/viewform” data-type=”link” data-id=”https://docs.google.com/forms/d/e/1FAIpQLSc4XmgDYjIsCfJwjCkYaWEumoDJB13uSrLhraw9mB24U7jyxg/viewform”>Hier.

Nous-Forschungeine private Gruppe für angewandte Forschung, die für die Veröffentlichung von Open-Source-Arbeiten im LLM-Bereich bekannt ist, hat ein leichtes Vision-Sprachmodell namens Nous Hermes 2 Vision eingestellt.

Das über Hugging Face verfügbare Open-Source-Modell baut auf dem Vorgängermodell OpenHermes-2.5-Mistral-7B des Unternehmens auf und bietet Vision-Funktionen, einschließlich der Möglichkeit, mit Bildern Eingabeaufforderungen zu stellen und Textinformationen aus visuellen Inhalten zu extrahieren.

Kurz nach dem Start stellte sich jedoch heraus, dass das Modell stärker halluzinierte als erwartet, was zu Störungen und schließlich zur Umbenennung des Projekts in Hermes 2 Vision Alpha führte. Das Unternehmen wird voraussichtlich eine stabilere Version veröffentlichen, die ähnliche Vorteile, aber weniger Störungen bietet.

Wir Hermes 2 Vision Alpha

Benannt nach Hermes, dem griechischen Götterboten, ist das Nous-Visionsmodell als System konzipiert, das „die komplexen Feinheiten des menschlichen Diskurses mit himmlischer Finesse“ bewältigt. Es greift auf die von einem Benutzer bereitgestellten Bilddaten zu und kombiniert diese visuellen Informationen mit seinen Erkenntnissen, um detaillierte Antworten in natürlicher Sprache zu liefern.

VB-Ereignis

Die AI Impact Tour

Treten Sie mit der Unternehmens-KI-Community auf der AI Impact Tour von VentureBeat in eine Stadt in Ihrer Nähe in Kontakt!

Erfahren Sie mehr

Es könnte beispielsweise das Bild eines Benutzers analysieren und verschiedene Aspekte dessen, was es enthält, detailliert beschreiben. Der Mitbegründer von Nous, der vorbeikommt Teknium auf Xhat einen Test-Screenshot geteilt, bei dem das LLM das Foto eines Burgers analysieren und herausfinden konnte, ob es für ihn ungesund wäre und warum.

Nous Hermes 2 Vision bei der Arbeit

Während chatgpt, basierend auf GPT-4V, auch die Möglichkeit bietet, mit Bildern anzusprechen, unterscheidet sich das Open-Source-Angebot von Nous durch zwei wichtige Verbesserungen.

Siehe auch 3 ChatGPT-Erweiterungen, die Sie sofort herunterladen müssen 3 ChatGPT-Erweiterungen, die Sie sofort herunterladen müssen_AI-Architekt Yi Jins Blog-CSDN-Blog

Erstens nutzt Nous Hermes 2 Vision im Gegensatz zu herkömmlichen Ansätzen, die auf umfangreichen 3B-Vision-Encodern basieren, SigLIP-400M. Dies optimiert nicht nur die Architektur des Modells und macht es leichter als seine Gegenstücke, sondern trägt auch dazu bei, die Leistung bei Vision-Language-Aufgaben zu steigern.

Zweitens wurde es anhand eines benutzerdefinierten Datensatzes trainiert, der mit Funktionsaufrufen angereichert wurde. Dadurch können Benutzer das Modell mit einem -Tag aufrufen und geschriebene Informationen aus einem Bild extrahieren, z. B. einem Menü oder einer Werbetafel.

„Diese besondere Ergänzung verwandelt Nous-Hermes-2-Vision in ein Vision-Language-Aktionsmodell. Entwicklern steht nun ein vielseitiges Tool zur Verfügung, mit dem sie eine Vielzahl genialer Automatisierungen erstellen können“, schreibt das Unternehmen auf der Hugging Face-Seite des Modells.

Weitere zum Training des Modells verwendete Datensätze waren LVIS-INSTRUCT4V, ShareGPT4V und Konversationen von OpenHermes-2.5.

Trotz der Differenzierung bleiben in dieser Phase weiterhin Probleme bestehen

Obwohl das Nous Vision-Language-Modell für Forschung und Entwicklung verfügbar ist, hat die frühe Nutzung gezeigt, dass es alles andere als perfekt ist.

Kurz nach der Veröffentlichung veröffentlichte der Mitbegründer einen Beitrag, in dem er sagte, dass etwas mit dem Modell nicht stimmte und dass es häufig halluzinierte, EOS-Tokens spammte usw. Später wurde das Modell in eine Alpha-Version umbenannt.

„Ich sehe Leute über ‚Halluzinationen‘ reden und ja, es ist ziemlich schlimm. Ich war mir dessen auch bewusst, da es sich bei dem zugrunde liegenden LLM um ein unzensiertes Modell handelt. Ich werde bis Ende des Monats eine aktualisierte Version davon erstellen, um diese Probleme zu lösen“, sagte Quan Nguyen, der wissenschaftliche Mitarbeiter, der die KI-Bemühungen bei Nous leitet. schrieb auf X.

Siehe auch Dem Bericht zufolge vermutete fast die Hälfte der befragten Führungskräfte, dass Kollegen versehentlich Unternehmensdaten mit ChatGPT geteilt hatten. -XSchnellstes Hongkong

Von VentureBeat im Zusammenhang mit Problemen gesendete Fragen blieben zum Zeitpunkt des Schreibens unbeantwortet.

Allerdings hat Nguyen in einem anderen Beitrag darauf hingewiesen, dass die Funktionsaufruffunktion immer noch gut funktioniert, wenn der Benutzer ein gutes Schema definiert. Er sagte auch, dass er ein spezielles Modell für Funktionsaufrufe einführen werde, wenn das Benutzerfeedback gut genug sei.

Bisher hat Nous Research im Rahmen seiner Serien Hermes, YaRN, Capybara, Puffin und Obsidian 41 Open-Source-Modelle mit unterschiedlichen Architekturen und Funktionen veröffentlicht.

Die Mission von VentureBeat soll ein digitaler Stadtplatz für technische Entscheidungsträger sein, um sich Wissen über transformative Unternehmenstechnologie anzueignen und Transaktionen durchzuführen. Entdecken Sie unsere Briefings.