Sind Sie bereit, Ihrer Marke mehr Bekanntheit zu verleihen? Erwägen Sie, Sponsor der AI Impact Tour zu werden. Erfahren Sie mehr über die Möglichkeiten google.com/forms/d/e/1FAIpQLSc4XmgDYjIsCfJwjCkYaWEumoDJB13uSrLhraw9mB24U7jyxg/viewform“ data-type=“link“ data-id=“https://docs.google.com/forms/d/e/1FAIpQLSc4XmgDYjIsCfJwjCkYaWEumoDJB13uSrLhraw9mB24U7jyxg/viewform“>Hier.
Nous-Forschungeine private Gruppe für angewandte Forschung, die für die Veröffentlichung von Open-Source-Arbeiten im LLM-Bereich bekannt ist, hat ein leichtes Vision-Sprachmodell namens Nous Hermes 2 Vision eingestellt.
Das über Hugging Face verfügbare Open-Source-Modell baut auf dem Vorgängermodell OpenHermes-2.5-Mistral-7B des Unternehmens auf und bietet Vision-Funktionen, einschließlich der Möglichkeit, mit Bildern Eingabeaufforderungen zu stellen und Textinformationen aus visuellen Inhalten zu extrahieren.
Kurz nach dem Start stellte sich jedoch heraus, dass das Modell stärker halluzinierte als erwartet, was zu Störungen und schließlich zur Umbenennung des Projekts in Hermes 2 Vision Alpha führte. Das Unternehmen wird voraussichtlich eine stabilere Version veröffentlichen, die ähnliche Vorteile, aber weniger Störungen bietet.
Wir Hermes 2 Vision Alpha
Benannt nach Hermes, dem griechischen Götterboten, ist das Nous-Visionsmodell als System konzipiert, das „die komplexen Feinheiten des menschlichen Diskurses mit himmlischer Finesse“ bewältigt. Es greift auf die von einem Benutzer bereitgestellten Bilddaten zu und kombiniert diese visuellen Informationen mit seinen Erkenntnissen, um detaillierte Antworten in natürlicher Sprache zu liefern.
VB-Ereignis
Die AI Impact Tour
Treten Sie mit der Unternehmens-KI-Community auf der AI Impact Tour von VentureBeat in eine Stadt in Ihrer Nähe in Kontakt!
Erfahren Sie mehr
Es könnte beispielsweise das Bild eines Benutzers analysieren und verschiedene Aspekte dessen, was es enthält, detailliert beschreiben. Der Mitbegründer von Nous, der vorbeikommt Teknium auf Xhat einen Test-Screenshot geteilt, bei dem das LLM das Foto eines Burgers analysieren und herausfinden konnte, ob es für ihn ungesund wäre und warum.
Während chatgpt, basierend auf GPT-4V, auch die Möglichkeit bietet, mit Bildern anzusprechen, unterscheidet sich das Open-Source-Angebot von Nous durch zwei wichtige Verbesserungen.
Erstens nutzt Nous Hermes 2 Vision im Gegensatz zu herkömmlichen Ansätzen, die auf umfangreichen 3B-Vision-Encodern basieren, SigLIP-400M. Dies optimiert nicht nur die Architektur des Modells und macht es leichter als seine Gegenstücke, sondern trägt auch dazu bei, die Leistung bei Vision-Language-Aufgaben zu steigern.
Zweitens wurde es anhand eines benutzerdefinierten Datensatzes trainiert, der mit Funktionsaufrufen angereichert wurde. Dadurch können Benutzer das Modell mit einem
„Diese besondere Ergänzung verwandelt Nous-Hermes-2-Vision in ein Vision-Language-Aktionsmodell. Entwicklern steht nun ein vielseitiges Tool zur Verfügung, mit dem sie eine Vielzahl genialer Automatisierungen erstellen können“, schreibt das Unternehmen auf der Hugging Face-Seite des Modells.
Weitere zum Training des Modells verwendete Datensätze waren LVIS-INSTRUCT4V, ShareGPT4V und Konversationen von OpenHermes-2.5.
Trotz der Differenzierung bleiben in dieser Phase weiterhin Probleme bestehen
Obwohl das Nous Vision-Language-Modell für Forschung und Entwicklung verfügbar ist, hat die frühe Nutzung gezeigt, dass es alles andere als perfekt ist.
Kurz nach der Veröffentlichung veröffentlichte der Mitbegründer einen Beitrag, in dem er sagte, dass etwas mit dem Modell nicht stimmte und dass es häufig halluzinierte, EOS-Tokens spammte usw. Später wurde das Modell in eine Alpha-Version umbenannt.
„Ich sehe Leute über ‚Halluzinationen‘ reden und ja, es ist ziemlich schlimm. Ich war mir dessen auch bewusst, da es sich bei dem zugrunde liegenden LLM um ein unzensiertes Modell handelt. Ich werde bis Ende des Monats eine aktualisierte Version davon erstellen, um diese Probleme zu lösen“, sagte Quan Nguyen, der wissenschaftliche Mitarbeiter, der die KI-Bemühungen bei Nous leitet. schrieb auf X.
Von VentureBeat im Zusammenhang mit Problemen gesendete Fragen blieben zum Zeitpunkt des Schreibens unbeantwortet.
Allerdings hat Nguyen in einem anderen Beitrag darauf hingewiesen, dass die Funktionsaufruffunktion immer noch gut funktioniert, wenn der Benutzer ein gutes Schema definiert. Er sagte auch, dass er ein spezielles Modell für Funktionsaufrufe einführen werde, wenn das Benutzerfeedback gut genug sei.
Bisher hat Nous Research im Rahmen seiner Serien Hermes, YaRN, Capybara, Puffin und Obsidian 41 Open-Source-Modelle mit unterschiedlichen Architekturen und Funktionen veröffentlicht.
Die Mission von VentureBeat soll ein digitaler Stadtplatz für technische Entscheidungsträger sein, um sich Wissen über transformative Unternehmenstechnologie anzueignen und Transaktionen durchzuführen. Entdecken Sie unsere Briefings.