Nachrichtenbericht Technologie
12. Juni 2023

Microsoft hat das multimodale Sprachmodell Otter für visuelles Verständnis basierend auf dem umfangreichen instruktiven Visual-Text-Datensatz MIMIC-IT eingeführt

In Kürze

Otter ist ein visuelles Sprachmodell (VLM), das auf der OpenFlamingo-Plattform basiert und darauf ausgelegt ist, das visuelle Verständnis und die Interaktion mit visuellen Inhalten zu revolutionieren.

Otter ist ein hochmodernes visuelles Sprachmodell (VLM), das auf dem basiert ÖffnenFlamingo Plattform und soll die Art und Weise verbessern, wie wir mit visuellen Inhalten interagieren. Im Rahmen des ehrgeizigen Otter-Projekts hat Microsoft hat vorgestellt ein riesiger lehrreicher visueller Textdatensatz namens MIMIC-IT. Dieser Datensatz enthält unglaubliche 2.8 Millionen Paare verknüpfter multimodaler Anweisungen mit Antworten, darunter 2.2 Millionen einzigartige Anweisungen, die aus Bildern und Videos abgeleitet sind. Der Datensatz wurde sorgfältig zusammengestellt, um natürliche Dialoge zu simulieren und Szenarien wie Bild- und Videobeschreibungen, Bildvergleiche, Fragen-Antworten, Szenenverständnis und mehr abzudecken. Diese hochwertigen Befehls-Antwort-Paare wurden mit dem leistungsstarken generiert ChatGPT-0301 API, was einer Investition von etwa 20 US-Dollar entspricht.

Microsoft hat das multimodale Sprachmodell Otter für visuelles Verständnis basierend auf dem umfangreichen instruktiven Visual-Text-Datensatz MIMIC-IT eingeführt

Der MIMIC-IT-Datensatz spielt eine entscheidende Rolle beim Training des Otter-Modells, das darauf ausgelegt ist, visuelle Szenen, Argumente und logische Schlussfolgerungen zu verstehen. Jedes Anweisungs-Antwort-Paar im Datensatz wird von multimodalen Kontextinformationen begleitet, wodurch Gesprächskontexte entstehen, die es dem Modell ermöglichen, die Nuancen der Wahrnehmung, des Denkens und der Planung zu erfassen. Um den Annotationsprozess zu skalieren, setzte Microsoft eine automatische Annotation-Pipeline namens Syphus ein, die menschliches Fachwissen mit den Fähigkeiten von kombiniert GPT um die Qualität und Vielfalt des Datensatzes sicherzustellen.

Microsoft hat das multimodale Sprachmodell Otter für visuelles Verständnis basierend auf dem umfangreichen instruktiven Visual-Text-Datensatz MIMIC-IT eingeführt

Mithilfe des MIMIC-IT-Datensatzes trainierte Microsoft das Otter-Modell, ein groß angelegtes VLM, das auf der OpenFlamingo-Plattform basiert. Durch umfangreiche Auswertungen zu Vision-Language-Benchmarks hat Otter bemerkenswerte Kompetenzen in multimodaler Wahrnehmung, Argumentation und kontextbezogenem Lernen unter Beweis gestellt. Menschliche Untersuchungen haben gezeigt, dass es in der Lage ist, sich effektiv an die Absichten des Benutzers anzupassen, was es zu einem unschätzbar wertvollen Werkzeug für die Interpretation und Ausführung komplexer Aufgaben auf der Grundlage natürlichsprachlicher Anweisungen macht.

Otter v0.2 hat seine Fähigkeiten um die Unterstützung von Videoeingängen erweitert und ermöglicht dies Prozessrahmen und mehrere Bilder als kontextbezogene Beispiele.

Die Veröffentlichung des MIMIC-IT-Datensatzes stellt zusammen mit der Instruction-Response-Collection-Pipeline, Benchmarks und dem Otter-Modell einen bedeutenden Meilenstein auf dem Gebiet der multimodalen Sprachverarbeitung dar. Indem Microsoft diese Ressourcen Forschern und Entwicklern zur Verfügung stellt, möchte Microsoft Innovation und Zusammenarbeit fördern und die Integration von Otter und OpenFlamingo in maßgeschneiderte Trainings- und Inferenz-Pipelines unter Verwendung beliebter Technologien ermöglichen Gesicht umarmen Transformers-Framework.

Der MIMIC-IT-Datensatz umfasst ein breites Spektrum realer Szenarien und ermöglicht es Vision-Language-Modellen (VLMs), allgemeine Szenen zu verstehen, über den Kontext nachzudenken und zwischen Beobachtungen intelligent zu unterscheiden. Dies eröffnet Möglichkeiten, beispielsweise die Entwicklung egozentrischer visueller Assistentenmodelle, die Fragen wie „Hey, denkst du, ich habe meine Schlüssel auf dem Tisch gelassen?“ beantworten können.

MIMIC-IT ist nicht auf die englische Sprache beschränkt. Es unterstützt auch mehrere Sprachen, darunter Chinesisch, Koreanisch, Japanisch, Deutsch, Französisch, Spanisch und Arabisch. Diese mehrsprachige Unterstützung ermöglicht es einem größeren globalen Publikum, von den Annehmlichkeiten und Fortschritten der KI zu profitieren.

Um die Generierung qualitativ hochwertiger Befehls-Antwort-Paare sicherzustellen, Microsoft hat Syphus eingeführt, eine automatisierte Pipeline, die Systemmeldungen, visuelle Anmerkungen und kontextbezogene Beispiele als Eingabeaufforderungen enthält ChatGPT. Dies stellt die Zuverlässigkeit und Genauigkeit der generierten Befehls-Antwort-Paare über mehrere Sprachen hinweg sicher.

Lesen Sie mehr über KI:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Von Ripple zum Big Green DAO: Wie Kryptowährungsprojekte zur Wohltätigkeit beitragen

Lassen Sie uns Initiativen erkunden, die das Potenzial digitaler Währungen für wohltätige Zwecke nutzen.

Weitere Informationen

AlphaFold 3, Med-Gemini und andere: Die Art und Weise, wie KI das Gesundheitswesen im Jahr 2024 verändert

KI manifestiert sich im Gesundheitswesen auf verschiedene Weise, von der Aufdeckung neuer genetischer Zusammenhänge bis hin zur Stärkung robotergestützter chirurgischer Systeme ...

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Von Ripple zum Big Green DAO: Wie Kryptowährungsprojekte zur Wohltätigkeit beitragen
Analyse Crypto Wiki Geschäft Bildungswesen Lifestyle Märkte Software Technologie
Von Ripple zum Big Green DAO: Wie Kryptowährungsprojekte zur Wohltätigkeit beitragen
13. Mai 2024
AlphaFold 3, Med-Gemini und andere: Die Art und Weise, wie KI das Gesundheitswesen im Jahr 2024 verändert
AI Wiki Analyse Digest Meinung Geschäft Märkte Nachrichtenbericht Software Geschichten und Rezensionen Technologie
AlphaFold 3, Med-Gemini und andere: Die Art und Weise, wie KI das Gesundheitswesen im Jahr 2024 verändert
13. Mai 2024
Nim Network führt ein AI-Ownership-Tokenization-Framework ein und führt einen Yield-Sale durch. Der Snapshot-Termin ist für Mai geplant
Märkte Nachrichtenbericht Technologie
Nim Network führt ein AI-Ownership-Tokenization-Framework ein und führt einen Yield-Sale durch. Der Snapshot-Termin ist für Mai geplant
13. Mai 2024
Binance arbeitet mit Argentinien zur Bekämpfung der Cyberkriminalität zusammen
Meinung Geschäft Märkte Nachrichtenbericht Software Technologie
Binance arbeitet mit Argentinien zur Bekämpfung der Cyberkriminalität zusammen
13. Mai 2024