Nieuwsverslag Technologie
12 June 2023

Microsoft heeft multimodaal taalmodel Otter geïntroduceerd voor visueel begrip op basis van de enorme instructieve visuele tekstdataset MIMIC-IT

In het kort

Otter is een visueel taalmodel (VLM) gebouwd op het OpenFlamingo-platform, ontworpen om een ​​revolutie teweeg te brengen in visueel begrip en interactie met visuele inhoud.

Otter is een geavanceerd visueel taalmodel (VLM) gebouwd op de Flamingo openen platform, en het is bedoeld om de manier waarop we omgaan met visuele inhoud te verbeteren. Als onderdeel van het ambitieuze Otter-project heeft Microsoft heeft geïntroduceerd een enorme leerzame dataset met visuele tekst genaamd MIMIC-IT. Deze dataset bevat maar liefst 2.8 miljoen paren gekoppelde multimodale instructies met antwoorden, waaronder 2.2 miljoen unieke instructies afgeleid van afbeeldingen en video's. De dataset is zorgvuldig samengesteld om natuurlijke dialogen te simuleren, met scenario's zoals beeld- en videobeschrijvingen, beeldvergelijkingen, het beantwoorden van vragen, het begrijpen van scènes en meer. Deze hoogwaardige instructie-antwoordparen werden gegenereerd met behulp van de krachtige ChatGPT-0301 API, wat neerkomt op een investering van ongeveer $20.

Microsoft heeft multimodaal taalmodel Otter geïntroduceerd voor visueel begrip op basis van de enorme instructieve visuele tekstdataset MIMIC-IT

De dataset van MIMIC-IT speelt een cruciale rol bij het trainen van het Otter-model, dat is ontworpen om uit te blinken in het begrijpen van visuele scènes, redeneringen en logische conclusies. Elk instructie-antwoordpaar in de dataset gaat vergezeld van multimodale in-contextinformatie, waardoor conversatiecontexten ontstaan ​​die het model in staat stellen de nuances van perceptie, redenering en planning te begrijpen. Om het annotatieproces te schalen, gebruikte Microsoft een automatische annotatiepijplijn genaamd Syphus, die menselijke expertise combineert met de mogelijkheden van GPT om de kwaliteit en diversiteit van de dataset te waarborgen.

Microsoft heeft multimodaal taalmodel Otter geïntroduceerd voor visueel begrip op basis van de enorme instructieve visuele tekstdataset MIMIC-IT

Met behulp van de MIMIC-IT-dataset trainde Microsoft het Otter-model, een grootschalige VLM gebaseerd op het OpenFlamingo-platform. Door middel van uitgebreide evaluaties van benchmarks voor visie-taal heeft Otter blijk gegeven van een opmerkelijke vaardigheid in multimodale perceptie, redenering en in-context leren. Menselijke evaluaties hebben aangetoond dat het in staat is om effectief af te stemmen op de intenties van de gebruiker, waardoor het een hulpmiddel van onschatbare waarde is voor het interpreteren en uitvoeren van complexe taken op basis van instructies in natuurlijke taal.

Otter v0.2 heeft zijn mogelijkheden uitgebreid om video-ingangen te ondersteunen, waardoor dit mogelijk is kaders verwerken en meerdere afbeeldingen als voorbeelden in de context.

De release van de MIMIC-IT-dataset, samen met de pijplijn voor het verzamelen van instructies, benchmarks en het Otter-model, vormt een belangrijke mijlpaal op het gebied van multimodale taalverwerking. Door deze middelen beschikbaar te stellen aan onderzoekers en ontwikkelaars, wil Microsoft innovatie en samenwerking bevorderen, waardoor de integratie van Otter en OpenFlamingo in op maat gemaakte trainings- en inferentiepijplijnen mogelijk wordt gemaakt met behulp van de populaire Gezicht knuffelen Transformers-framework.

De dataset van MIMIC-IT omvat een breed scala aan real-life scenario's, waardoor Vision-Language Models (VLM's) in staat worden gesteld om algemene scènes te begrijpen, te redeneren over context en intelligent onderscheid te maken tussen observaties. Dit opent mogelijkheden, zoals de ontwikkeling van egocentrische visuele assistent-modellen die vragen kunnen beantwoorden als: "Hé, denk je dat ik mijn sleutels op tafel heb laten liggen?".

MIMIC-IT beperkt zich niet tot de Engelse taal. Het ondersteunt ook meerdere talen, waaronder Chinees, Koreaans, Japans, Duits, Frans, Spaans en Arabisch. Dankzij deze meertalige ondersteuning kan een groter wereldwijd publiek profiteren van het gemak en de vooruitgang die AI met zich meebrengt.

Om het genereren van hoogwaardige instructie-responsparen te garanderen, Microsoft heeft Syphus geïntroduceerd, een geautomatiseerde pijplijn die systeemberichten, visuele annotaties en voorbeelden in de context bevat als prompts voor ChatGPT. Dit zorgt voor de betrouwbaarheid en nauwkeurigheid van de gegenereerde instructie-antwoordparen in meerdere talen.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Top 10 gratis AI-tools voor het maken van inhoud, videobewerking en meer
AI Wiki Verteren Onderwijs Lifestyle Software Technologie
Top 10 gratis AI-tools voor het maken van inhoud, videobewerking en meer
14 mei 2024
De Hong Kong Securities Commission waarschuwt voor deepfake-zwendel gericht op de crypto-industrie: implicaties voor de veiligheid van beleggers
Lifestyle Security Wiki Software Verhalen en recensies Technologie
De Hong Kong Securities Commission waarschuwt voor deepfake-zwendel gericht op de crypto-industrie: implicaties voor de veiligheid van beleggers
14 mei 2024
Ripple en Evmos werken samen aan de ontwikkeling van XRP Ledger EVM Sidechain met EvmOS-technologie
Business Nieuwsverslag Technologie
Ripple en Evmos werken samen aan de ontwikkeling van XRP Ledger EVM Sidechain met EvmOS-technologie
14 mei 2024
5ireChain initieert gestimuleerde 'Testnet Thunder: GA' voor netwerkstresstests en nodigt gebruikers uit om deel te nemen Airdrop Beloningen
Nieuwsverslag Technologie
5ireChain initieert gestimuleerde 'Testnet Thunder: GA' voor netwerkstresstests en nodigt gebruikers uit om deel te nemen Airdrop Beloningen
14 mei 2024