Notizie Tecnologia
12 Giugno 2023

Microsoft ha introdotto il modello di linguaggio multimodale Otter per la comprensione visiva basato sull'enorme set di dati di testo visivo MIMIC-IT

In Breve

Otter è un modello di linguaggio visivo (VLM) costruito sulla piattaforma OpenFlamingo, progettato per rivoluzionare la comprensione visiva e interagire con i contenuti visivi.

lontra è un modello di linguaggio visivo all'avanguardia (VLM) basato su ApriFenicottero piattaforma, ed è destinata a migliorare il modo in cui interagiamo con i contenuti visivi. Nell'ambito dell'ambizioso progetto Otter, Microsoft ha introdotto un enorme set di dati di testo visivo istruttivo chiamato IMIMALO. Questo set di dati contiene l'incredibile cifra di 2.8 milioni di coppie di istruzioni multimodali collegate con risposte, inclusi 2.2 milioni di istruzioni univoche derivate da immagini e video. Il set di dati è stato meticolosamente curato per simulare dialoghi naturali, coprendo scenari come descrizioni di immagini e video, confronti di immagini, risposte alle domande, comprensione della scena e altro ancora. Queste coppie istruzione-risposta di alta qualità sono state generate utilizzando il potente ChatGPT-0301 API, che rappresenta un investimento di circa $ 20.

Microsoft ha introdotto il modello di linguaggio multimodale Otter per la comprensione visiva basato sull'enorme set di dati di testo visivo MIMIC-IT

Il set di dati MIMIC-IT svolge un ruolo cruciale nell'addestramento del modello Otter, che è stato progettato per eccellere nella comprensione di scene visive, ragionamento e conclusioni logiche. Ogni coppia istruzione-risposta nel set di dati è accompagnata da informazioni contestuali multimodali, creando contesti conversazionali che consentono al modello di cogliere le sfumature della percezione, del ragionamento e della pianificazione. Per ridimensionare il processo di annotazione, Microsoft ha utilizzato una pipeline di annotazione automatica denominata Syphus, che combina l'esperienza umana con le capacità di GPT per garantire la qualità e la diversità del set di dati.

Microsoft ha introdotto il modello di linguaggio multimodale Otter per la comprensione visiva basato sull'enorme set di dati di testo visivo MIMIC-IT

Utilizzando il set di dati MIMIC-IT, Microsoft ha addestrato il modello Otter, un VLM su larga scala basato sulla piattaforma OpenFlamingo. Attraverso ampie valutazioni sui benchmark del linguaggio visivo, Otter ha dimostrato una notevole competenza nella percezione multimodale, nel ragionamento e nell'apprendimento contestuale. Le valutazioni umane hanno rivelato la sua capacità di allinearsi efficacemente con le intenzioni dell'utente, rendendolo uno strumento prezioso per interpretare ed eseguire compiti complessi basati su istruzioni in linguaggio naturale.

Otter v0.2 ha ampliato le sue capacità per supportare gli input video, permettendoglielo frame di processo e più immagini come esempi contestuali.

Il rilascio del set di dati MIMIC-IT, insieme alla pipeline di raccolta istruzione-risposta, ai benchmark e al modello Otter, rappresenta una pietra miliare significativa nel campo dell'elaborazione del linguaggio multimodale. Mettendo queste risorse a disposizione di ricercatori e sviluppatori, Microsoft mira a favorire l'innovazione e la collaborazione, consentendo l'integrazione di Otter e OpenFlamingo in pipeline di formazione e inferenza personalizzate utilizzando il popolare Abbracciare il viso Quadro dei trasformatori.

Il set di dati MIMIC-IT comprende un'ampia gamma di scenari di vita reale, consentendo ai modelli VLM (Vision-Language Models) di comprendere scene generali, ragionare sul contesto e differenziare in modo intelligente tra le osservazioni. Ciò apre possibilità, come lo sviluppo di modelli egocentrici di assistenti visivi in ​​grado di rispondere a domande come "Ehi, pensi che abbia lasciato le chiavi sul tavolo?".

MIMIC-IT non è limitato alla lingua inglese. Supporta anche più lingue, tra cui cinese, coreano, giapponese, tedesco, francese, spagnolo e arabo. Questo supporto multilingue consente a un pubblico globale più ampio di beneficiare della praticità e dei progressi apportati dall'IA.

Per garantire la generazione di coppie istruzione-risposta di alta qualità, Microsoft ha introdotto Syphus, una pipeline automatizzata che incorpora messaggi di sistema, annotazioni visive ed esempi contestuali come prompt per ChatGPT. Ciò garantisce l'affidabilità e l'accuratezza delle coppie istruzione-risposta generate in più lingue.

Per saperne di più sull'intelligenza artificiale:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Notcoin prevede di distribuire il 5% della sua fornitura di token a 500,000 membri della comunità e utenti di Crypto Exchange
Mercati Notizie Tecnologia
Notcoin prevede di distribuire il 5% della sua fornitura di token a 500,000 membri della comunità e utenti di Crypto Exchange
13 Maggio 2024
Il passaggio di Donald Trump alle criptovalute: da oppositore a sostenitore e cosa significa per il mercato statunitense delle criptovalute
Affari Mercati Storie e recensioni Tecnologia
Il passaggio di Donald Trump alle criptovalute: da oppositore a sostenitore e cosa significa per il mercato statunitense delle criptovalute
10 Maggio 2024
Layer3 lancerà il token L3 quest'estate, assegnando il 51% della fornitura totale alla comunità
Mercati Notizie Tecnologia
Layer3 lancerà il token L3 quest'estate, assegnando il 51% della fornitura totale alla comunità
10 Maggio 2024
Ultimo avvertimento di Edward Snowden agli sviluppatori Bitcoin: "Rendete la privacy una priorità a livello di protocollo o rischiate di perderla"
Mercati Sicurezza Wiki Software Storie e recensioni Tecnologia
Ultimo avvertimento di Edward Snowden agli sviluppatori Bitcoin: "Rendete la privacy una priorità a livello di protocollo o rischiate di perderla"
10 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.