Uudiste reportaaž Tehnoloogia
Juuni 12, 2023

Microsoft on kasutusele võtnud multimodaalse keelemudeli Otter visuaalse mõistmise jaoks, mis põhineb massiivsel visuaalteksti andmestikul MIMIC-IT

Põgusalt

Otter on OpenFlamingo platvormile ehitatud visuaalse keele mudel (VLM), mis on loodud visuaalse mõistmise muutmiseks ja visuaalse sisuga suhtlemiseks.

Otter on tipptasemel visuaalse keele mudel (VLM), mis on üles ehitatud OpenFlamingo platvormi ja selle eesmärk on parandada seda, kuidas me visuaalse sisuga suhtleme. Osana ambitsioonikast projektist Otter, Microsoft on kasutusele võtnud tohutu õpetlik visuaalteksti andmekogum MIIMIK-IT. See andmestik sisaldab hämmastavalt 2.8 miljonit paari lingitud multimodaalseid juhiseid koos vastustega, sealhulgas 2.2 miljonit unikaalset piltidest ja videotest tuletatud juhist. Andmekogum koostati hoolikalt, et simuleerida loomulikke dialooge, hõlmates stsenaariume, nagu piltide ja videote kirjeldused, piltide võrdlused, küsimustele vastamine, stseeni mõistmine ja palju muud. Need kvaliteetsed juhiste-vastuse paarid loodi võimsate seadmete abil ChatGPT-0301 API, mis esindab ligikaudu 20 XNUMX dollari suurust investeeringut.

Microsoft on kasutusele võtnud multimodaalse keelemudeli Otter visuaalse mõistmise jaoks, mis põhineb massiivsel visuaalteksti andmestikul MIMIC-IT

MIMIC-IT andmestik mängib Otteri mudeli koolitamisel otsustavat rolli, mis on loodud visuaalsete stseenide, arutluskäikude ja loogiliste järelduste mõistmisel silma paistma. Andmestiku iga käsu-vastuse paariga kaasneb multimodaalne kontekstisisene teave, luues vestluskontekste, mis võimaldavad mudelil tajuda, arutleda ja planeerida nüansse. Annotatsiooniprotsessi laiendamiseks kasutas Microsoft automaatset annotatsioonitoru nimega Syphus, mis ühendab inimeste oskusteadmised GPT et tagada andmestiku kvaliteet ja mitmekesisus.

Microsoft on kasutusele võtnud multimodaalse keelemudeli Otter visuaalse mõistmise jaoks, mis põhineb massiivsel visuaalteksti andmestikul MIMIC-IT

MIMIC-IT andmestikku kasutades koolitas Microsoft välja Otteri mudeli, OpenFlamingo platvormil põhineva suuremahulise VLM-i. Nägemiskeele võrdlusaluste ulatuslike hindamiste kaudu on Otter näidanud märkimisväärset oskust mitmeliigilise tajumise, arutlemise ja kontekstisisese õppimise vallas. Inimhindamised on näidanud selle võimet tõhusalt vastavusse viia kasutaja kavatsustega, muutes selle hindamatuks vahendiks loomuliku keele juhistel põhinevate keerukate ülesannete tõlgendamisel ja täitmisel.

Otter v0.2 on laiendanud oma võimalusi videosisendite toetamiseks, võimaldades seda protsessi raamid ja mitu pilti kontekstisiseste näidetena.

MIMIC-IT andmestiku avaldamine koos juhiste-vastuste kogumise torustiku, võrdlusnäitajate ja Otteri mudeliga on märkimisväärne verstapost multimodaalse keeletöötluse valdkonnas. Tehes need ressursid teadlastele ja arendajatele kättesaadavaks, soovib Microsoft edendada innovatsiooni ja koostööd, võimaldades Otteri ja OpenFlamingo integreerimist kohandatud koolitus- ja järeldustorudesse, kasutades populaarseid Kallistav nägu Trafode raamistik.

MIMIC-IT andmestik hõlmab laias valikus tegelikke stsenaariume, võimaldades vision-keele mudelitel (VLM) mõista üldisi stseene, põhjendada konteksti ja teha vaatlusi arukalt vahet. See avab võimalusi, näiteks egotsentriliste visuaalabimudelite väljatöötamine, mis suudavad vastata küsimustele, nagu "Hei, kas ma arvate, kas ma jätsin oma võtmed lauale?".

MIMIC-IT ei piirdu ainult inglise keelega. Samuti toetab see mitut keelt, sealhulgas hiina, korea, jaapani, saksa, prantsuse, hispaania ja araabia keelt. See mitmekeelne tugi võimaldab suuremal ülemaailmsel publikul kasu saada tehisintellekti pakutavatest mugavusest ja edusammudest.

Kvaliteetsete juhiste-vastuse paaride genereerimiseks, Microsoft on kasutusele võtnud Syphuse, automatiseeritud torujuhtme, mis sisaldab süsteemisõnumeid, visuaalseid märkusi ja kontekstisiseseid näiteid ChatGPT. See tagab loodud käsu-vastuse paaride usaldusväärsuse ja täpsuse mitmes keeles.

Loe AI kohta lähemalt:

Kaebused

Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.

Umbes Autor

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Veel artikleid
Damir Jalalov
Damir Jalalov

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Ripple'ist suure rohelise DAO-ni: kuidas krüptovaluutaprojektid heategevusse panustavad

Uurime algatusi, mis kasutavad digitaalsete valuutade potentsiaali heategevuseks.

Rohkem teada

AlphaFold 3, Med-Gemini ja teised: The Way AI Transforms Healthcare 2024. aastal

AI avaldub tervishoius mitmel viisil, alates uute geneetiliste korrelatsioonide avastamisest kuni robotite kirurgiliste süsteemide võimestamiseni ...

Rohkem teada
Liituge meie uuendusliku tehnikakogukonnaga
Loe rohkem
Loe edasi
Ripple'ist suure rohelise DAO-ni: kuidas krüptovaluutaprojektid heategevusse panustavad
analüüs Crypto Wiki Äri Käsitöö Elustiil turud tarkvara Tehnoloogia
Ripple'ist suure rohelise DAO-ni: kuidas krüptovaluutaprojektid heategevusse panustavad
Võib 13 2024
AlphaFold 3, Med-Gemini ja teised: The Way AI Transforms Healthcare 2024. aastal
AI Wiki analüüs Digest Arvamus Äri turud Uudiste reportaaž tarkvara Lood ja ülevaated Tehnoloogia
AlphaFold 3, Med-Gemini ja teised: The Way AI Transforms Healthcare 2024. aastal
Võib 13 2024
Nim Network võtab kasutusele tehisintellekti omandiõiguse märgistamise raamistiku ja korraldab tootluse müügi hetkeseisuga, mis on kavandatud maiks
turud Uudiste reportaaž Tehnoloogia
Nim Network võtab kasutusele tehisintellekti omandiõiguse märgistamise raamistiku ja korraldab tootluse müügi hetkeseisuga, mis on kavandatud maiks
Võib 13 2024
Binance teeb koostööd Argentinaga küberkuritegevuse vastu võitlemiseks
Arvamus Äri turud Uudiste reportaaž tarkvara Tehnoloogia
Binance teeb koostööd Argentinaga küberkuritegevuse vastu võitlemiseks
Võib 13 2024
CRYPTOMERIA LABS PTE. LTD.