Microsoft on kasutusele võtnud multimodaalse keelemudeli Otter visuaalse mõistmise jaoks, mis põhineb massiivsel visuaalteksti andmestikul MIMIC-IT
Põgusalt
Otter on OpenFlamingo platvormile ehitatud visuaalse keele mudel (VLM), mis on loodud visuaalse mõistmise muutmiseks ja visuaalse sisuga suhtlemiseks.
Otter on tipptasemel visuaalse keele mudel (VLM), mis on üles ehitatud OpenFlamingo platvormi ja selle eesmärk on parandada seda, kuidas me visuaalse sisuga suhtleme. Osana ambitsioonikast projektist Otter, Microsoft on kasutusele võtnud tohutu õpetlik visuaalteksti andmekogum MIIMIK-IT. See andmestik sisaldab hämmastavalt 2.8 miljonit paari lingitud multimodaalseid juhiseid koos vastustega, sealhulgas 2.2 miljonit unikaalset piltidest ja videotest tuletatud juhist. Andmekogum koostati hoolikalt, et simuleerida loomulikke dialooge, hõlmates stsenaariume, nagu piltide ja videote kirjeldused, piltide võrdlused, küsimustele vastamine, stseeni mõistmine ja palju muud. Need kvaliteetsed juhiste-vastuse paarid loodi võimsate seadmete abil ChatGPT-0301 API, mis esindab ligikaudu 20 XNUMX dollari suurust investeeringut.
MIMIC-IT andmestik mängib Otteri mudeli koolitamisel otsustavat rolli, mis on loodud visuaalsete stseenide, arutluskäikude ja loogiliste järelduste mõistmisel silma paistma. Andmestiku iga käsu-vastuse paariga kaasneb multimodaalne kontekstisisene teave, luues vestluskontekste, mis võimaldavad mudelil tajuda, arutleda ja planeerida nüansse. Annotatsiooniprotsessi laiendamiseks kasutas Microsoft automaatset annotatsioonitoru nimega Syphus, mis ühendab inimeste oskusteadmised GPT et tagada andmestiku kvaliteet ja mitmekesisus.
MIMIC-IT andmestikku kasutades koolitas Microsoft välja Otteri mudeli, OpenFlamingo platvormil põhineva suuremahulise VLM-i. Nägemiskeele võrdlusaluste ulatuslike hindamiste kaudu on Otter näidanud märkimisväärset oskust mitmeliigilise tajumise, arutlemise ja kontekstisisese õppimise vallas. Inimhindamised on näidanud selle võimet tõhusalt vastavusse viia kasutaja kavatsustega, muutes selle hindamatuks vahendiks loomuliku keele juhistel põhinevate keerukate ülesannete tõlgendamisel ja täitmisel.
Otter v0.2 on laiendanud oma võimalusi videosisendite toetamiseks, võimaldades seda protsessi raamid ja mitu pilti kontekstisiseste näidetena.
MIMIC-IT andmestiku avaldamine koos juhiste-vastuste kogumise torustiku, võrdlusnäitajate ja Otteri mudeliga on märkimisväärne verstapost multimodaalse keeletöötluse valdkonnas. Tehes need ressursid teadlastele ja arendajatele kättesaadavaks, soovib Microsoft edendada innovatsiooni ja koostööd, võimaldades Otteri ja OpenFlamingo integreerimist kohandatud koolitus- ja järeldustorudesse, kasutades populaarseid Kallistav nägu Trafode raamistik.
MIMIC-IT andmestik hõlmab laias valikus tegelikke stsenaariume, võimaldades vision-keele mudelitel (VLM) mõista üldisi stseene, põhjendada konteksti ja teha vaatlusi arukalt vahet. See avab võimalusi, näiteks egotsentriliste visuaalabimudelite väljatöötamine, mis suudavad vastata küsimustele, nagu "Hei, kas ma arvate, kas ma jätsin oma võtmed lauale?".
MIMIC-IT ei piirdu ainult inglise keelega. Samuti toetab see mitut keelt, sealhulgas hiina, korea, jaapani, saksa, prantsuse, hispaania ja araabia keelt. See mitmekeelne tugi võimaldab suuremal ülemaailmsel publikul kasu saada tehisintellekti pakutavatest mugavusest ja edusammudest.
Kvaliteetsete juhiste-vastuse paaride genereerimiseks, Microsoft on kasutusele võtnud Syphuse, automatiseeritud torujuhtme, mis sisaldab süsteemisõnumeid, visuaalseid märkusi ja kontekstisiseseid näiteid ChatGPT. See tagab loodud käsu-vastuse paaride usaldusväärsuse ja täpsuse mitmes keeles.
Loe AI kohta lähemalt:
Kaebused
Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.
Umbes Autor
Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.
Veel artikleidDamir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.