Facebook kehittää uutta menetelmää tekoälymuuntajien suorituskyvyn kaksinkertaistamiseksi
Lyhyesti
Facebook on kehittänyt muuntajaarkkitehtuuriin perustuvan uuden menetelmän tekoälymuuntajien suorituskyvyn kaksinkertaistamiseksi.
Uusi menetelmä löytää samankaltaisimmat paikat eri lohkojen käsittelyn välisistä aukoista ja yhdistää ne laskennan monimutkaisuuden vähentämiseksi.
Facebook on kehittänyt a Uusi menetelmä AI-muuntajien suorituskyvyn kaksinkertaistamiseen. Menetelmä on perustuu muuntajan arkkitehtuuriin ja se on suunniteltu erityisesti pitkälle tekstille, kuten kirjoille, artikkeleille ja blogeille. Uuden AI-muuntajan tavoitteena on parantaa suorituskykyä muuntajapohjaiset mallit pitkäkestoiseen tekstiin tekemällä niistä tehokkaampia ja tehokkaampia pitkien sekvenssien käsittelyssä. Tekoälymuuntajan tulokset ovat erittäin lupaavia, ja tällä uudella menetelmällä on mahdollisuus parantaa muuntajapohjaisten mallien suorituskykyä erilaisissa tehtävissä.
Tällä uudella menetelmällä odotetaan olevan merkittävä vaikutus luonnollisen kielen käsittelytehtäviin, kuten kielenkäännös-, yhteenveto- ja kysymysvastausjärjestelmiin. Sen odotetaan myös johtavan kehittyneempien tekoälymallien kehittämiseen, jotka pystyvät käsittelemään pidempiä ja monimutkaisempia tekstejä.
Käsitelläkseen kuvan nykyaikaiset muuntajat leikkaavat sen laastareiksi (yleensä neliöiksi: katso alla oleva gif) ja käyttävät sitten näiden hiukkasten esityksiä, joista jokaista edustaa "tunnus". Kuten tiedämme, muuntajat toimivat hitaammin mitä enemmän näitä merkkipaloja on (tämä koskee sekä tekstejä että kuvia), ja yleisimmällä muuntajalla on neliösuhde. Eli mitä enemmän tunnuksia lisätään, sitä hitaammaksi käsittely muuttuu. Tämän ongelman ratkaisemiseksi tutkijat ovat ehdottaneet erilaisia tekniikoita kuvankäsittelyyn tarvittavien merkkien määrän vähentämiseksi, kuten hierarkkista ja mukautuvaa yhdistämistä. Näillä menetelmillä pyritään säilyttämään tuotoksen laatu ja minimoimaan laskennalliset kustannukset.
Uusi menetelmä löytää samankaltaisimmat paikat eri lohkojen käsittelyn välisistä aukoista ja yhdistää ne laskennan monimutkaisuuden vähentämiseksi. Yhdistettyjen merkkien osuus on hyperparametri; mitä korkeampi se on, sitä huonompi laatu, mutta myös suurempi kiihtyvyys. Kokeet osoittavat, että on mahdollista yhdistää noin 40 % tokeneista 0.1-0.4 %:n laatuhäviöllä ja saada kaksinkertainen kiihtyvyys (siis kuluttaa vähemmän muistia). Tämä uusi menetelmä on lupaava ratkaisu kuvankäsittelyn laskennallisen monimutkaisuuden vähentämiseen ja mahdollistaa nopeamman ja tehokkaamman käsittelyn ilman, että lopputuloksen laatu vaarantuu.
Tällaiset insinöörityöt, jotka perustuvat kekseliäisyyteen ja jonkin toiminnan ymmärtämiseen, näyttävät erittäin houkuttelevilta. Myös Metan kehittäjät lupaavat tuoda lisää StableDiffusioniin nopeuttaakseen toimintaa myös siellä. On mahtavaa, että koska muuntajia on kaikkialla, tällaisia temppuja voidaan nopeasti toteuttaa monenlaisissa malleissa. Tämä osoittaa, että suunnitteluratkaisuilla on laaja vaikutus eri toimialoilla. On mielenkiintoista nähdä, miten nämä edistysaskeleet etenevät muuntajan mallit kehittyy ja paranee ajan myötä.
- Meta AI ja Paperswithcode ovat julkaisseet ensimmäisen 120B-mallin Galactica, joka on koulutettu tieteellisiin teksteihin, mikä mahdollistaa tarkempien ja nopeampien ennusteiden tekemisen. Galactican tavoitteena on auttaa tutkijoita erottamaan tärkeät merkityksettömät.
Lue lisää aiheeseen liittyviä uutisia:
Vastuun kieltäminen
Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.
Author
Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.
lisää artikkeleitaDamir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.