Ulat sa Balita Teknolohiya
Marso 15, 2023

Bumuo ang Facebook ng Bagong Paraan para Doblehin ang Pagganap ng AI Transformers

Sa madaling sabi

Nakabuo ang Facebook ng bagong paraan para sa pagdodoble ng performance ng mga AI transformer batay sa arkitektura ng transformer.

Nahanap ng bagong paraan ang pinakakaparehong mga patch sa mga gaps sa pagitan ng pagproseso ng iba't ibang mga bloke at pinagsasama ang mga ito upang mabawasan ang pagiging kumplikado ng computational.

Nakabuo ang Facebook ng isang bagong paraan para sa pagdodoble ng pagganap ng mga transformer ng AI. Ang pamamaraan ay batay sa arkitektura ng transpormer at partikular na idinisenyo para sa mahabang anyo ng teksto tulad ng mga aklat, artikulo, at blog. Ang layunin ng bagong AI transpormer ay pahusayin ang pagganap ng mga modelong nakabatay sa transpormer sa mahabang anyo ng teksto sa pamamagitan ng paggawa ng mga ito na mas mahusay at epektibo sa paghawak ng mahabang pagkakasunud-sunod. Ang mga resulta ng AI transformer ay napaka-promising, at ang bagong paraan na ito ay may pagkakataon na makatulong na mapabuti ang pagganap ng mga modelong nakabatay sa transformer sa iba't ibang gawain.

Ang bagong pamamaraang ito ay inaasahang magkakaroon ng malaking epekto sa mga natural na gawain sa pagproseso ng wika, tulad ng pagsasalin ng wika, pagbubuod, at mga sistema ng pagsagot sa tanong. Inaasahan din na hahantong ito sa pagbuo ng mas sopistikadong mga modelo ng AI na maaaring humawak ng mas mahaba at mas kumplikadong mga teksto.

Ang Facebook ay bumuo ng isang bagong paraan para sa pagdodoble ng pagganap ng mga AI transformer
Magbasa nang higit pa: 10+ Pinakamahusay na AI Photo Editor 2023: Online at Libre

Upang iproseso ang imahe, pinutol ito ng mga modernong transformer sa mga patch (karaniwan ay mga parisukat: tingnan ang gif sa ibaba) at pagkatapos ay gumagana sa mga representasyon ng mga particle na ito, na ang bawat isa ay kinakatawan ng isang "token." Ang mga transformer, gaya ng alam natin, ay gumagana nang mas mabagal sa mas marami sa mga token na pirasong ito (nalalapat ito sa parehong mga teksto at mga larawan), at ang pinakakaraniwang transpormer ay may parisukat na relasyon. Iyon ay, habang mas maraming mga token ang idinagdag, mas mabagal ang pagpoproseso. Upang matugunan ang isyung ito, ang mga mananaliksik ay nagmungkahi ng iba't ibang mga diskarte upang bawasan ang bilang ng mga token na kinakailangan para sa pagproseso ng imahe, tulad ng hierarchical at adaptive pooling. Ang mga pamamaraang ito ay naglalayong mapanatili ang kalidad ng output habang pinapaliit ang gastos sa pagkalkula.

Hinahanap ng bagong paraan ang pinakakaparehong mga patch sa mga gaps sa pagitan ng pagproseso ng iba't ibang mga bloke at pagsamahin ang mga ito upang mabawasan ang pagiging kumplikado ng computational. Ang bahagi ng pinagsamang mga token ay isang hyperparameter; mas mataas ito, mas mababa ang kalidad ngunit mas mataas din ang acceleration. Ipinapakita ng mga eksperimento na posibleng pagsamahin ang humigit-kumulang 40% ng mga token na may pagkawala ng kalidad na 0.1-0.4% at makakuha ng dobleng acceleration (kaya mas mababa ang memorya). Ang bagong paraan na ito ay isang maaasahang solusyon para sa pagbabawas ng computational complexity ng pagpoproseso ng imahe at maaaring magbigay-daan para sa mas mabilis at mas mahusay na pagproseso nang hindi nakompromiso ang kalidad ng panghuling output.

Kapag na-visualize natin kung aling mga patch ang pinagsama-sama natin, makikita natin na ang mga ito ay 1) malapit sa isa't isa at 2) ay naglalarawan ng parehong bagay (tingnan ang mga lugar na may parehong kulay sa GIF). Iyon ay, walang makabuluhang impormasyon ang nawala; ang bagay ay nananatiling "sa larangan ng pagtingin" ng modelo. Sa huli na ito ay inilapat sa transpormer, mas maraming mga token ang pinagsama-sama (dahil ang mga ito ay mas mataas na antas ng mga representasyon na mismong naglalarawan ng nilalaman ng larawan nang maayos).

Ang ganitong mga diskarte sa engineering batay sa talino at pag-unawa kung paano gumagana ang isang bagay ay mukhang napaka-akit. Gayundin, nangangako ang mga developer ng Meta na magdadala ng higit pa sa StableDiffusion upang mapabilis din ang mga bagay doon. Kahanga-hanga na, dahil ang mga transformer ay nasa lahat ng dako, ang mga naturang trick ay mabilis na maipapatupad sa isang malawak na hanay ng mga modelo. Ipinapakita nito ang potensyal para sa mga solusyon sa engineering na magkaroon ng malawak na epekto sa iba't ibang industriya. Ito ay magiging kagiliw-giliw na makita kung paano ang mga pagsulong na ito mga modelo ng transpormer ay patuloy na uunlad at mapapabuti sa paglipas ng panahon.

  • Meta AI at Paperswithcode ay naglabas ng unang 120B na modelong Galactica na sinanay sa mga siyentipikong teksto, na nagbibigay-daan para sa mas tumpak at mas mabilis na mga hula. Ang layunin ng Galactica ay tulungan ang mga mananaliksik na paghiwalayin ang mahalaga sa hindi nauugnay.

Magbasa ng higit pang mga kaugnay na balita:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Pinagsama-sama ng Injective ang AltLayer Upang Magdala ng Restaking Security Sa inEVM
Negosyo Ulat sa Balita Teknolohiya
Pinagsama-sama ng Injective ang AltLayer Upang Magdala ng Restaking Security Sa inEVM
Mayo 3, 2024
Nakipagtulungan ang Masa Sa Teller Upang Ipakilala ang MASA Lending Pool, Pinapagana ang USDC Borrowing On Base
markets Ulat sa Balita Teknolohiya
Nakipagtulungan ang Masa Sa Teller Upang Ipakilala ang MASA Lending Pool, Pinapagana ang USDC Borrowing On Base
Mayo 3, 2024
Inilunsad ng Velodrome ang Superchain Beta na Bersyon Sa Mga Paparating na Linggo At Lumalawak sa OP Stack Layer 2 Blockchain
markets Ulat sa Balita Teknolohiya
Inilunsad ng Velodrome ang Superchain Beta na Bersyon Sa Mga Paparating na Linggo At Lumalawak sa OP Stack Layer 2 Blockchain
Mayo 3, 2024
Inanunsyo ng CARV ang Pakikipagsosyo Sa Aethir Upang I-desentralisa ang Layer ng Data Nito At Ipamahagi ang Mga Gantimpala
Negosyo Ulat sa Balita Teknolohiya
Inanunsyo ng CARV ang Pakikipagsosyo Sa Aethir Upang I-desentralisa ang Layer ng Data Nito At Ipamahagi ang Mga Gantimpala
Mayo 3, 2024
CRYPTOMERIA LABS PTE. LTD.