Ulat sa Balita Teknolohiya
Nobyembre 23, 2022

Iniharap ng Sber AI ang Kandinsky 2.0, ang unang text-to-image na modelo para sa pagbuo sa higit sa 100 mga wika

Sa madaling sabi

Ang Kandinsky 2.0, ang unang multilingguwal na diffusion model, ay ginawa at sinanay ng mga mananaliksik ng Sber AI sa tulong ng mga mananaliksik mula sa AI Institute of Artificial Intelligence gamit ang pinagsamang dataset ng 1 bilyong text-image na pares mula sa Sber AI at SberDevices

Ang pagsasabog ay lalong pinapalitan ang mga GAN at autoregressive na modelo sa isang bilang ng mga digital na gawain sa pagproseso ng imahe. Hindi ito nakakagulat dahil ang diffusion ay mas madaling matutunan, hindi nangangailangan ng kumplikadong pagpili ng mga hyperparameter, min-max na pag-optimize, at hindi nagdurusa sa kawalan ng katatagan ng pag-aaral. At higit sa lahat, ang mga modelo ng pagsasabog ay nagpapakita ng mga makabagong resulta sa halos lahat ng mga gawaing nakakalikha — pagbuo ng imahe sa pamamagitan ng teksto, pagbuo ng tunog, video, at maging 3D.

Iniharap ng Sber AI ang Kandinsky 2.0, ang unang text-to-image na modelo para sa pagbuo sa higit sa 100 mga wika
Ang imahe na nilikha ng Kandinsky AI

Sa kasamaang palad, karamihan sa mga gawain sa larangan ng text-to-something ay nakatuon lamang sa English at Chinese. Upang itama ang kawalang-katarungang ito, Sber AI nagpasya na lumikha isang multilingguwal na text-to-image diffusion model Kandinsky 2.0, na nakakaintindi ng mga query sa mahigit 100 wika. Hugging Mukha nag-aalok na ng Kandinsky 2.0. Ang mga mananaliksik mula sa SberAI at SberDevices ay mayroon nakipagtulungan kasama ang mga eksperto mula sa AI Institute of Artificial Intelligence sa proyektong ito.

Ano ang pagsasabog?

Sa artikulong 2015 Deep Unsupervised Learning gamit ang Nonequilibrium Thermodynamics, ang mga modelo ng diffusion ay unang inilarawan bilang ang pagkilos ng paghahalo ng isang substance na nagreresulta sa diffusion, na nagpapapantay sa pamamahagi. Tulad ng ipinahihiwatig ng pamagat ng artikulo, nilapitan nila ang paliwanag ng mga modelo ng pagsasabog sa pamamagitan ng balangkas ng thermodynamics.

Sa kaso ng mga imahe, ang ganitong proseso ay maaaring maging katulad, halimbawa, unti-unting pag-alis ng Gaussian noise mula sa imahe.

Ang papel na Mga Modelo ng Diffusion Matalo Ang mga GAN sa Image Synthesis, na inilathala noong 2021, ang unang nagpakita ng kahusayan ng mga modelo ng pagsasabog kaysa sa GANS. Ginawa rin ng mga may-akda ang unang henerasyong control approach (conditioning), na pinangalanan nilang classifier guidance. Lumilikha ang paraang ito ng mga bagay na akma sa nilalayong klase gamit ang mga gradient mula sa ibang classifier (halimbawa, mga aso). Sa pamamagitan ng mekanismo ng Adaptive Group Norm, na kinabibilangan ng pagtataya ng mga koepisyent ng normalisasyon, ang kontrol mismo ay isinasagawa.

Ang artikulong ito ay makikita bilang isang turning point sa larangan ng generative AI, na humahantong sa marami na bumaling sa pag-aaral ng diffusion. Mga bagong artikulo tungkol sa text-to-video, text-to-3D, larawan pagpinta, pagbuo ng audio, pagsasabog para sa superresolution, at maging ang pagbuo ng paggalaw ay nagsimulang lumitaw bawat ilang linggo.

Pagsasabog ng text-to-image

Tulad ng nabanggit namin kanina, ang pagbabawas ng ingay at pag-aalis ng ingay ay karaniwang mga pangunahing bahagi ng mga proseso ng pagsasabog sa konteksto ng mga modalidad ng imahe, kaya ang UNet at ang maraming mga pagkakaiba-iba nito ay madalas na ginagamit bilang pangunahing arkitektura.

Pagsasabog ng text-to-image
Pagsasabog ng text-to-image

Mahalaga na ang tekstong ito ay isaalang-alang sa ilang paraan sa panahon ng henerasyon upang makalikha ng isang imahe batay dito. Ang mga may-akda ng OpenAI Iminungkahi ng artikulo sa modelong GLIDE na baguhin ang paraan ng paggabay na walang classifier para sa teksto.

Ang paggamit ng mga nakapirming pre-irradiated text encoder at ang mekanismo ng pagpapahusay ng cascade resolution sa hinaharap ay lubos na nagpahusay sa produksyon ng teksto (Larawan). Ito ay lumabas na hindi na kailangang sanayin ang bahagi ng teksto ng mga modelo ng text-to-image dahil ang paggamit ng nakapirming T5-xxl ay nagresulta sa makabuluhang pinahusay na kalidad ng imahe at pag-unawa sa teksto at gumamit ng mas kaunting mga mapagkukunan ng pagsasanay.

Ang mga may-akda ng isang Latent Diffusion Ipinakita ng artikulo na ang bahagi ng larawan ay talagang hindi nangangailangan ng pagsasanay (hindi bababa sa hindi ganap). Mas mabilis na magpapatuloy ang pag-aaral kung gagamit tayo ng makapangyarihang autoencoder ng imahe (VQ-VAE o KL-VAE) bilang visual decoder at susubukang bumuo ng mga pag-embed mula sa latent space nito sa pamamagitan ng diffusion kaysa sa mismong larawan. Ang pamamaraang ito ay ang pundasyon din ng kamakailang inilabas Stable Diffusion modelo.

Kandinsky 2.0 AI model

Sa ilang mahahalagang pagpapabuti, ang Kandinsky 2.0 ay batay sa isang pinahusay na pamamaraan ng Latent Diffusion (hindi kami gumagawa ng mga imahe, ngunit sa halip ang kanilang mga nakatago na vector):

  • Gumamit ng dalawang multilingguwal na text encoder at pinagsama ang kanilang mga pag-embed.
  • Nagdagdag ng UNet (1.2 bilyong parameter).
  • Sampling procedure dynamic thresholding.
Kandinsky 2.0 AI model
Kandinsky 2.0 AI model

Gumamit ang mga mananaliksik ng dalawang multilingual na encoder nang sabay-sabay—XLMR-clip at mT5-small—upang gawin ang modelo multilingual talaga. Samakatuwid, bilang karagdagan sa English, Russian, French, at German, naiintindihan din ng modelo ang mga wika tulad ng Mongolian, Hebrew, at Farsi. Alam ng AI ang kabuuang 101 wika. Bakit napagpasyahan na i-encode ang teksto gamit ang dalawang modelo nang sabay-sabay? Dahil ang XLMR-clip ay nakakita ng mga larawan at nagbibigay ng malalapit na pag-embed para sa iba't ibang wika, at ang mT5-small ay may kakayahang maunawaan ang mga kumplikadong teksto, ang mga modelong ito ay may iba't ibang mga tampok. Dahil ang parehong mga modelo ay mayroon lamang isang maliit na bilang ng mga parameter (560M at 146M), tulad ng ipinakita ng aming mga paunang pagsubok, napagpasyahan na gumamit ng dalawang encoder nang sabay-sabay.

Mga bagong nabuong larawan ng Kandinsky 2.0 AI model sa ibaba:

Paano ginawa ang Kandinsky 2.0 model training?

Ang mga Christofari supercomputer ay ginamit para sa pagsasanay sa ML Space platform. Nangangailangan ito ng 196 NVIDIA A100 card, bawat isa ay may 80 GB ng RAM. Tumagal ng 14 na araw, o 65,856 GPU-hours, upang makumpleto ang pagsasanay. Ang pagsusuri ay tumagal ng limang araw sa 256×256 resolution, na sinundan ng anim na araw sa 512×512 resolution, pagkatapos ay karagdagang tatlong araw sa purest data.

Bilang data ng pagsasanay, maraming dataset ang pinagsama-sama na na-pre-filter para sa mga watermark, mababang resolution, at mababang pagsunod sa paglalarawan ng text na sinusukat ng CLIP-score metric.

Multilingual na henerasyon

Ang Kandinsky 2.0 ay ang unang multilingguwal na modelo para sa paglikha ng mga larawan mula sa mga salita, na nagbibigay sa amin ng unang pagkakataon upang masuri ang mga pagbabago sa wika at biswal sa mga kultura ng wika. Ang mga resulta ng pagsasalin ng parehong query sa ilang mga wika ay ipinapakita sa ibaba. Halimbawa, ang mga puting lalaki lang ang lumalabas sa mga resulta ng henerasyon para sa Russian query na "isang taong may mas mataas na edukasyon," habang ang mga resulta para sa pagsasalin sa French, "Photo d'une personne diplômée de l'enseignement supérieur," ay mas sari-sari. Nais kong ituro na ang mga nalulungkot na tao na may mas mataas na edukasyon ay naroroon lamang sa edisyon sa wikang Ruso.

Multilingual na henerasyon
Prompt: ang magnanakaw (1. Russian, 2. English, 3. Hindi)
Multilingual na henerasyon
Prompt: isang taong may mas mataas na edukasyon (1. Russian, 2. French, 3. Chinese)
Multilingual na henerasyon
Prompt: isang pambansang ulam (1. Russian, 2. Japanese, 3. Hindi)

Bagama't mayroon pa ring isang toneladang pagsubok na may malalaking modelo ng wika at iba't ibang pamamaraan ng proseso ng pagsasabog na binalak, maaari na nating sabihin nang may kumpiyansa na ang Kandinsky 2.0 ay ang unang modelong ganap na multilinggwal na pagpapalaganap! Sa Website ng FusionBrain at google colab, maaari kang makakita ng mga halimbawa ng kanyang mga guhit.

Magbasa pa tungkol sa AI:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa

Ang Mga Tagapagtatag ng Samourai Wallet ay Inakusahan na Nagpapadali ng $2B sa Darknet Deals

Ang pangamba ng mga tagapagtatag ng Samourai Wallet ay kumakatawan sa isang kapansin-pansing pag-urong para sa industriya, na binibigyang-diin ang patuloy na ...

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Ang Miyembro ng Legislative Council ng Hong Kong na si Wu Jiezhuang ay Nag-signal ng Civil Suit Laban sa JPEX Crypto Exchange
Negosyo Ulat sa Balita Teknolohiya
Ang Miyembro ng Legislative Council ng Hong Kong na si Wu Jiezhuang ay Nag-signal ng Civil Suit Laban sa JPEX Crypto Exchange
Mayo 2, 2024
Pumasok ang AltLayer sa Ikalawang Yugto ng Inisyatiba nito sa Staking, Ipinakilala ang reALT Token
markets Ulat sa Balita Teknolohiya
Pumasok ang AltLayer sa Ikalawang Yugto ng Inisyatiba nito sa Staking, Ipinakilala ang reALT Token
Mayo 2, 2024
Inilabas ng BNB Chain ang Q1 2024 na Ulat, Itinatampok ang 55.8% na Pagbawas sa Pagkawala Nito sa Halaga, Habang ang BSC TVL ay Tumataas Ng 70.8%
markets Ulat sa Balita Teknolohiya
Inilabas ng BNB Chain ang Q1 2024 na Ulat, Itinatampok ang 55.8% na Pagbawas sa Pagkawala Nito sa Halaga, Habang ang BSC TVL ay Tumataas Ng 70.8%
Mayo 2, 2024
Naver at Kakao's Kaia: Ang Bagong Asian Blockchain Powerhouse na Nakahanda upang Guluhin ang Global Crypto Markets
Negosyo software Mga Kuwento at Pagsusuri Teknolohiya
Naver at Kakao's Kaia: Ang Bagong Asian Blockchain Powerhouse na Nakahanda upang Guluhin ang Global Crypto Markets
Mayo 2, 2024
CRYPTOMERIA LABS PTE. LTD.