Ulat sa Balita Teknolohiya
Septiyembre 19, 2023

Ipinakilala ng Google ang Makabagong Generative Image Dynamics na Gayahin ang Mga Dynamic na Eksena sa Mga Static na Larawan

Inihayag ng Google ang isang Generative Image Dynamics, ang isang nobelang diskarte ay nagbibigay-daan sa pagbabago ng a solong static na imahe sa isang tuluy-tuloy na pag-loop na video o isang interactive na dynamic na eksena, na nag-aalok ng malawak na hanay ng mga praktikal na aplikasyon.

Ipinakilala ng Google ang Makabagong Generative Image Dynamics na Gayahin ang Mga Dynamic na Eksena sa Mga Static na Larawan

Sa ubod ng pangunguna na teknolohiyang ito ay ang pagmomodelo ng isang image-space bago ang dynamics ng eksena. Ang layunin ay lumikha ng isang komprehensibong pag-unawa sa kung paano maaaring kumilos ang mga bagay at elemento sa loob ng isang imahe kapag sumailalim sa iba't ibang mga dynamic na pakikipag-ugnayan. Ang pag-unawang ito ay maaaring gamitin upang gayahin ang tugon ng object dynamics sa mga pakikipag-ugnayan ng user nang epektibo.

Ang pangunahing tampok ng teknolohiyang ito ay ang kakayahang makabuo ng tuluy-tuloy na pag-loop ng mga video. Sa pamamagitan ng paggamit ng image-space bago ang dynamics ng eksena, maaaring i-extrapolate at palawakin ng system ng Google ang paggalaw ng mga elemento sa loob ng isang imahe, na ginagawa itong isang mapang-akit at tuluy-tuloy na video loop. Ang functionality na ito ay nagbubukas ng maraming malikhaing posibilidad para sa mga tagalikha at taga-disenyo ng nilalaman.

Ang papel ay nagpapakita ng isang diskarte sa pagmomodelo ng isang image-space bago batay sa dynamics ng eksena, na natutunan mula sa isang koleksyon ng mga motion trajectories na nakuha mula sa totoong mga sequence ng video na naglalaman ng natural, oscillating motion gaya ng mga puno, bulaklak, kandila, at damit na umiihip sa hangin . Gumagamit ang sinanay na modelo ng frequency-coordinated diffusion sampling na proseso upang mahulaan ang isang per-pixel na pangmatagalang representasyon ng paggalaw sa Fourier domain, na tinatawag nilang neural stochastic motion texture. Ang representasyong ito ay maaaring ma-convert sa mga siksikan na kilos na trajectory na sumasaklaw sa isang buong video.

Ang teknolohiya ay nagbibigay-daan sa mga user na makipag-ugnayan sa mga bagay sa loob ng mga static na imahe nang makatotohanan. Sa pamamagitan ng pagtulad sa tugon ng object dynamics sa excitement ng user, pinapayagan ng system ng Google immersive at interactive na mga karanasan sa loob ng mga larawan. Ito ay may potensyal na magbago mga puwang ng metaverse at kung paano nakikipag-ugnayan ang mga user sa visual na nilalaman.

Sinasaliksik ng pag-aaral ang pagmomodelo ng generative prior para sa image-space scene motion, ibig sabihin, ang paggalaw ng lahat ng pixel sa isang larawan. Ang modelo ay sinanay sa mga awtomatikong na-extract na motion trajectory mula sa isang malaking koleksyon ng mga tunay na sequence ng video. Nakakondisyon sa isang input na imahe, hinuhulaan ng sinanay na modelo ang isang neural stochastic motion texture: isang hanay ng mga coefficient ng isang motion basis na nagpapakita ng trajectory ng bawat pixel sa hinaharap.

Ang pundasyon ng pagbabagong ito ay namamalagi sa isang meticulously trained na modelo. Natututo ang modelo ng Google mula sa isang malawak na dataset ng mga motion trajectories na nakuha mula sa mga tunay na sequence ng video na nagtatampok ng natural, oscillating motion. Kasama sa mga sequence na ito ang mga eksenang may mga elemento tulad ng pag-ugoy ng mga puno, mga bulaklak na gumagalaw, pagkutitap ng mga kandila, at pag-ihip ng hangin. Ang magkakaibang dataset na ito ay nagbibigay-daan sa modelo na maunawaan ang isang malawak na hanay ng mga dynamic na gawi.

Ang saklaw ng pag-aaral ay limitado sa mga real-world na eksena na may natural, oscillating dynamics, tulad ng mga puno at bulaklak na gumagalaw sa hangin. Ang seryeng Fourier ay pinili bilang batayan ng mga function. Ang mga nagreresultang frequency-space texture ay maaaring ma-transform sa siksik at mahabang hanay na pixel motion trajectories, na maaaring magamit upang i-synthesize ang hinaharap na mga frame, na gawing makatotohanang mga animation ang mga still image.

Kapag iniharap sa a Iisang larawan, ang sinanay na modelo ay gumagamit ng isang frequency-coordinated diffusion sampling na proseso. Ang prosesong ito ay hinuhulaan ang isang per-pixel na pangmatagalang representasyon ng paggalaw sa Fourier domain, na tinatawag na isang neural stochastic motion texture. Ang representasyong ito ay binago sa mga siksikan na kilos na sumasaklaw sa isang buong video. Kasama ng isang image-based na rendering module, ang mga trajectory na ito ay maaaring gamitin para sa iba't ibang praktikal na aplikasyon.

Kung ikukumpara sa priors over raw RGB pixels, priors over motion capture ang mas basic, lower-dimensional under-dimensional na istraktura na mahusay na nagpapaliwanag ng mga variation sa mga pixel value. Ito ay humahantong sa mas magkakaugnay na pangmatagalang henerasyon at mas pinong kontrol sa mga animation kumpara sa mga naunang pamamaraan na gumaganap animation ng imahe sa pamamagitan ng raw video synthesis.

Ang nabuong representasyon ng paggalaw ay maginhawa para sa isang bilang ng mga downstream na application, tulad ng paggawa ng tuluy-tuloy na pag-loop na mga video, pag-edit ng nabuong paggalaw, at pagpapagana ng interactive mga dynamic na imahe, ginagaya ang tugon ng object dynamics sa mga puwersang inilapat ng user.

Magbasa ng higit pang mga kaugnay na paksa:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mula sa Ripple hanggang sa The Big Green DAO: Paano Nag-aambag ang Mga Proyekto ng Cryptocurrency sa Charity

Tuklasin natin ang mga hakbangin na gumagamit ng potensyal ng mga digital na pera para sa mga layuning pangkawanggawa.

Malaman Higit Pa

AlphaFold 3, Med-Gemini, at iba pa: The Way AI Transforms Healthcare in 2024

Ang AI ay nagpapakita sa iba't ibang paraan sa pangangalagang pangkalusugan, mula sa pagtuklas ng mga bagong genetic correlations hanggang sa pagpapalakas ng mga robotic surgical system ...

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Mula sa Ripple hanggang sa The Big Green DAO: Paano Nag-aambag ang Mga Proyekto ng Cryptocurrency sa Charity
Pagsusuri crypto Wiki Negosyo Edukasyon Pamumuhay markets software Teknolohiya
Mula sa Ripple hanggang sa The Big Green DAO: Paano Nag-aambag ang Mga Proyekto ng Cryptocurrency sa Charity
Mayo 13, 2024
AlphaFold 3, Med-Gemini, at iba pa: The Way AI Transforms Healthcare in 2024
AI Wiki Pagsusuri Digest Palagay Negosyo markets Ulat sa Balita software Mga Kuwento at Pagsusuri Teknolohiya
AlphaFold 3, Med-Gemini, at iba pa: The Way AI Transforms Healthcare in 2024
Mayo 13, 2024
Nim Network Upang Ilunsad ang AI Ownership Tokenization Framework At Magsagawa ng Yield Sale Sa Snapshot Date na Naka-iskedyul Para sa Mayo
markets Ulat sa Balita Teknolohiya
Nim Network Upang Ilunsad ang AI Ownership Tokenization Framework At Magsagawa ng Yield Sale Sa Snapshot Date na Naka-iskedyul Para sa Mayo
Mayo 13, 2024
Nakipagtulungan ang Binance sa Argentina para Labanan ang Cybercrime
Palagay Negosyo markets Ulat sa Balita software Teknolohiya
Nakipagtulungan ang Binance sa Argentina para Labanan ang Cybercrime
Mayo 13, 2024
CRYPTOMERIA LABS PTE. LTD.