Tudósítást Technológia
19. szeptember 2023.

A Google innovatív generatív képdinamikát mutat be, amely dinamikus jeleneteket szimulál statikus képekben

A Google bemutatta a Generatív képdinamika, egy újszerű megközelítés lehetővé teszi az a egyetlen statikus kép zökkenőmentes hurkolt videóvá vagy egy interaktív dinamikus jelenet, amely gyakorlati alkalmazások széles skáláját kínálja.

A Google innovatív generatív képdinamikát mutat be, amely dinamikus jeleneteket szimulál statikus képekben

Ennek az úttörő technológiának a lényege a képtér modellezése a jelenet dinamikáját megelőzően. A cél az, hogy átfogó képet alkossunk arról, hogyan viselkedhetnek a képen belüli tárgyak és elemek, amikor különféle dinamikus kölcsönhatásoknak vannak kitéve. Ez a felfogás azután felhasználható az objektum dinamikájának a felhasználói interakciókra adott válaszának hatékony szimulálására.

Ennek a technológiának a legfontosabb jellemzője, hogy zökkenőmentes hurkolt videókat képes generálni. A jelenet dinamikáját megelőző képteret kihasználva a Google rendszere extrapolálhatja és kiterjesztheti a képen belüli elemek mozgását, lebilincselő és folyamatos videóhurokká alakítva azt. Ez a funkció számos kreatív lehetőséget nyit meg a tartalomkészítők és -tervezők előtt.

A cikk egy olyan megközelítést mutat be egy kép-tér előzetes modellezésére, amely a jelenet dinamikáján alapul, és amelyet a természetes, oszcilláló mozgást tartalmazó, valódi videoszekvenciákból kinyert mozgási pályák gyűjteményéből tanulunk meg, mint például fák, virágok, gyertyák és szélben fújó ruhák. . A betanított modell frekvencia-koordinált diffúziós mintavételi eljárást használ a pixelenkénti hosszú távú mozgásreprezentáció előrejelzésére a Fourier-tartományban, amelyet neurális sztochasztikus mozgási textúrának neveznek. Ez az ábrázolás sűrű mozgási pályákká konvertálható, amelyek egy teljes videót lefednek.

A technológia lehetővé teszi a felhasználók számára, hogy valósághűen kommunikáljanak a statikus képeken lévő objektumokkal. Az objektumdinamika felhasználói gerjesztésre adott válaszának szimulálásával a Google rendszere lehetővé teszi magával ragadó és interaktív élmények képeken belül. Ebben rejlik a forradalmasítás lehetősége metaverzum terek és hogyan lépnek kapcsolatba a felhasználók a vizuális tartalommal.

A tanulmány egy generatív prior modellezését vizsgálja a kép-tér jelenet mozgására, azaz egyetlen képen az összes pixel mozgására. A modell a valódi videoszekvenciák nagy gyűjteményéből automatikusan kinyert mozgási pályákra van kiképezve. A bemeneti képen kondicionált modell egy neurális sztochasztikus mozgási textúrát jósol: egy mozgásalap együtthatóinak halmazát, amelyek az egyes pixelek jövőbeli pályáját jellemzik.

Ennek az innovációnak az alapja egy precízen kiképzett modellben rejlik. A Google modellje a mozgáspályák hatalmas adathalmazából tanul, amelyeket valódi, természetes, oszcilláló mozgást tartalmazó videósorozatokból nyernek ki. Ezek a képsorok olyan jeleneteket tartalmaznak, mint a fák imbolygása, a virágok mozgása, a gyertyák pislákolása és a szélben gomolygó ruhák. Ez a változatos adatkészlet lehetővé teszi a modell számára, hogy megértse a dinamikus viselkedések széles skáláját.

A tanulmány hatóköre a természetes, oszcilláló dinamikájú, valós jelenetekre korlátozódik, mint például a szélben mozgó fák és virágok. Alapfüggvényként a Fourier-sort választottuk. Az így létrejövő frekvencia-tér textúrák ezután sűrű, nagy hatótávolságú pixelmozgási pályákká alakíthatók, amelyek segítségével jövőbeli képkockákat szintetizálhatunk, az állóképeket valósághű animációkká alakítva.

Amikor bemutatják a egyetlen kép, a betanított modell frekvencia-koordinált diffúziós mintavételi eljárást alkalmaz. Ez a folyamat egy pixelenkénti hosszú távú mozgásábrázolást jósol a Fourier-tartományban, amelyet neurális sztochasztikus mozgási textúrának neveznek. Ez az ábrázolás ezután sűrű mozgási pályákká alakul át, amelyek egy egész videón átívelnek. A képalapú renderelő modullal párosítva ezek a pályák különféle gyakorlati alkalmazásokhoz hasznosíthatók.

A nyers RGB pixelekkel szembeni prioritásokhoz képest a mozgásrögzítés előtti prioritások alapvetőbb, alacsonyabb dimenziós aluldimenziós struktúrát rögzítenek, amely hatékonyan magyarázza a pixelértékek változásait. Ez koherensebb, hosszú távú generáláshoz és az animációk finomabb vezérléséhez vezet, mint a korábban működő módszerek képanimáció nyers videó szintézis segítségével.

A generált mozgásábrázolás kényelmes számos downstream alkalmazáshoz, például zökkenőmentes hurkolt videók létrehozásához, a generált mozgás szerkesztéséhez és interaktív engedélyezéshez. dinamikus képek, szimulálja az objektum dinamikájának válaszát a felhasználó által alkalmazott erőkre.

További kapcsolódó témákról olvashat:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

Hot Stories
Csatlakozzon hírlevelünkhöz.
Legfrissebb hírek

A Ripple-től a The Big Green DAO-ig: Hogyan járulnak hozzá a kriptovaluta projektek a jótékonysághoz

Fedezze fel a digitális valutákban rejlő lehetőségeket jótékony célokra hasznosító kezdeményezéseket.

Tudjon meg többet

AlphaFold 3, Med-Gemini és mások: The Way AI Transforms Healthcare 2024

A mesterséges intelligencia különféle módokon nyilvánul meg az egészségügyben, az új genetikai összefüggések feltárásától a robotsebészeti rendszerek felhatalmazásáig...

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
A 10 legjobb ingyenes AI-eszköz tartalomkészítéshez, videószerkesztéshez és sok máshoz
AI Wiki megemészteni Oktatás Életmód szoftver Technológia
A 10 legjobb ingyenes AI-eszköz tartalomkészítéshez, videószerkesztéshez és sok máshoz
May 14, 2024
A Hongkongi Értékpapír Bizottság a kriptográfiai ágazatot célzó mélyhamis csalásokra figyelmeztet: következményei a befektetők biztonságára
Életmód Biztonság Wiki szoftver Történetek és vélemények Technológia
A Hongkongi Értékpapír Bizottság a kriptográfiai ágazatot célzó mélyhamis csalásokra figyelmeztet: következményei a befektetők biztonságára
May 14, 2024
A Ripple és az Evmos együttműködik az XRP Ledger EVM oldallánc fejlesztésén az EvmOS technológiával
üzleti Tudósítást Technológia
A Ripple és az Evmos együttműködik az XRP Ledger EVM oldallánc fejlesztésén az EvmOS technológiával
May 14, 2024
Az 5ireChain ösztönzött „Testnet Thunder: GA” programot kezdeményez a hálózati stresszteszthez, és felkéri a felhasználókat, hogy vegyenek részt Airdrop Jutalmak
Tudósítást Technológia
Az 5ireChain ösztönzött „Testnet Thunder: GA” programot kezdeményez a hálózati stresszteszthez, és felkéri a felhasználókat, hogy vegyenek részt Airdrop Jutalmak
May 14, 2024
CRYPTOMERIA LABS PTE. KFT.