Novinová správa Technológia
September 19, 2023

Google predstavuje inovatívnu generatívnu dynamiku obrazu, ktorá simuluje dynamické scény v statických obrázkoch

Google odhalil a Generatívna dynamika obrazu, nový prístup umožňuje transformáciu a jeden statický obrázok do súvislého opakujúceho sa videa alebo interaktívna dynamická scéna, ktorá ponúka široké spektrum praktických aplikácií.

Google predstavuje inovatívnu generatívnu dynamiku obrazu, ktorá simuluje dynamické scény v statických obrázkoch

Jadrom tejto priekopníckej technológie je modelovanie obrazového priestoru pred dynamikou scény. Cieľom je vytvoriť komplexné pochopenie toho, ako sa môžu objekty a prvky v obraze správať, keď sú vystavené rôznym dynamickým interakciám. Toto porozumenie sa potom môže použiť na efektívnu simuláciu odozvy dynamiky objektu na interakciu používateľa.

Kľúčovou vlastnosťou tejto technológie je schopnosť vytvárať plynulé slučkové videá. Využitím obrazového priestoru pred dynamikou scény môže systém Google extrapolovať a rozšíriť pohyb prvkov v obraze a premeniť ho na podmanivú a nepretržitú videoslučku. Táto funkcia otvára tvorcom obsahu a dizajnérom množstvo kreatívnych možností.

Článok predstavuje prístup k modelovaniu obrazového priestoru na základe dynamiky scény, ktorý sa naučil zo zbierky pohybových trajektórií extrahovaných zo skutočných videosekvencií obsahujúcich prirodzený kmitavý pohyb, ako sú stromy, kvety, sviečky a oblečenie fúkajúce vo vetre. . Trénovaný model používa frekvenčne koordinovaný difúzny vzorkovací proces na predpovedanie dlhodobej reprezentácie pohybu na pixel vo Fourierovej doméne, ktorú nazývajú neurálna stochastická pohybová textúra. Túto reprezentáciu možno previesť na husté trajektórie pohybu, ktoré pokrývajú celé video.

Táto technológia umožňuje používateľom realistickú interakciu s objektmi v rámci statických obrázkov. Systém Google to umožňuje simuláciou odozvy dynamiky objektu na vzrušenie používateľa pohlcujúce a interaktívne zážitky v rámci obrázkov. To má potenciál spôsobiť revolúciu metaverzné priestory a ako používatelia interagujú s vizuálnym obsahom.

Štúdia skúma modelovanie generatívneho priora pohybu scény v priestore obrazu, tj pohybu všetkých pixelov v jednom obrázku. Model je trénovaný na automaticky extrahovaných trajektóriách pohybu z veľkej zbierky skutočných videosekvencií. Trénovaný model, podmienený vstupným obrazom, predpovedá neurónovú stochastickú pohybovú textúru: súbor koeficientov pohybovej bázy, ktoré charakterizujú trajektóriu každého pixelu do budúcnosti.

Základ tejto inovácie spočíva v starostlivo vyškolenom modeli. Model Google sa učí z rozsiahleho súboru údajov o pohybových trajektóriách extrahovaných zo skutočných videosekvencií s prirodzeným oscilačným pohybom. Tieto sekvencie zahŕňajú scény s prvkami, ako sú kolísanie stromov, pohyb kvetov, blikanie sviečok a oblečenie vlajúce vo vetre. Tento rôznorodý súbor údajov umožňuje modelu porozumieť širokému spektru dynamického správania.

Rozsah štúdie je obmedzený na scény reálneho sveta s prirodzenou, oscilujúcou dynamikou, ako sú stromy a kvety pohybujúce sa vo vetre. Ako základné funkcie je zvolený Fourierov rad. Výsledné frekvenčno-priestorové textúry sa potom môžu transformovať na husté trajektórie pohybu pixelov s dlhým dosahom, ktoré možno použiť na syntetizovanie budúcich snímok, čím sa statické obrázky premenia na realistické animácie.

Pri predložení a jeden obrázoktrénovaný model využíva frekvenčne koordinovaný difúzny vzorkovací proces. Tento proces predpovedá dlhodobú pohybovú reprezentáciu na pixel vo Fourierovej doméne, ktorá sa nazýva neurálna stochastická pohybová textúra. Táto reprezentácia sa potom transformuje do hustých trajektórií pohybu, ktoré pokrývajú celé video. V spojení s modulom vykresľovania na báze obrázkov je možné tieto trajektórie využiť na rôzne praktické aplikácie.

V porovnaní s predchádzajúcimi v porovnaní s neupravenými RGB pixelmi, predchádzajúce v porovnaní s pohybom zachytávajú základnejšiu, poddimenzionálnu štruktúru s nižšími rozmermi, ktorá efektívne vysvetľuje odchýlky v hodnotách pixelov. To vedie k súdržnejšiemu dlhodobému generovaniu a jemnejšej kontrole animácií v porovnaní s predchádzajúcimi metódami, ktoré vykonávajú animácia obrazu prostredníctvom syntézy surového videa.

Vygenerovaná reprezentácia pohybu je vhodná pre množstvo následných aplikácií, ako je vytváranie plynulých slučkových videí, úprava generovaného pohybu a umožnenie interaktívnych dynamické obrázky, simulujúce odozvu dynamiky objektu na sily aplikované používateľom.

Prečítajte si ďalšie súvisiace témy:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Hot Stories
Pridajte sa k nášmu newsletteru.
Novinky

Od zvlnenia k veľkému zelenému DAO: Ako kryptomenové projekty prispievajú k charite

Poďme preskúmať iniciatívy, ktoré využívajú potenciál digitálnych mien na charitatívne účely.

vedieť viac

AlphaFold 3, Med-Gemini a ďalší: Spôsob, akým AI transformuje zdravotnú starostlivosť v roku 2024

Umelá inteligencia sa v zdravotníctve prejavuje rôznymi spôsobmi, od odhaľovania nových genetických korelácií až po posilnenie robotických chirurgických systémov...

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Od zvlnenia k veľkému zelenému DAO: Ako kryptomenové projekty prispievajú k charite
Analýza Crypto Wiki firmy vzdelanie Životný štýl trhy Softvér Technológia
Od zvlnenia k veľkému zelenému DAO: Ako kryptomenové projekty prispievajú k charite
Môže 13, 2024
AlphaFold 3, Med-Gemini a ďalší: Spôsob, akým AI transformuje zdravotnú starostlivosť v roku 2024
AI Wiki Analýza výťah Názor firmy trhy Novinová správa Softvér Príbehy a recenzie Technológia
AlphaFold 3, Med-Gemini a ďalší: Spôsob, akým AI transformuje zdravotnú starostlivosť v roku 2024
Môže 13, 2024
Sieť Nim zavedie rámec tokenizácie vlastníctva AI a uskutoční predaj výnosov s dátumom snímky naplánovaným na máj
trhy Novinová správa Technológia
Sieť Nim zavedie rámec tokenizácie vlastníctva AI a uskutoční predaj výnosov s dátumom snímky naplánovaným na máj
Môže 13, 2024
Binance spolupracuje s Argentínou v boji proti počítačovej kriminalite
Názor firmy trhy Novinová správa Softvér Technológia
Binance spolupracuje s Argentínou v boji proti počítačovej kriminalite
Môže 13, 2024
CRYPTOMERIA LABS PTE. LTD.