Září 19, 2023

Google představuje inovativní generativní dynamiku obrazu, která simuluje dynamické scény ve statických obrázcích

Zveřejněno: 19. září 2023 v 4:21 Aktualizováno: 19. září 2023 v 9:02

Upraveno a ověřeno: 19. září 2023 v 4:21

Google odhalil a Generativní dynamika obrazu, nový přístup umožňuje transformaci a jeden statický obrázek do plynulé smyčky videa nebo interaktivní dynamická scéna nabízející širokou škálu praktických aplikací.

Google představuje inovativní generativní dynamiku obrazu, která simuluje dynamické scény ve statických obrázcích

Jádrem této průkopnické technologie je modelování obrazového prostoru před dynamikou scény. Cílem je vytvořit komplexní pochopení toho, jak se objekty a prvky v obraze mohou chovat, když jsou vystaveny různým dynamickým interakcím. Toto porozumění pak může být použito k efektivní simulaci odezvy dynamiky objektu na interakce uživatele.

Klíčovou vlastností této technologie je schopnost generovat plynulá smyčková videa. Využitím obrazového prostoru před dynamikou scény může systém Google extrapolovat a rozšířit pohyb prvků v obraze a přeměnit jej na podmanivou a nepřetržitou video smyčku. Tato funkce otevírá tvůrcům obsahu a návrhářům četné kreativní možnosti.

Článek představuje přístup k modelování obrazového prostoru na základě dynamiky scény, který se naučil ze sbírky pohybových trajektorií extrahovaných ze skutečných videosekvencí obsahujících přirozený oscilující pohyb, jako jsou stromy, květiny, svíčky a oblečení vlající ve větru. . Trénovaný model používá frekvenčně koordinovaný proces difúzního vzorkování k predikci dlouhodobého zobrazení pohybu na pixel ve Fourierově doméně, kterou nazývají neurální stochastická pohybová textura. Tuto reprezentaci lze převést na husté trajektorie pohybu, které pokrývají celé video.

Tato technologie umožňuje uživatelům realistickou interakci s objekty ve statických obrázcích. Systém Google to umožňuje simulací odezvy dynamiky objektu na vzrušení uživatele pohlcující a interaktivní zážitky v rámci obrázků. To má potenciál způsobit revoluci metaverzní prostory a jak uživatelé interagují s vizuálním obsahem.

Studie zkoumá modelování generativního priora pro pohyb scény v obrazovém prostoru, tj. pohyb všech pixelů v jediném snímku. Model je trénován na automaticky extrahovaných trajektoriích pohybu z velké sbírky skutečných videosekvencí. Trénovaný model, podmíněný vstupním obrazem, předpovídá neurální stochastickou pohybovou texturu: soubor koeficientů pohybové báze, které charakterizují trajektorii každého pixelu do budoucnosti.

Základ této inovace spočívá v pečlivě vyškoleném modelu. Model Google se učí z rozsáhlé datové sady pohybových trajektorií extrahovaných ze skutečných videosekvencí s přirozeným oscilujícím pohybem. Tyto sekvence zahrnují scény s prvky, jako jsou kymácející se stromy, pohyb květin, blikající svíčky a oblečení vlající ve větru. Tato různorodá datová sada umožňuje modelu porozumět široké škále dynamických chování.

Rozsah studie je omezen na skutečné scény s přirozenou, oscilující dynamikou, jako jsou stromy a květiny pohybující se ve větru. Jako základní funkce je zvolena Fourierova řada. Výsledné frekvenčně-prostorové textury pak mohou být transformovány do hustých trajektorií pohybu pixelů s dlouhým dosahem, které lze použít k syntéze budoucích snímků a přeměnit statické obrázky na realistické animace.

Při předložení s a jeden obrázektrénovaný model využívá frekvenčně koordinovaný proces difúzního vzorkování. Tento proces předpovídá dlouhodobou pohybovou reprezentaci na pixel ve Fourierově doméně, nazývanou neurální stochastická pohybová textura. Tato reprezentace je pak transformována do hustých trajektorií pohybu, které pokrývají celé video. Ve spojení s modulem vykreslování na bázi obrázků lze tyto trajektorie využít pro různé praktické aplikace.

Ve srovnání s předchozími oproti nezpracovaným RGB pixelům, předchozí přes motion zachycují zásadnější, poddimenzionální strukturu s nižší dimenzí, která efektivně vysvětluje změny v hodnotách pixelů. To vede k koherentnějšímu dlouhodobému generování a jemnější kontrole animací ve srovnání s předchozími metodami, které provádějí animace obrazu prostřednictvím syntézy surového videa.

Vygenerovaná reprezentace pohybu je vhodná pro řadu navazujících aplikací, jako je vytváření plynulých smyčkových videí, úpravy generovaného pohybu a umožnění interaktivních dynamické obrázky, simulující odezvu dynamiky objektu na síly aplikované uživatelem.

Přečtěte si další související témata:

Tagy:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.

Další články

Damir Yalalov