Novinky Technika
Října 02, 2023

Video DirectorGPT: Režisér s umělou inteligencí přetvářející produkci textu na video

Video DirectorGPT: Ředitel umělé inteligence revoluční ve vytváření převodu textu na video

Transformace písemných výzev do působivých vizuálních narativů byla identifikována jako zásadní výzva v oblasti generování textu na video, kde se objevují četné modely. Tento úkol, který se liší od tradiční filmové tvorby, vyžaduje jinou sadu schopností, podobně jako režie, a zvládnutí Video Object Generation (VOG) může být docela problém. Kromě toho je bystré pozorování samo o sobě formou umění.

Chcete-li to vyřešit, VideoDirectorGPT přináší inovativní přístup k vytváření přesných a konzistentních multi-scénových videí, což zjednodušuje proces. V jeho jádru je VideoDirectorGPT využívá dvoustupňovou metodologii, která spojuje schopnosti velkých jazykových modelů (LLM) s uměním plánování videa.

Plánování s průvodcem LLM
V první fázi VideoDirectorGPT zaměstnává LLM jako video plánovač. LLM působí jako mistr vyprávění a vytváří zastřešující příběh pro video s více scénami. Tento příběh se skládá z textových popisů na úrovni scény, podrobných seznamů objektů a pozadí v každé scéně, přesných rozvržení objektů snímek po snímku s ohraničujícími rámečky a inteligentních koherenčních seskupení objektů a pozadí.

Generování videa Layout2Vid
Poté, co LLM pečlivě vytvoří plán videa, je čas jej uvést do praxe. Zde vstupuje do hry Layout2Vid, modul pro generování videa. Layout2Vid rozšiřuje plán vytvořený v počáteční fázi a využívá identické vkládání obrázků a textu k zobrazení objektů a pozadí ve video plánu.

Ale pozoruhodná část — poskytuje prostorovou kontrolu nad rozvržením objektů prostřednictvím sofistikovaného mechanismu 2D pozornosti integrovaného do jednotky prostorové pozornosti.

Video DirectorGPT model je schopen vytvořit důkladný video plán s přesným umístěním rámečku ohraničení objektu (překrytý), konzistentní osobou ve všech scénách a správně rozšířeným originálem textová výzva ukázat proces. Kmínový koláč a broskvová melba jsou jediné potraviny, které ModelScopeT2V generuje, a liší se scénu od scény.

Výsledkem je dokonale uspořádané video, které se drží původních textových popisů a převádí je do dynamických vizuálních sekvencí. Je to spojení narativní konstrukce řízené umělou inteligencí a pečlivého vykreslování videa, což zajišťuje, že generovaný obsah přesně odpovídá vizi tvůrce.

V srpnu, Yandex představil novou funkci s názvem Masterpiece, která uživatelům umožňuje vytvářet krátká videa v délce až 4 sekund se snímkovou frekvencí 24 snímků za sekundu. Tato technologie využívá metodu kaskádové difúze k vytváření následných snímků videa a generuje obrázky, které odpovídají popisu uživatele. Masterpiece nabízí dostupnost a jednoduchost, díky čemuž je atraktivní volbou pro nováčky a uživatele všech úrovní dovedností. Širší důsledky této technologie přesahují rámec kreativního vyjádření a mohly by se změnitdefine vytváření a konzumace digitálního obsahu.

Také začátkem tohoto roku Runway vydala Gen-2, model převodu textu na video, který dokáže generovat nová videa od začátku pomocí textové výzvy, což je výrazné zlepšení oproti předchozí verzi. Tato funkce šetří čas a námahu tím, že vytváří videa, která nevyžadují pokročilé editační schopnosti. Gen-2 navíc dokáže převést nahraný obrázek na krátký videoklip ve vyšší kvalitě než konkurence. Očekává se, že tato technologie zlepší vytváření a sdílení obsahu na platformách sociálních médií, což může být přínosem pro platformy, jako je Facebook a TikTok.

Přečtěte si další související témata:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Společnost Nexo zahajuje „hon“, aby odměnila uživatele 12 miliony dolarů v tokenech NEXO za zapojení do jejího ekosystému
Trhy Novinky Technika
Společnost Nexo zahajuje „hon“, aby odměnila uživatele 12 miliony dolarů v tokenech NEXO za zapojení do jejího ekosystému
8
Revolut X Exchange Crypto Traders s nulovými poplatky za tvůrce a pokročilou analýzou
Trhy Vývoj Příběhy a recenze Technika
Revolut X Exchange Crypto Traders s nulovými poplatky za tvůrce a pokročilou analýzou
8
Crypto Trading Platform BitMEX uvádí na trh opční obchodování s 0 poplatky a hotovostními pobídkami
Business Trhy Novinky
Crypto Trading Platform BitMEX uvádí na trh opční obchodování s 0 poplatky a hotovostními pobídkami
8
Lisk oficiálně přechází na Ethereum Layer 2 a odhaluje Core v4.0.6
Novinky Technika
Lisk oficiálně přechází na Ethereum Layer 2 a odhaluje Core v4.0.6
8
CRYPTOMERIA LABS PTE. LTD.