Novinová správa
Októbra 06, 2022

Google prekonáva Meta spustením nového generátora AI pre prevod textu na video, Imagen Video 

Stručne

Google Imagen Video sa pokúša pomôcť generátoru videa zmeniť sa na vražedné aplikácie

Netrvalo dlho a Google odpovedal na Make-a-Video od Meta. Pomocou textovej výzvy Obrázok Video môže vytvoriť fantastické video. Výsledky sú obrovským pokrokom oproti stavu techniky napriek mnohým nevýhodám.

V porovnaní s generátorom umelej inteligencie pre prevod textu na video od Facebooku Make-a-Video, výsledky sú výrazne lepšie. Táto stratégia si však vyžadovala aj väčší dohľad. Na rozdiel od Imagen Video, kde mikropracovníci tvrdo pracovali na anotácii filmov s písaným popisom, Make-a-Scene používala na školenia neoznačené videá.

Zachádzať do špecifík architektúry je zbytočné; mali by ste si to prečítať v článku tu. Môžeme len potvrdiť, že 16 snímok sa najskôr vygeneruje z vloženia textu kódovača T5 s rozlíšením 48 × 24 s 3 snímkami za sekundu, a že sa to následne prevzorkuje pomocou niekoľkých modelov difúzie na konečný film so 128 snímkami. s rozlíšením 1280 × 768 a 24 snímkami za sekundu.

Čo je Imagen Video?

Imagen Video je metóda na vytváranie textovo podmienených videí na základe série modelov šírenia videa. Imagen Video produkuje filmy vysokej kvality z textové výzvy kombináciou základného modelu video produkcie so sériou prekladaných priestorových a časových modelov videa v super rozlíšení. Prejdite si výber dizajnu, ktorý tím urobil pri škálovaní systému ako vysokodefination text-to-video model, vrátane rozhodnutia o v-parametrizácii difúznych modelov a výberu plne konvolučných modelov časových a priestorových superrozlíšení pri konkrétnych rozlíšeniach. Okrem toho overuje a aplikuje výsledky predchádzajúcej práce na produkcii obrazu založenej na difúzii v kontexte generovanie videa. Video modely sa potom podrobia progresívnej destilácii s vedením bez klasifikátora pre rýchle a vysokokvalitné vzorkovanie.

Výskumný tím Google tvrdí, že systém akceptuje textový popis a vygeneruje 16-snímkový film pri troch snímkach za sekundu s rozlíšením 24 x 48 pixelov. Systém škáluje a „predpovedá“ ďalšie snímky, čím vytvára finálne video so 128 snímkami pri 24 snímkach za sekundu a rozlíšením 720p (1280 × 768). Existuje 60 miliónov párov obrázok-text a 14 miliónov párov video-text sa použilo na trénovanie Imagen Video.

Ukážky videa Imagen

Aj keď len preto, že používanie AI na vytváranie videa je rýchlejšie a lacnejšie, takéto technológie sa nepochybne uplatnia všade.

Máte záujem prečítať si viac? Tu je niekoľko ďalších tém, ktoré si môžete pozrieť:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Hot Stories
Pridajte sa k nášmu newsletteru.
Novinky

DOGE Frenzy: Analýza nedávneho nárastu hodnoty dogecoinu (DOGE).

Odvetvie kryptomien sa rýchlo rozširuje a meme coiny sa pripravujú na výrazný vzostup. Dogecoin (DOGE),...

vedieť viac

Vývoj obsahu generovaného AI v Metaverse

Vznik generatívneho obsahu AI je jedným z najfascinujúcejších objavov vo virtuálnom prostredí...

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Tiger Brokers spustia obchodovanie s nulovými províziami pre Bosera HashKey, China Asset Management a Harvest Spot Crypto ETF
firmy trhy Novinová správa
Tiger Brokers spustia obchodovanie s nulovými províziami pre Bosera HashKey, China Asset Management a Harvest Spot Crypto ETF
Apríla 29, 2024
Scroll dokončuje upgrade siete Bernoulli Mainnet, očakáva 10-násobné zníženie transakčných nákladov
Novinová správa Technológia
Scroll dokončuje upgrade siete Bernoulli Mainnet, očakáva 10-násobné zníženie transakčných nákladov
Apríla 29, 2024
OKX Jumpstart uvádza Runecoiny, umožňuje stávkovanie BTC na získanie žetónov RUNE
trhy Novinová správa Technológia
OKX Jumpstart uvádza Runecoiny, umožňuje stávkovanie BTC na získanie žetónov RUNE
Apríla 29, 2024
Najlepšie ponuky tohto týždňa, hlavné investície do AI, IT, Web3a kryptomeny (22-26.04)
výťah firmy trhy Technológia
Najlepšie ponuky tohto týždňa, hlavné investície do AI, IT, Web3a kryptomeny (22-26.04)
Apríla 26, 2024
CRYPTOMERIA LABS PTE. LTD.