Google prekonáva Meta spustením nového generátora AI pre prevod textu na video, Imagen Video
Stručne
Google Imagen Video sa pokúša pomôcť generátoru videa zmeniť sa na vražedné aplikácie
Netrvalo dlho a Google odpovedal na Make-a-Video od Meta. Pomocou textovej výzvy Obrázok Video môže vytvoriť fantastické video. Výsledky sú obrovským pokrokom oproti stavu techniky napriek mnohým nevýhodám.
V porovnaní s generátorom umelej inteligencie pre prevod textu na video od Facebooku Make-a-Video, výsledky sú výrazne lepšie. Táto stratégia si však vyžadovala aj väčší dohľad. Na rozdiel od Imagen Video, kde mikropracovníci tvrdo pracovali na anotácii filmov s písaným popisom, Make-a-Scene používala na školenia neoznačené videá.
Zachádzať do špecifík architektúry je zbytočné; mali by ste si to prečítať v článku tu. Môžeme len potvrdiť, že 16 snímok sa najskôr vygeneruje z vloženia textu kódovača T5 s rozlíšením 48 × 24 s 3 snímkami za sekundu, a že sa to následne prevzorkuje pomocou niekoľkých modelov difúzie na konečný film so 128 snímkami. s rozlíšením 1280 × 768 a 24 snímkami za sekundu.
Čo je Imagen Video?
Imagen Video je metóda na vytváranie textovo podmienených videí na základe série modelov šírenia videa. Imagen Video produkuje filmy vysokej kvality z textové výzvy kombináciou základného modelu video produkcie so sériou prekladaných priestorových a časových modelov videa v super rozlíšení. Prejdite si výber dizajnu, ktorý tím urobil pri škálovaní systému ako vysokodefination text-to-video model, vrátane rozhodnutia o v-parametrizácii difúznych modelov a výberu plne konvolučných modelov časových a priestorových superrozlíšení pri konkrétnych rozlíšeniach. Okrem toho overuje a aplikuje výsledky predchádzajúcej práce na produkcii obrazu založenej na difúzii v kontexte generovanie videa. Video modely sa potom podrobia progresívnej destilácii s vedením bez klasifikátora pre rýchle a vysokokvalitné vzorkovanie.
Výskumný tím Google tvrdí, že systém akceptuje textový popis a vygeneruje 16-snímkový film pri troch snímkach za sekundu s rozlíšením 24 x 48 pixelov. Systém škáluje a „predpovedá“ ďalšie snímky, čím vytvára finálne video so 128 snímkami pri 24 snímkach za sekundu a rozlíšením 720p (1280 × 768). Existuje 60 miliónov párov obrázok-text a 14 miliónov párov video-text sa použilo na trénovanie Imagen Video.
Ukážky videa Imagen
Aj keď len preto, že používanie AI na vytváranie videa je rýchlejšie a lacnejšie, takéto technológie sa nepochybne uplatnia všade.
Máte záujem prečítať si viac? Tu je niekoľko ďalších tém, ktoré si môžete pozrieť:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.