Buletin de stiri
Octombrie 06, 2022

Google depășește Meta lansând un nou generator AI text-to-video, Imagen Video 

Pe scurt

Google Imagen Video încearcă să ajute generatorul video să se transforme în aplicații ucigașe

Nu a durat mult pentru ca Google să răspundă la Make-a-Video din Meta. Folosind o solicitare text, Imagine Video poate produce un videoclip fantastic. Rezultatele sunt un avans extraordinar peste stadiul tehnicii, în ciuda unui număr de dezavantaje.

În comparație cu generatorul AI Text-to-Video al Facebook Faceți un videoclip, rezultatele sunt vizibil mai bune. Cu toate acestea, această strategie a cerut și mai multă supraveghere. Spre deosebire de Imagen Video, unde microlucrătorii au muncit din greu pentru a adnota filmele cu descrieri scrise, Make-a-Scene a folosit videoclipuri neetichetate pentru antrenament.

Intrarea în specificul arhitecturii este inutilă; ar trebui să citiți despre asta în articol aici. Putem confirma doar că 16 cadre sunt generate mai întâi din încorporarea de text a codificatorului T5 la o rezoluție de 48×24 cu 3 cadre pe secundă și că aceasta este apoi mărită de un număr de modele de difuzie în filmul final de 128 de cadre. la 1280×768 și 24 de cadre pe secundă.

Ce este Imagen Video?

Imagen Video este o metodă de creare a videoclipurilor condiționate de text bazată pe o serie de modele de difuzie video. Imagen Video produce filme de înaltă calitate din solicitări text prin combinarea unui model de producție video de bază cu o serie de modele de super-rezoluție video spațială și temporală întrețesute. Treceți peste alegerile de proiectare făcute de echipa în timp ce extindeți sistemul ca undefimodel text-to-video, inclusiv decizia de a parametriza v-modele de difuzie și selecția modelelor de super-rezoluție temporală și spațială complet convoluționale la rezoluții specifice. În plus, validează și aplică rezultatele lucrărilor anterioare privind producția de imagini bazate pe difuzie în contextul generare video. Modelele video sunt apoi supuse unei distilări progresive cu ghidare fără clasificare pentru eșantionare rapidă și de înaltă calitate.

Echipa de cercetare Google susține că sistemul acceptă o descriere textuală și generează un film cu 16 cadre la trei cadre pe secundă cu o rezoluție de 24 x 48 pixeli. Sistemul scalează și „predice” cadrele suplimentare, creând un videoclip final cu 128 de cadre la 24 de cadre pe secundă și rezoluție de 720p (1280×768). Există 60 de milioane de perechi imagine-text și 14 milioane de perechi video-text au fost folosite pentru a antrena Imagen Video.

Mostre video de imagine

Chiar dacă doar pentru că utilizarea AI pentru a realiza videoclipuri este mai rapidă și mai puțin costisitoare, astfel de tehnologii vor fi, fără îndoială, folosite peste tot.

Te interesează să citești mai mult? Iată câteva subiecte suplimentare de consultat:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Hot Stories
Alăturați-vă Newsletter-ului nostru.
Ultimele ştiri

De la Ripple la Big Green DAO: Cum contribuie proiectele de criptomonede la caritate

Să explorăm inițiativele care valorifică potențialul monedelor digitale pentru cauze caritabile.

Aflați mai multe

AlphaFold 3, Med-Gemini și alții: modul în care AI transformă asistența medicală în 2024

Inteligența artificială se manifestă în diferite moduri în asistența medicală, de la descoperirea de noi corelații genetice până la abilitarea sistemelor chirurgicale robotizate...

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Comisia pentru Valori Mobiliare din Hong Kong avertizează cu privire la înșelătoriile de deepfake care vizează industria criptografică: implicații pentru siguranța investitorilor
Stil de viață Securitate Wiki Software Povești și recenzii Tehnologia
Comisia pentru Valori Mobiliare din Hong Kong avertizează cu privire la înșelătoriile de deepfake care vizează industria criptografică: implicații pentru siguranța investitorilor
14 Mai, 2024
Ripple și Evmos colaborează la dezvoltarea XRP Ledger EVM Sidechain cu tehnologia EvmOS
Afaceri Buletin de stiri Tehnologia
Ripple și Evmos colaborează la dezvoltarea XRP Ledger EVM Sidechain cu tehnologia EvmOS
14 Mai, 2024
5ireChain inițiază „Testnet Thunder: GA” stimulat pentru testarea stresului în rețea, invită utilizatorii să participe la Airdrop Recompense
Buletin de stiri Tehnologia
5ireChain inițiază „Testnet Thunder: GA” stimulat pentru testarea stresului în rețea, invită utilizatorii să participe la Airdrop Recompense
14 Mai, 2024
Stacks colaborează cu Uphold pentru a facilita tranzacționarea și transferurile fără întreruperi de active, întărind adoptarea Bitcoin
Afaceri Buletin de stiri Tehnologia
Stacks colaborează cu Uphold pentru a facilita tranzacționarea și transferurile fără întreruperi de active, întărind adoptarea Bitcoin
14 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.