Google Mengatasi Meta dengan Melancarkan Penjana AI Teks-ke-Video Baharu, Imagen Video
Secara ringkas
Video Imagen Google cuba membantu penjana video bertukar menjadi aplikasi pembunuh
Tidak mengambil masa lama untuk Google membalas Make-a-Video daripada Meta. Dengan menggunakan gesaan teks, Video Imej boleh menghasilkan video yang hebat. Hasilnya adalah kemajuan yang luar biasa di atas keadaan seni walaupun terdapat beberapa kelemahan.
Berbanding dengan penjana AI Teks-ke-Video Facebook Buat-Video, hasilnya nyata lebih baik. Walau bagaimanapun, strategi ini juga menuntut lebih banyak pengawasan. Berbeza dengan Imagen Video, di mana pekerja mikro bekerja keras untuk menganotasi filem dengan penerangan bertulis, Make-a-Scene menggunakan video tidak berlabel untuk latihan.
Pergi ke spesifik seni bina adalah sia-sia; anda harus membaca tentangnya dalam artikel disini. Kami hanya boleh mengesahkan bahawa 16 bingkai pertama kali dijana daripada pembenaman teks pengekod T5 pada resolusi 48×24 dengan 3 bingkai sesaat, dan ini kemudiannya ditingkatkan oleh beberapa model resapan ke dalam filem terakhir 128 bingkai. pada 1280×768 dan 24 bingkai sesaat.
Apakah Video Imagen?
Video Imagen ialah kaedah untuk mencipta video bersyarat teks berdasarkan satu siri model resapan video. Imagen Video menghasilkan filem berkualiti tinggi daripada gesaan teks dengan menggabungkan model pengeluaran video asas dengan satu siri model resolusi super spatial dan temporal berjalin. Semak pasukan pilihan reka bentuk yang dibuat sambil meningkatkan sistem sebagaidefimodel teks-ke-video, termasuk keputusan untuk meparameterkan model resapan dan pemilihan model peleraian super temporal dan spatial konvolusi sepenuhnya pada resolusi tertentu. Selain itu, ia mengesahkan dan menggunakan hasil daripada kerja terdahulu mengenai penghasilan imej berasaskan resapan kepada konteks penjanaan video. Model video kemudiannya tertakluk kepada penyulingan progresif dengan panduan bebas pengelas untuk pensampelan yang cepat dan berkualiti tinggi.
Pasukan penyelidik Google mendakwa bahawa sistem menerima penerangan teks dan menghasilkan filem 16 bingkai pada tiga bingkai sesaat dengan resolusi 24 kali 48 piksel. Sistem menskala dan "meramalkan" bingkai tambahan, mencipta video akhir dengan 128 bingkai pada 24 bingkai sesaat dan resolusi 720p (1280×768). Terdapat 60 juta pasangan teks imej dan 14 juta pasangan teks video digunakan untuk melatih Video Imagen.
Sampel Video Imej
Walaupun hanya kerana menggunakan AI untuk membuat video lebih cepat dan lebih murah, teknologi sedemikian sudah pasti akan digunakan di mana-mana sahaja.
Berminat untuk membaca lebih lanjut? Berikut ialah beberapa topik tambahan untuk dilihat:
Penafian
Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.
Tentang Pengarang
Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.
lebih banyak artikelDamir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.