Google Mengatasi Meta dengan Meluncurkan Generator AI Text-to-Video Baru, Imagen Video
Singkatnya
Video Imagen Google berupaya membantu pembuat video berubah menjadi aplikasi pembunuh
Tidak butuh waktu lama bagi Google untuk menanggapi Make-a-Video dari Meta. Dengan menggunakan perintah teks, Video Gambar dapat menghasilkan video yang fantastis. Hasilnya adalah kemajuan luar biasa di atas yang canggih meskipun ada sejumlah kekurangan.
Dibandingkan dengan generator Text-to-Video AI Facebook Membuat video, hasilnya terasa lebih baik. Namun, strategi ini juga menuntut lebih banyak pengawasan. Berbeda dengan Imagen Video, di mana pekerja mikro bekerja keras untuk menganotasi film dengan deskripsi tertulis, Make-a-Scene menggunakan video tanpa label untuk pelatihan.
Masuk ke spesifikasi arsitektur tidak ada gunanya; Anda harus membacanya di artikel di sini. Kami hanya dapat memastikan bahwa 16 bingkai pertama kali dibuat dari penyematan teks pembuat enkode T5 pada resolusi 48×24 dengan 3 bingkai per detik, dan ini kemudian ditingkatkan dengan sejumlah model difusi ke dalam film akhir 128 bingkai pada 1280×768 dan 24 frame per detik.
Apa itu Video Gambar?
Imagen Video adalah metode untuk membuat video bersyarat teks berdasarkan serangkaian model difusi video. Imagen Video menghasilkan film berkualitas tinggi dari petunjuk teks dengan menggabungkan model produksi video dasar dengan serangkaian model resolusi super video spasial dan temporal yang saling terkait. Pelajari pilihan desain yang dibuat tim saat meningkatkan sistem secara maksimal.definisi model teks-ke-video, termasuk keputusan untuk membuat parameter-v model difusi dan pemilihan model resolusi super temporal dan spasial yang sepenuhnya konvolusional pada resolusi tertentu. Selain itu, ini memvalidasi dan menerapkan hasil dari pekerjaan sebelumnya pada produksi gambar berbasis difusi ke dalam konteks generasi video. Model video kemudian mengalami distilasi progresif dengan panduan bebas pengklasifikasi untuk pengambilan sampel yang cepat dan berkualitas tinggi.
Tim riset Google mengklaim bahwa sistem menerima deskripsi tekstual dan menghasilkan film 16 bingkai pada tiga frame per detik dengan resolusi 24 kali 48 piksel. Skala sistem dan "memprediksi" bingkai tambahan, membuat video akhir dengan 128 bingkai pada 24 bingkai per detik dan resolusi 720p (1280×768). Ada 60 juta pasang gambar-teks dan 14 juta pasang video-teks digunakan untuk melatih Imagen Video.
Sampel Video Gambar
Sekalipun hanya karena menggunakan AI untuk membuat video lebih cepat dan lebih murah, teknologi seperti itu pasti akan digunakan di mana-mana.
Tertarik untuk membaca lebih lanjut? Berikut adalah beberapa topik tambahan untuk diperiksa:
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.
lebih artikelDamir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.