Laporan berita Teknologi
September 19, 2023

Google Memperkenalkan Dinamika Gambar Generatif Inovatif yang Mensimulasikan Pemandangan Dinamis dalam Gambar Statis

Google telah meluncurkan a Dinamika Gambar Generatif, pendekatan baru memungkinkan transformasi a gambar statis tunggal menjadi video perulangan yang mulus atau adegan dinamis interaktif, menawarkan beragam aplikasi praktis.

Google Memperkenalkan Dinamika Gambar Generatif Inovatif yang Mensimulasikan Pemandangan Dinamis dalam Gambar Statis

Inti dari teknologi perintis ini adalah pemodelan ruang gambar sebelum dinamika pemandangan. Tujuannya adalah untuk menciptakan pemahaman komprehensif tentang bagaimana objek dan elemen dalam suatu gambar berperilaku ketika mengalami berbagai interaksi dinamis. Pemahaman ini kemudian dapat digunakan untuk mensimulasikan respon dinamika objek terhadap interaksi pengguna secara efektif.

Fitur utama dari teknologi ini adalah kemampuan untuk menghasilkan video perulangan yang mulus. Dengan memanfaatkan ruang gambar sebelum dinamika pemandangan, sistem Google dapat mengekstrapolasi dan memperluas gerakan elemen dalam gambar, mengubahnya menjadi loop video yang menawan dan berkelanjutan. Fungsionalitas ini membuka banyak kemungkinan kreatif bagi pembuat konten dan desainer.

Makalah ini menyajikan pendekatan pemodelan ruang gambar berdasarkan dinamika pemandangan, yang dipelajari dari kumpulan lintasan gerak yang diekstraksi dari rangkaian video nyata yang berisi gerakan alami dan berosilasi seperti pohon, bunga, lilin, dan pakaian yang tertiup angin. . Model yang dilatih menggunakan proses pengambilan sampel difusi terkoordinasi frekuensi untuk memprediksi representasi gerakan jangka panjang per piksel dalam domain Fourier, yang mereka sebut tekstur gerakan stokastik saraf. Representasi ini dapat diubah menjadi lintasan gerak padat yang menjangkau keseluruhan video.

Teknologi ini memungkinkan pengguna untuk berinteraksi dengan objek dalam gambar statis secara realistis. Dengan menyimulasikan respons dinamika objek terhadap eksitasi pengguna, sistem Google memungkinkan hal tersebut pengalaman mendalam dan interaktif dalam gambar. Hal ini mempunyai potensi untuk melakukan revolusi ruang metaverse dan bagaimana pengguna terlibat dengan konten visual.

Studi ini mengeksplorasi pemodelan prior generatif untuk gerakan adegan ruang gambar, yaitu gerakan semua piksel dalam satu gambar. Model ini dilatih tentang lintasan gerakan yang diekstraksi secara otomatis dari sejumlah besar rangkaian video nyata. Dikondisikan pada gambar masukan, model yang dilatih memprediksi tekstur gerakan stokastik saraf: sekumpulan koefisien dasar gerakan yang menjadi ciri lintasan setiap piksel ke masa depan.

Landasan inovasi ini terletak pada model yang dilatih dengan cermat. Model Google belajar dari kumpulan data lintasan gerak yang luas yang diambil dari rangkaian video nyata yang menampilkan gerakan alami dan berosilasi. Urutan ini mencakup adegan dengan elemen seperti pepohonan bergoyang, bunga bergerak, lilin berkelap-kelip, dan pakaian berkibar tertiup angin. Kumpulan data yang beragam ini memungkinkan model memahami berbagai perilaku dinamis.

Ruang lingkup penelitian dibatasi pada pemandangan dunia nyata dengan dinamika alami yang berosilasi, seperti pepohonan dan bunga yang bergerak tertiup angin. Deret Fourier dipilih sebagai fungsi dasar. Tekstur ruang frekuensi yang dihasilkan kemudian dapat diubah menjadi lintasan gerakan piksel jarak jauh yang padat, yang dapat digunakan untuk mensintesis bingkai masa depan, mengubah gambar diam menjadi animasi realistis.

Ketika disajikan dengan a gambar tunggal, model yang dilatih menggunakan proses pengambilan sampel difusi terkoordinasi frekuensi. Proses ini memprediksi representasi gerakan jangka panjang per piksel dalam domain Fourier, yang disebut tekstur gerakan stokastik saraf. Representasi ini kemudian diubah menjadi lintasan gerak padat yang menjangkau keseluruhan video. Ditambah dengan modul rendering berbasis gambar, lintasan ini dapat dimanfaatkan untuk berbagai aplikasi praktis.

Dibandingkan dengan prior pada piksel RGB mentah, prior pada gerakan menangkap struktur dimensi bawah yang lebih mendasar dan berdimensi lebih rendah yang secara efisien menjelaskan variasi dalam nilai piksel. Hal ini menghasilkan generasi jangka panjang yang lebih koheren dan kontrol yang lebih baik terhadap animasi dibandingkan dengan metode sebelumnya animasi gambar melalui sintesis video mentah.

Representasi gerakan yang dihasilkan nyaman untuk sejumlah aplikasi hilir, seperti membuat video perulangan yang mulus, mengedit gerakan yang dihasilkan, dan mengaktifkan interaktif gambar dinamis, mensimulasikan respons dinamika objek terhadap gaya yang diterapkan pengguna.

Baca topik terkait lainnya:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Dari Ripple hingga DAO Hijau Besar: Bagaimana Proyek Mata Uang Kripto Berkontribusi pada Amal

Mari kita jelajahi inisiatif yang memanfaatkan potensi mata uang digital untuk tujuan amal.

Tahu lebih banyak

AlphaFold 3, Med-Gemini, dan lainnya: Cara AI Mengubah Layanan Kesehatan pada tahun 2024

AI bermanifestasi dalam berbagai cara dalam layanan kesehatan, mulai dari mengungkap korelasi genetik baru hingga memberdayakan sistem bedah robotik ...

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Dari Ripple hingga DAO Hijau Besar: Bagaimana Proyek Mata Uang Kripto Berkontribusi pada Amal
Analisis kripto Wiki Bisnis Pendidikan Gaya Hidup pasar Perangkat lunak Teknologi
Dari Ripple hingga DAO Hijau Besar: Bagaimana Proyek Mata Uang Kripto Berkontribusi pada Amal
13 Mei 2024
AlphaFold 3, Med-Gemini, dan lainnya: Cara AI Mengubah Layanan Kesehatan pada tahun 2024
AI Wiki Analisis intisari Pendapat Bisnis pasar Laporan berita Perangkat lunak Cerita dan Ulasan Teknologi
AlphaFold 3, Med-Gemini, dan lainnya: Cara AI Mengubah Layanan Kesehatan pada tahun 2024
13 Mei 2024
Jaringan Nim Akan Meluncurkan Kerangka Tokenisasi Kepemilikan AI Dan Melakukan Penjualan Hasil Dengan Tanggal Snapshot Dijadwalkan Pada Bulan Mei
pasar Laporan berita Teknologi
Jaringan Nim Akan Meluncurkan Kerangka Tokenisasi Kepemilikan AI Dan Melakukan Penjualan Hasil Dengan Tanggal Snapshot Dijadwalkan Pada Bulan Mei
13 Mei 2024
Binance Bermitra dengan Argentina untuk Memerangi Kejahatan Dunia Maya
Pendapat Bisnis pasar Laporan berita Perangkat lunak Teknologi
Binance Bermitra dengan Argentina untuk Memerangi Kejahatan Dunia Maya
13 Mei 2024