VToonify: Model AI masa nyata untuk menjana video potret artistik
Secara ringkas
Rangka kerja VToonify yang revolusioner telah dibangunkan oleh pembangun untuk menyediakan pemindahan gaya video potret resolusi tinggi terkawal.
Untuk menghasilkan potret artistik yang menakjubkan, rangka kerja menggunakan lapisan pertengahan dan resolusi tinggi StyleGAN.
Ia membenarkan lanjutan berasaskan StyleGAN sedia ada model toonifikasi imej kepada video.
Penyelidik dari Universiti Teknologi Nanyang telah memperkenalkan rangka kerja VToonify novel untuk menjana pemindahan gaya video potret resolusi tinggi yang boleh dikawal. VToonify memanfaatkan lapisan pertengahan dan resolusi tinggi StyleGAN untuk menghasilkan potret artistik berkualiti tinggi berdasarkan ciri kandungan berbilang skala yang diekstrak oleh pengekod untuk mengekalkan butiran bingkai dengan lebih baik. Keputusan percubaan menunjukkan bahawa rangka kerja kami boleh menjana video dengan kualiti tinggi yang konsisten dan ekspresi muka yang diingini tanpa memerlukan penjajaran muka atau sekatan saiz bingkai.
Hasilnya, seni bina konvolusi sepenuhnya yang menerima wajah tidak sejajar dalam video pelbagai saiz menghasilkan wajah lengkap dengan gerakan organik. Rangka kerja VToonify mewarisi ciri menarik model ini untuk kawalan gaya fleksibel pada warna dan keamatan. Ia serasi dengan model toonifikasi imej berasaskan StyleGAN sedia ada untuk memanjangkannya kepada toonifikasi video. Kerja ini memperkenalkan dua instantiasi VToonify untuk pemindahan gaya video potret berasaskan koleksi dan berasaskan contoh, yang dibina di atas Toonify dan DualStyleGAN.
Penemuan eksperimen yang meluas menunjukkan bahawa rangka kerja VToonify yang dicadangkan mengatasi pendekatan bersaing dalam menghasilkan filem potret artistik dengan kawalan gaya boleh laras yang berkualiti tinggi dan konsisten dari segi masa. Semak GitHub untuk maklumat lanjut.
Artikel berkaitan: OpenAI sedang berusaha untuk mencipta model AI untuk video |
Untuk menyediakan pemindahan gaya video potret resolusi tinggi yang boleh dikawal, VToonify menggabungkan kelebihan rangka kerja terjemahan imej dan rangka kerja berasaskan StyleGAN.
(A) Untuk menyokong saiz input berubah, sistem terjemahan imej menggunakan rangkaian konvolusi sepenuhnya. Adalah mencabar untuk menyampaikan gaya resolusi tinggi dan terkawal, walau bagaimanapun, apabila mengajar dari awal.
(B) Rangka kerja berasaskan StyleGAN, yang hanya menyokong saiz gambar tetap dan kehilangan butiran, menggunakan model StyleGAN terlatih untuk pemindahan gaya resolusi tinggi dan boleh dikawal.
(C) Untuk mencipta seni bina penjana pengekod sepenuhnya konvolusi yang menyerupai rangka kerja terjemahan imej, sistem hibrid kami memanjangkan StyleGAN dengan memadamkan ciri input bersaiz tetap dan lapisan resolusi rendahnya.
Untuk mengekalkan butiran bingkai, pembangun melatih pengekod untuk mengekstrak ciri kandungan berbilang skala daripada bingkai input sebagai syarat kandungan tambahan. VToonify mewarisi fleksibiliti kawalan gaya model StyleGAN dengan memasukkannya ke dalam penjana untuk menyaring kedua-dua data dan modelnya.
Artikel berkaitan: Lambda Labs mengumumkan pengadun imej AI yang boleh menggabungkan sehingga lima imej |
Rangka kerja VToonify mewarisi ciri menarik untuk kawalan gaya fleksibel daripada model toonifikasi imej berasaskan StyleGAN semasa dan serasi dengannya untuk mengembangkannya kepada video toonifikasi. VToonify kami menawarkan yang berikut menggunakan model DualStyleGAN sebagai asas StyleGAN:
- Pemindahan gaya daripada struktur berasaskan contoh;
- Pengubahsuaian ijazah gaya;
- Pemindahan gaya warna berdasarkan contoh.
Baca lebih lanjut mengenai AI:
Penafian
Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.
Tentang Pengarang
Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.
lebih banyak artikelDamir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.