Laporan Berita Teknologi
November 23, 2022

Sber AI telah mempersembahkan Kandinsky 2.0, model teks-ke-imej pertama untuk menjana dalam lebih daripada 100 bahasa

Secara ringkas

Kandinsky 2.0, model penyebaran berbilang bahasa yang pertama, dicipta dan dilatih oleh penyelidik Sber AI dengan bantuan penyelidik dari Institut Kecerdasan Buatan AI menggunakan set data gabungan 1 bilion pasangan imej teks daripada Sber AI dan SberDevices

Penyebaran semakin menggantikan GAN dan model autoregresif dalam beberapa tugas pemprosesan imej digital. Ini tidak menghairankan kerana penyebaran lebih mudah dipelajari, tidak memerlukan pemilihan hiperparameter yang kompleks, pengoptimuman min-maks, dan tidak mengalami ketidakstabilan pembelajaran. Dan yang paling penting, model resapan menunjukkan hasil terkini pada hampir semua tugas penjanaan — penjanaan imej mengikut teks, penjanaan bunyi, video dan juga 3D.

Sber AI telah mempersembahkan Kandinsky 2.0, model teks-ke-imej pertama untuk menjana dalam lebih daripada 100 bahasa
Imej yang dicipta oleh Kandinsky AI

Malangnya, kebanyakan kerja dalam bidang teks kepada sesuatu hanya tertumpu pada bahasa Inggeris dan Cina. Untuk membetulkan ketidakadilan ini, Sber AI memutuskan untuk mencipta model penyebaran teks-ke-imej berbilang bahasa Kandinsky 2.0, yang memahami pertanyaan dalam lebih 100 bahasa. Muka Berpeluk sudah menawarkan Kandinsky 2.0. Penyelidik dari SberAI dan SberDevices telah bekerjasama dengan pakar dari Institut Kecerdasan Buatan AI mengenai projek ini.

Apakah penyebaran?

Dalam artikel 2015 Pembelajaran Tanpa Pengawasan Mendalam menggunakan Nonequilibrium Thermodynamics, model resapan pertama kali digambarkan sebagai tindakan mencampurkan bahan yang menghasilkan resapan, yang menyamakan taburan. Seperti yang dimaksudkan oleh tajuk artikel, mereka mendekati penjelasan model resapan melalui rangka kerja termodinamik.

Dalam kes imej, proses sedemikian mungkin menyerupai, contohnya, secara beransur-ansur mengeluarkan bunyi Gaussian daripada imej.

Kertas Model Penyebaran Pukul GAN pada Sintesis Imej, yang diterbitkan pada 2021, adalah yang pertama menunjukkan keunggulan model resapan berbanding GANS. Penulis juga mencipta pendekatan kawalan generasi pertama (pendingin), yang mereka namakan sebagai panduan pengelas. Kaedah ini mencipta objek yang sesuai dengan kelas yang dimaksudkan menggunakan kecerunan daripada pengelas yang berbeza (contohnya, anjing). Melalui mekanisme Adaptive Group Norm, yang melibatkan peramalan pekali normalisasi, kawalan itu sendiri dijalankan.

Artikel ini boleh dilihat sebagai titik perubahan dalam bidang AI generatif, menyebabkan ramai orang beralih kepada kajian resapan. Artikel baru tentang teks-ke-video, teks-ke-3D, imej mengecat, penjanaan audio, penyebaran untuk resolusi super, malah penjanaan gerakan mula muncul setiap beberapa minggu.

Penyebaran teks ke imej

Seperti yang kami nyatakan sebelum ini, pengurangan hingar dan penghapusan hingar biasanya merupakan komponen utama proses resapan dalam konteks modaliti imej, jadi UNet dan banyak variasinya sering digunakan sebagai seni bina asas.

Penyebaran teks ke imej
Penyebaran teks ke imej

Adalah penting bahawa teks ini diambil kira dalam beberapa cara semasa penjanaan untuk mencipta imej berdasarkannya. Para pengarang OpenAI artikel tentang model GLIDE mencadangkan mengubah suai pendekatan bimbingan tanpa pengelas untuk teks.

Penggunaan pengekod teks pra-penyinaran beku dan mekanisme peningkatan resolusi lata pada masa hadapan telah meningkatkan pengeluaran teks dengan ketara (Imej). Ternyata tidak perlu melatih bahagian teks model teks ke imej kerana menggunakan T5-xxl beku menghasilkan kualiti imej dan pemahaman teks yang lebih baik dan menggunakan sumber latihan yang lebih sedikit.

Pengarang a Resapan Terpendam artikel menunjukkan bahawa komponen gambar sebenarnya tidak memerlukan latihan (sekurang-kurangnya tidak sepenuhnya). Pembelajaran akan diteruskan dengan lebih pantas jika kita menggunakan pengekod imej yang berkuasa (VQ-VAE atau KL-VAE) sebagai penyahkod visual dan cuba menjana benam daripada ruang terpendamnya melalui penyebaran dan bukannya imej itu sendiri. Metodologi ini juga merupakan asas kepada yang dikeluarkan baru-baru ini Stable Diffusion model.

Model AI Kandinsky 2.0

Dengan beberapa penambahbaikan utama, Kandinsky 2.0 adalah berdasarkan teknik Resapan Laten yang dipertingkatkan (kami tidak membuat imej, sebaliknya vektor terpendamnya):

  • Menggunakan dua pengekod teks berbilang bahasa dan menggabungkan benamnya.
  • Menambah UNet (1.2 bilion parameter).
  • Ambang dinamik prosedur pensampelan.
Model AI Kandinsky 2.0
Model AI Kandinsky 2.0

Penyelidik menggunakan dua pengekod berbilang bahasa secara serentak-XLMR-klip dan mT5-kecil-untuk membuat model benar-benar berbilang bahasa. Oleh itu, selain bahasa Inggeris, Rusia, Perancis dan Jerman, model ini juga boleh memahami bahasa seperti Mongolia, Ibrani dan Farsi. AI mengetahui sebanyak 101 bahasa. Mengapa diputuskan untuk mengekod teks menggunakan dua model secara serentak? Memandangkan XLMR-clip telah melihat gambar dan menyediakan benam yang rapat untuk pelbagai bahasa, dan mT5-small mampu memahami teks yang kompleks, model ini mempunyai ciri yang berbeza tetapi penting. Memandangkan kedua-dua model hanya mempunyai sebilangan kecil parameter (560M dan 146M), seperti yang ditunjukkan oleh ujian awal kami, ia telah memutuskan untuk menggunakan dua pengekod secara serentak.

Imej yang baru dijana oleh model AI Kandinsky 2.0 di bawah:

Bagaimanakah latihan model Kandinsky 2.0 dilakukan?

Superkomputer Christofari telah digunakan untuk latihan di platform ML Space. Ia memerlukan 196 kad NVIDIA A100, setiap satu dengan 80 GB RAM. Ia mengambil masa 14 hari, atau 65,856 jam GPU, untuk menyelesaikan latihan. Analisis mengambil masa lima hari pada resolusi 256 × 256, diikuti oleh enam hari pada resolusi 512 × 512, kemudian tambahan tiga hari pada data paling tulen.

Sebagai data latihan, banyak set data telah digabungkan yang telah ditapis terlebih dahulu untuk tera air, peleraian rendah dan pematuhan rendah pada perihalan teks seperti yang diukur oleh metrik skor CLIP.

Generasi berbilang bahasa

Kandinsky 2.0 ialah model berbilang bahasa pertama untuk mencipta imej daripada perkataan, memberi kami peluang pertama untuk menilai perubahan linguistik dan visual merentas budaya bahasa. Hasil daripada menterjemah pertanyaan yang sama ke dalam beberapa bahasa ditunjukkan di bawah. Sebagai contoh, hanya lelaki kulit putih yang muncul dalam hasil penjanaan untuk pertanyaan Rusia "orang yang mempunyai pendidikan tinggi", manakala hasil terjemahan Perancis, "Photo d'une personne diplômée de l'enseignement supérieur," adalah lebih pelbagai. Saya ingin menegaskan bahawa orang yang berdukacita dengan pendidikan tinggi hanya hadir dalam edisi bahasa Rusia.

Generasi berbilang bahasa
Prompt: perompak (1. Rusia, 2. Inggeris, 3. Hindi)
Generasi berbilang bahasa
Prompt: seseorang yang mempunyai pendidikan tinggi (1. Rusia, 2. Perancis, 3. Cina)
Generasi berbilang bahasa
Prompt: hidangan kebangsaan (1. Rusia, 2. Jepun, 3. Hindi)

Walaupun masih terdapat satu tan percubaan dengan model bahasa yang besar dan kaedah yang berbeza bagi proses resapan yang dirancang, kami sudah boleh menyatakan dengan yakin bahawa Kandinsky 2.0 ialah model penyebaran berbilang bahasa yang pertama! Pada laman web FusionBrain and google colab, anda mungkin melihat contoh lukisannya.

Baca lebih lanjut mengenai AI:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

lebih banyak artikel
Damir Yalalov
Damir Yalalov

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

Hot Stories
Sertai Surat Berita Kami.
Berita Terkini

Hari Penghukuman Tiba: Nasib CZ Bergantung Seimbang apabila Mahkamah AS Mempertimbangkan Rayuan DOJ

Changpeng Zhao bersedia untuk menghadapi hukuman di mahkamah AS di Seattle hari ini.

Mengetahui lebih lanjut

Pengasas Samourai Wallet Dituduh Memudahkan $2B dalam Tawaran Darknet

Kebimbangan pengasas Samourai Wallet mewakili kemunduran yang ketara bagi industri, menekankan ...

Mengetahui lebih lanjut
Sertai Komuniti Teknologi Inovatif Kami
Untuk Lebih Lanjut
Baca lagi
Ahli Majlis Perundangan Hong Kong Wu Jiezhuang Isyarat Saman Sivil Terhadap Bursa Kripto JPEX
Perniagaan Laporan Berita Teknologi
Ahli Majlis Perundangan Hong Kong Wu Jiezhuang Isyarat Saman Sivil Terhadap Bursa Kripto JPEX
Semoga 2, 2024
AltLayer Memasuki Fasa Kedua Inisiatif Stakingnya, Memperkenalkan Token reALT
pasaran Laporan Berita Teknologi
AltLayer Memasuki Fasa Kedua Inisiatif Stakingnya, Memperkenalkan Token reALT
Semoga 2, 2024
Rantaian BNB Keluarkan Laporan S1 2024, Menyerlahkan Pengurangan 55.8% Dalam Kerugian Nilainya, Sementara BSC TVL Meningkat 70.8%
pasaran Laporan Berita Teknologi
Rantaian BNB Keluarkan Laporan S1 2024, Menyerlahkan Pengurangan 55.8% Dalam Kerugian Nilainya, Sementara BSC TVL Meningkat 70.8%
Semoga 2, 2024
Kaia Naver dan Kakao: Pusat Kuasa Rantaian Sekat Asia Baharu Bersedia Mengganggu Pasaran Kripto Global
Perniagaan perisian Cerita dan Ulasan Teknologi
Kaia Naver dan Kakao: Pusat Kuasa Rantaian Sekat Asia Baharu Bersedia Mengganggu Pasaran Kripto Global
Semoga 2, 2024