Model AI Teks-ke-Gambar
Apa itu Model AI Teks-ke-Gambar?
Model teks-ke-gambar adalah salah satu jenisnya Mesin belajar model yang menghasilkan gambar yang sesuai dengan deskripsi bahasa alami yang diberikan sebagai masukan. Model teks-ke-gambar biasanya terdiri dari dua komponen: model gambar generatif yang membuat gambar dikondisikan pada teks masukan, dan model bahasa yang mengubah teks menjadi representasi laten. Data teks dan gambar dalam jumlah besar yang diambil dari internet biasanya digunakan untuk melatih algoritme yang paling efisien.
Pemahaman Model AI Teks-ke-Gambar
Peneliti Universitas Toronto merilis alignDRAW, model teks-ke-gambar kontemporer pertama, pada tahun 2015. Arsitektur DRAW yang pertama kali diperkenalkan diperluas oleh alignDRAW untuk menyediakan pengondisian urutan teks. Meskipun gambar yang dihasilkan alignDRAW tidak memiliki fotorealisme dan kabur, model tersebut menunjukkan bahwa model tersebut mampu melakukan lebih dari sekadar “menghafal” konten set pelatihan dengan dapat menggeneralisasi item yang tidak disertakan dalam set pelatihan dan merespons dengan baik. isyarat baru.
Grafik OpenAI sistem transformator DALL-E adalah salah satu model teks-ke-gambar pertama yang menarik minat publik secara signifikan, diluncurkan pada Januari 2021. Pada bulan April 2022, DALL-E 2, pengganti yang dapat menghasilkan visual yang lebih kompleks dan hidup, adalah disajikan. Pada bulan Agustus tahun yang sama, Stable Diffusion telah tersedia untuk umum. Demonstrasi lebih lanjut dari “personalisasi” model dasar teks-ke-gambar besar terjadi pada bulan Agustus 2022. Dengan penyesuaian teks-ke-gambar, gagasan baru dapat diajarkan kepada model dengan sejumlah kecil foto dari suatu item yang tidak ada. Ini bukan bagian dari rangkaian pelatihan model dasar teks-ke-gambar, hal ini dicapai dengan inversi Tekstual.
terkait: 100+ Terbaik Stable Diffusion Anjuran: Anjuran Text-to-Image AI Terindah |
Masa Depan Model AI Teks-ke-Gambar
Komunitas kreatif meledak dengan seni AI, yang mendorong kita ke wilayah yang belum dijelajahi secara intelektual dan artistik. Meski aspek kreatifnya masih dieksplorasi, namun sudah mulai mengubah lingkungan citra artistik. Visual manusia yang cerdas melampaui apa pun yang pernah kita lihat di layar sudah diterima di benak kita. Salah satu kemajuan paling menarik adalah pembuatan teks-ke-gambar, yang memungkinkan komputer menghasilkan gambar sebagai respons terhadap perintah teks. Seniman menggunakan AI untuk memperluas imajinasi mereka setiap hari. Ketertarikan mereka lebih pada menyelidiki teknologi untuk membuat kota imajiner, menonton anjing menari di disko, atau mencoba mencari tahu apa yang akan terjadi di masa depan.
Berita Terkini tentang Model AI Text-to-Image
- Midjourney 5.2 dan Stable Diffusion SDXL 0.9 telah merilis pembaruan signifikan untuk menghasilkan gambar kreatif. Midjourney 5.2 memperkenalkan Zoom Out, variasi yang dapat disesuaikan, dan transformasi gambar 1:1. Ini juga memperkenalkan Outpainting, variasi yang dapat disesuaikan, dan parser cepat untuk mengoptimalkan perintah dan menyelaraskannya dengan niat pengguna. Pembaruan ini meningkatkan pengalaman pengguna dan meningkatkan akurasi dalam menghasilkan gambar yang realistis.
- SnapFusion adalah model AI yang memungkinkan pengguna membuat gambar menakjubkan dari deskripsi bahasa alami hanya dalam dua detik di perangkat seluler. Hal ini menghilangkan kebutuhan akan GPU mahal dan layanan berbasis cloud, mengurangi biaya dan mengatasi masalah privasi. Efisiensi dan performa model telah dibuktikan dalam eksperimen pada kumpulan data MS-COCO.
- Para peneliti telah mengembangkan GigaGAN, model text-to-image yang dapat menghasilkan gambar 4K dalam 3.66 detik, sebuah peningkatan yang signifikan dibandingkan model yang sudah ada. GigaGAN didasarkan pada kerangka GAN dan dilatih pada kumpulan data 1 miliar gambar, menghasilkan gambar 512 piksel dalam 0.13 detik. Ia memiliki ruang laten yang terurai, berkesinambungan, dan dapat dikontrol, memungkinkan berbagai gaya dan kontrol gambar. Model ini juga dapat melatih upsampler yang efisien untuk gambar atau keluaran nyata.
Postingan Sosial Terbaru tentang
«Kembali ke Indeks Daftar IstilahPenolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Viktoriia adalah seorang penulis tentang berbagai topik teknologi termasuk Web3.0, AI dan mata uang kripto. Pengalamannya yang luas memungkinkan dia untuk menulis artikel yang berwawasan luas untuk khalayak yang lebih luas.
lebih artikelViktoriia adalah seorang penulis tentang berbagai topik teknologi termasuk Web3.0, AI dan mata uang kripto. Pengalamannya yang luas memungkinkan dia untuk menulis artikel yang berwawasan luas untuk khalayak yang lebih luas.