Nvidia mengumumkan eDiff-I: AI generatif baru untuk sintesis teks dan gambar dengan transfer gaya instan
Singkatnya
Nvidia meluncurkan eDiff-I untuk membantu bisnis membuat gambar yang menarik dan berkualitas tinggi
Teknik ediff-I secara teratur menghasilkan kualitas sintesis yang lebih baik daripada DALL-E2 dan Stable diffusion
eDiff-I adalah alat pembuat konten AI baru yang menyediakan kemampuan sintesis teks-ke-gambar yang belum pernah ada sebelumnya untuk pemasar dan bisnis, seperti yang baru-baru ini diumumkan oleh Nvidia. Dengan eDiff-I, bisnis dapat dengan cepat dan mudah membuat visual yang menarik dan berkualitas tinggi tanpa memerlukan peralatan mahal atau bantuan profesional. eDiff-I menggunakan pemrosesan bahasa alami (NLP) untuk menginterpretasikan input pengguna dan menghasilkan gambar yang sesuai. AI kemudian menganalisis gambar dan memilih yang paling sesuai berdasarkan konteksnya. Hasilnya adalah gambar profesional berkualitas tinggi yang dapat digunakan untuk berbagai tujuan, seperti materi pemasaran, postingan media sosial, kampanye email, dan lainnya.
eDiff-I adalah AI generatif generasi berikutnya alat pembuatan konten yang menyediakan belum pernah terjadi sebelumnya teks-ke-gambar sintesis, transfer gaya cepat, dan lukisan intuitif dengan kata-kata. Sebagai model difusi untuk membuat visual dari teks, eDiff-I menyarankan pelatihan ansambel jaringan denoising ahli, masing-masing khusus untuk interval kebisingan tertentu, sebagai tanggapan terhadap temuan empiris bahwa perilaku model difusi bervariasi pada fase pengambilan sampel yang berbeda.
Penyematan teks T5, penyematan gambar CLIP, dan penyisipan teks CLIP memberikan dasar untuk konsep ediff-I. Metodologi ini dapat menghasilkan grafik fotorealistik sebagai respons terhadap permintaan teks apa pun.
Ini menghadirkan dua kemampuan tambahan selain sintesis teks-ke-gambar: (1) transfer gaya, yang memungkinkan kita untuk mengontrol gaya sampel yang dihasilkan menggunakan gambar gaya referensi, dan (2) "Paint with Words", sebuah alat yang memungkinkan pengguna membuat gambar dengan mengecat peta segmentasi di atas kanvas.
Pipeline ini terdiri dari rangkaian tiga model difusi: model dasar yang dapat membuat sampel dengan resolusi 64×64 dan dua tumpukan resolusi super yang secara bertahap dapat meningkatkan sampel gambar ke resolusi masing-masing 256×256 dan 1024×1024. Model menghitung T5 XXL dan penyematan teks setelah menerima keterangan sebagai masukan. Penyematan gambar ini dapat digunakan sebagai vektor gaya. Kemudian, masukkan embeddings ini ke dalam cascaded kami model difusi, yang secara bertahap menghasilkan gambar dengan resolusi 1024 x 1024.
Pendekatan eDiff-I secara konsisten menghasilkan kualitas sintesis yang lebih baik jika dibandingkan dengan algoritme teks-ke-gambar sumber terbuka (Stable diffusion) dan (DALL-E2).
Ketika penyematan gambar CLIP digunakan, pendekatan eDiff-I memfasilitasi transfer gaya. eDiff-I pertama-tama mengekstrak file CLIP penyematan gambar dari gambar gaya referensi, yang dapat digunakan sebagai vektor referensi gaya. Referensi gaya dapat dilihat pada gambar di bawah panel kiri. Hasil saat pengondisian gaya diaktifkan ditampilkan di panel tengah. Hasil saat pengondisian gaya dimatikan ditampilkan di panel di sebelah kanan. Saat pengondisian gaya diterapkan, model eDiff-I membuat output yang juga sesuai dengan gaya teks masukan. Saat pengondisian gaya dimatikan, foto yang tampak alami dihasilkan.
Dengan memilih frasa dan mencoretnya pada gambar, pengguna metode eDiff-I dapat mengubah penempatan hal-hal yang tercantum dalam perintah teks. Setelah itu, model menggunakan prompt dan peta untuk membuat gambar yang kompatibel dengan keterangan dan peta masukan.
Baca artikel terkait:
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.
lebih artikelDamir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.