Laporan Berita Teknologi
September 21, 2023

Pelepasan DALL-E 3 Menguatkan OpenAIPengaruh, Meninggalkan Midjourney and Stable Diffusion Di belakang

Secara ringkas

DALL-E 3 ditetapkan untuk disepadukan dengan lancar GPT-4, disesuaikan khusus untuk ChatGPT+ pelanggan.

DALL-E 3 mengelak daripada mencipta semula imej tokoh awam apabila nama mereka disebut secara eksplisit.

Garis masa untuk akses kepada DALL-E 3 ditetapkan pada bulan Oktober.

OpenAI telah melancarkan ciptaan terbarunya: DALL-E3. Tidak seperti pendahulunya, DALL-E 3 memfokuskan pada memperhalusi butiran kecil, menangani isu seperti huruf dan butiran badan yang rumit, seperti jari. Keputusan? Satu susunan imej yang menyenangkan dari segi estetika tanpa memerlukan gesaan atau penyelesaian yang kompleks.

Pelepasan DALL-E 3 Menguatkan OpenAIPengaruh, Meninggalkan Midjourney and Stable Diffusion Di belakang

Adalah penting untuk ambil perhatian bahawa keluaran ini tidak disertakan dengan set lengkap butiran pelaksanaan, artikel atau API. Sebaliknya, DALL-E 3 ditetapkan untuk disepadukan dengan lancar GPT-4, disesuaikan khusus untuk ChatGPT+ pelanggan.

Perkembangan ini mungkin bukan anjakan seismik dalam landskap AI, sebaliknya satu langkah ke hadapan dalam kerjasama antara model. Ramai menjangkakan bahawa seterusnya Stable Diffusion model akan menawarkan kecanggihan dan daya tarikan artistik yang lebih hebat.

Untuk meletakkannya dalam konteks, OpenAIPerjalanan melalui penjanaan imej AI adalah perjalanan yang agak sukar:

  • 2021: DALL-E 1, model parameter 12 bilion, telah diperkenalkan dengan maklumat terhad.
  • 2021: GLIDE, model parameter 2 bilion, telah diperkenalkan bersama-sama dengan model parameter 300 juta sumber terbuka.
  • 2022: DALL-E 2 tiba, menggunakan 2 bilion parameter, disertakan dengan kertas unCLIP dan API.
  • 2023: DALL-E 3 telah masuk, dan walaupun butirannya mungkin agak samar, satu perkara yang jelas—ia akan disepadukan dengan GPT-4 Untuk ChatGPT+ pelanggan.

Sehingga kini, visual DALL-E 3 masih agak terhad. Tiada asas kod, catatan blog atau perbandingan terperinci dengan tercanggih (SOTA). OpenAI nampaknya menyimpan kad mereka dekat dengan dada mereka.

Pelepasan DALL-E 3 Menguatkan OpenAIPengaruh, Meninggalkan Midjourney and Stable Diffusion Di belakang

Model ini disebut-sebut mempunyai pemahaman yang lebih mendalam tentang nuansa dan butiran berbanding pendahulunya. Ini bermakna menterjemahkan konsep kreatif anda kepada imej yang sangat tepat dijangka menjadi proses yang lebih lancar.

Satu janji menarik DALL-E 3 ialah penyepaduannya dengan ChatGPT. Ini menunjukkan bahawa pengguna tidak perlu bergelut dengan membuat gesaan yang rumit; penerangan ringkas sepatutnya memadai, dengan ChatGPT cekap menjana gesaan terperinci bagi pihak anda.

OpenAI juga telah menekankan kepentingan konteks dalam gesaan yang panjang. DALL-E 3 direka bentuk untuk menerima kata kerja, menjadikannya lebih selaras dengan konteks yang diterangkan dalam gesaan yang meluas.

Namun, seperti mana-mana model AI baharu, terdapat unsur yang tidak diketahui. Walaupun gambaran awal kelihatan menjanjikan, ujian litmus sebenar akan datang dengan penggunaan lanjutan. Soalan berlarutan tentang kecekapan dan kelajuan operasinya.

Kemungkinan DALL-E 3 akan menjadi proses penyebaran berbilang peringkat, dengan GPT-4 berfungsi sebagai pengekod teks. Mekanik rumit persediaan ini mungkin masih diselubungi kerahsiaan.

Garis masa untuk akses kepada DALL-E 3 ditetapkan pada bulan Oktober, pada mulanya untuk ChatGPT Tambah dan ChatGPT Pengguna perusahaans, dengan kemungkinan akses yang lebih luas untuk penyelidik selepas itu.

Berkaitan: OpenAIAltman di Senat AS untuk Membincangkan Risiko AI

Nuansa and Penapisan daripada DALL-E 3

Titik fokus utama pembangunan DALL-E 3 adalah proses yang teliti untuk mengekang keupayaannya. Ini melibatkan penjajaran ketat dan penapis yang direka untuk mengecualikan jenis kandungan tertentu. Sebagai contoh, model itu dengan tegas enggan menjana imej personaliti terkenal, meniru karya seni dalam gaya artis terkenal, atau mencipta sebarang kandungan yang dianggap tidak selamat oleh OpenAIpiawaian yang bijak. Pendekatan strategik ini bukan hanya mengenai batasan; ia adalah langkah proaktif yang bertujuan untuk melindungi syarikat daripada kemungkinan keterjeratan undang-undang.

Namun, di luar penapis dan penjajaran ini, beberapa pemerhatian yang menarik terserlah. DALL-E 3 nampaknya menunjukkan kelemahan tertentu apabila ia datang untuk menjana kandungan fotorealistik. Daripada menghasilkan imej yang meniru gambar sebenar dengan sempurna, outputnya membawa kualiti gaya yang berbeza. Gambar buatan AI ini memancarkan rupa yang hampir terhasil dan sedikit plastik. Walaupun secara eksplisit digesa dengan perkataan "fotograf", hasilnya tetap berakar umbi dalam penggayaan cirinya.

Gesaan #1
Gesaan #1: Gambar jarak dekat ketam bertapa yang terletak di dalam pasir basah, dengan buih laut berdekatan dan butiran cangkerang serta tekstur pasirnya diserlahkan.
Gesaan #2
Gesaan #2: Sebuah sofa berwarna kuning cerah berbentuk pisang terletak di ruang tamu yang selesa, lengkungannya membuai timbunan kusyen berwarna-warni. di atas lantai kayu, permaidani bercorak menambah sentuhan pesona eklektik, dan tumbuhan pasu duduk di sudut, menjangkau ke arah cahaya matahari yang menapis melalui tingkap.
Gesaan #3
Gesaan #3: Foto bangkai kapal purba yang terletak di dasar laut. Tumbuhan marin telah menuntut struktur kayu, dan ikan berenang masuk dan keluar dari ruang kosongnya. Khazanah tenggelam dan meriam lama bertaburan, memberikan gambaran masa lalu.

Perlu diingat bahawa di sebalik keistimewaan ini, DALL-E 3 memang menawarkan gambaran potensi yang luar biasa. Di antara ciptaannya, beberapa contoh mempamerkan persamaan yang ketara dengan gambar. Perlu diingat bahawa realisme simulasi imej ini tidak semestinya sejajar dengan cara gambar tulen subjek yang sama akan muncul, terutamanya jika tenggelam di dalam air.

Berkaitan: Microsoft melancarkan Designer, alat Teks-ke-Imej profesional pertama berdasarkan DALL-E 2

DALL-E 3 Ciri dan Butiran

Mari luangkan sedikit masa untuk menapis piksel dan membaca antara baris untuk memahami perkara yang sebenarnya ditawarkan oleh model baharu ini.

Seni Penggayaan: Melirik OpenAIakaun Instagram, anda akan melihat banyak karya seni yang dicirikan oleh penggayaan yang indah. Walaupun terdapat pelbagai komposisi dan reka bentuk abstrak yang mengagumkan, model itu nampaknya mengelak daripada menghasilkan kandungan fotorealistik. Penekanan di sini adalah pada estetika dan kreativiti, bukan meniru realiti.

Kekangan Artistik: DALL-E 3 mengambil jalan yang berbeza daripada pendahulunya. Ia sekeras-kerasnya enggan mencipta imej dalam gaya artis yang hidup, yang berbeza daripada DALL-E 2, yang boleh meniru gaya artis tertentu. Ini mungkin menimbulkan keresahan dalam komuniti kreatif, sama seperti penerimaan suam-suam kuku Stable Diffusion 2.0.

Memperkasakan Seniman: Dalam langkah menghormati hak artis, OpenAI membenarkan artis mengecualikan karya mereka daripada versi DALL-E yang akan datang. Dengan menyerahkan imej yang mereka miliki haknya, artis boleh meminta pengecualiannya daripada keluaran model. Lelaran masa depan DALL-E kemudiannya akan mengelak daripada menjana kandungan yang menyerupai gaya artis.

Keselamatan dan Penapisan: OpenAIParanoia tentang keselamatan dapat dirasai. Mereka telah bekerjasama dengan "pasukan merah" luar untuk menguji keselamatan model dan menggunakan pengelas input untuk mengajar model untuk mengabaikan perkataan tertentu yang boleh membawa kepada kandungan yang jelas atau berbahaya. DALL-E 3 mengelak daripada mencipta semula imej tokoh masyarakat apabila nama mereka disebut dengan jelas. Sama ada selebriti berada di bawah kategori ini masih tidak pasti, yang berpotensi menjejaskan kualiti wajah yang dihasilkan.

Tera air dan Penjejakan: Terdapat petunjuk pada pembenaman teg untuk menjejaki "imej yang dijana AI", yang menunjukkan langkah ke arah pemantauan yang lebih baik dan berpotensi menanda air kandungan yang dijana.

Teks dan Tangan Diperbaiki: OpenAI mempertingkatkan penjanaan teks dan rendering tangan, tuntutan biasa di kalangan pesaing. Ujian sebenar terletak pada output sebenar di luar contoh yang dipilih ceri.

Pemahaman Ruang: DALL-E 3 cemerlang dalam memahami perhubungan spatial yang diterangkan dalam gesaan. Ini meningkatkan keupayaan model untuk membina sudut dan gubahan yang kompleks, walaupun pengguna menunggu bukti yang lebih konkrit tentang janji ini.

Kuasa Gesaan: Inti dari DALL-E3 terletak pada keupayaan segera dan integrasi dengan ChatGPT. Ia menjanjikan automasi, kelajuan dan penyederhanaan reka bentuk segera. Trend di sini adalah ke arah chatGPT menjana gesaan, menterjemah idea yang samar-samar atau gesaan asas kepada yang fasih. Pemahaman kontekstual DALL-E 3 yang dipertingkatkan menyelaraskan proses, membolehkan pengguna menumpukan pada niat berbanding verbositi.

Wilayah yang belum dipetakan: Yang ketara tidak hadir dalam perbincangan ialah aspek seperti lukisan dalam, cat luar, isian generatif dan pemodelan 3D. Ketiadaan ciri ini boleh menjadi had, terutamanya bagi pengguna yang terbiasa dengan model yang lebih serba boleh.

Butiran Akses: DALL-E 3 ditetapkan untuk tersedia untuk ChatGPT Pelanggan Plus dan Enterprise pada awal Oktober. Walau bagaimanapun, butiran mengenai peruntukan kredit untuk ChatGPT Selain itu, pengguna dan kos yang berkaitan masih tidak jelas. Akses akan diberikan melalui API dan OpenAI Platform makmal "kemudian pada musim luruh".

Kehebatan Integrasi: DALL-E ditetapkan untuk disepadukan dengan lancar ke dalam produk rakan kongsi dan Microsoft. Berharap untuk menyaksikan penjanaan persembahan, ilustrasi, reka bentuk, logo, semuanya dalam konteks dan diperkuat dengan bantuan daripada ChatGPT. Penyepaduan ini ditetapkan untuk menjadi arus perdana, menimbulkan cabaran penting kepada pesaing seperti Google dengan Bardnya dan Ideogram.

Konvergensi LLM dan Kandungan Visual: Aspek yang paling menarik terletak pada penumpuan Model Bahasa Besar (LLM) dan model penjanaan kandungan visual. Ia menandakan peralihan daripada kejuruteraan segera yang kompleks kepada menyatakan idea dalam bahasa yang lebih mudah diakses. AI akan mengumpulkan konteks dan idea daripada ungkapan ini, menawarkan kemungkinan kreatif yang sukar untuk ditolak.

Berkaitan: 50 Gesaan Teks-ke-Imej Teratas untuk Penjana Seni AI Midjourney dan DALL-E

DALL-E 3: Jadilah Pemimpin Baharu dalam Penjanaan Imej AI

OpenAIkeputusan untuk mengintegrasikan DALL-E 3 ke dalam ChatGPT ekosistem adalah satu langkah strategik. Penyepaduan ini memberikan DALL-E 3 akses kepada pangkalan data pengguna yang luas dengan 100 juta pengguna aktif. Langkah ini dengan ketara meningkatkan kebolehcapaian DALL-E 3 dan berpotensi melonjakkan popularitinya.

Pada masa ini, Midjourney and Stable Diffusion bermegah-megah 15 juta pengguna berdaftar. Walau bagaimanapun, dengan penyepaduan ini, DALL-E 3 ditetapkan untuk mendapatkan akses kepada pangkalan pengguna sepuluh kali lebih besar—100 juta pengguna. Ini menjadikan ChatGPT Langganan tambahan merancang dengan lebih menarik, kerana ia menawarkan akses kepada chatbot, alat analisis dan penjanaan imej, semuanya pada titik harga yang berpatutan.

Penyepaduan ini bukan sahaja berfaedah untuk pengguna sedia ada tetapi juga berfungsi sebagai magnet yang kuat untuk pengguna baharu. Ia mengembangkan OpenAI jangkauan dan populariti ekosistem, menarik minat individu yang mencari penyelesaian kandungan yang dijana AI.

Langkah strategik ini bersedia untuk ditingkatkan OpenAIhasil dan metrik utama yang lain. Pelabur syarikat mungkin akan melihat perkembangan ini dengan baik, terutamanya memandangkan baru-baru ini Penurunan 20% dalam jumlah trafik semasa musim panas.

ChatGPT Trafik Web Jatuh 20% pada September dan Terus Merudum

Baca lebih banyak topik berkaitan:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

lebih banyak artikel
Damir Yalalov
Damir Yalalov

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

Dari Ripple kepada The Big Green DAO: Bagaimana Projek Mata Wang Kripto Menyumbang kepada Amal

Mari kita terokai inisiatif yang memanfaatkan potensi mata wang digital untuk tujuan amal.

Mengetahui lebih lanjut

AlphaFold 3, Med-Gemini, dan lain-lain: The Way AI Transforms Healthcare in 2024

AI menjelma dalam pelbagai cara dalam penjagaan kesihatan, daripada mendedahkan korelasi genetik baharu kepada memperkasakan sistem pembedahan robotik ...

Mengetahui lebih lanjut
Sertai Komuniti Teknologi Inovatif Kami
Lebih Lanjut
Maklumat Lanjut
10 Alat AI Percuma Teratas untuk Penciptaan Kandungan, Penyuntingan Video dan Banyak Lagi
AI Wiki Digest Pendidikan Gaya hidup perisian Teknologi
10 Alat AI Percuma Teratas untuk Penciptaan Kandungan, Penyuntingan Video dan Banyak Lagi
Semoga 14, 2024
Suruhanjaya Sekuriti Hong Kong Memberi Amaran tentang Penipuan Deepfake yang Menyasarkan Industri Kripto: Implikasi untuk Keselamatan Pelabur
Gaya hidup Keselamatan Wiki perisian Cerita dan Ulasan Teknologi
Suruhanjaya Sekuriti Hong Kong Memberi Amaran tentang Penipuan Deepfake yang Menyasarkan Industri Kripto: Implikasi untuk Keselamatan Pelabur
Semoga 14, 2024
Ripple Dan Evmos Bekerjasama Membangunkan XRP Ledger EVM Sidechain Dengan Teknologi EvmOS
Perniagaan Laporan Berita Teknologi
Ripple Dan Evmos Bekerjasama Membangunkan XRP Ledger EVM Sidechain Dengan Teknologi EvmOS
Semoga 14, 2024
5ireChain Memulakan Insentif 'Testnet Thunder: GA' Untuk Ujian Tekanan Rangkaian, Menjemput Pengguna Untuk Menyertai Airdrop Ganjaran
Laporan Berita Teknologi
5ireChain Memulakan Insentif 'Testnet Thunder: GA' Untuk Ujian Tekanan Rangkaian, Menjemput Pengguna Untuk Menyertai Airdrop Ganjaran
Semoga 14, 2024