Ulat sa Balita Teknolohiya
Setyembre 21, 2023

DALL-E 3 Release Amplifies OpenAIImpluwensya ni, Aalis Midjourney at Stable Diffusion sa likod ng

Sa madaling sabi

Ang DALL-E 3 ay nakatakdang isama nang walang putol GPT-4, partikular na iniakma para sa ChatGPT+ mga subscriber.

Ang DALL-E 3 ay umiiwas sa muling paglikha ng mga larawan ng mga pampublikong pigura kapag ang kanilang mga pangalan ay tahasang binanggit.

Ang timeline para sa pag-access sa DALL-E 3 ay nakatakda para sa Oktubre.

OpenAI ay inihayag ang pinakabagong paglikha nito: DALL-E3. Hindi tulad ng mga nauna nito, ang DALL-E 3 ay nakatuon sa pagpino sa minutiae, pagtugon sa mga isyu tulad ng pagkakasulat at masalimuot na mga detalye ng katawan, gaya ng mga daliri. Ang resulta? Isang hanay ng mga aesthetically kasiya-siyang larawan nang hindi nangangailangan ng mga kumplikadong prompt o workarounds.

DALL-E 3 Release Amplifies OpenAIImpluwensya ni, Aalis Midjourney at Stable Diffusion sa likod ng

Mahalagang tandaan na ang release na ito ay hindi kasama ng komprehensibong hanay ng mga detalye ng pagpapatupad, artikulo, o API. Sa halip, ang DALL-E 3 ay nakatakdang isama nang walang putol GPT-4, partikular na iniakma para sa ChatGPT+ mga subscriber.

Ang pag-unlad na ito ay maaaring hindi isang seismic shift sa AI landscape, ngunit sa halip ay isang hakbang pasulong sa pakikipagtulungan sa pagitan ng mga modelo. Inaasahan ng marami na ang susunod Stable Diffusion modelo ay mag-aalok ng mas higit na pagiging sopistikado at artistikong pag-akit.

Upang ilagay ito sa konteksto, OpenAIAng paglalakbay ni AI sa pagbuo ng imahe ay medyo isang biyahe:

  • 2021: Ang DALL-E 1, isang 12-bilyong modelo ng parameter, ay ipinakilala na may limitadong impormasyon.
  • 2021: Ang GLIDE, isang 2-bilyong parameter na modelo, ay inihayag kasama ng open-source na 300-milyong parameter na modelo.
  • 2022: Dumating ang DALL-E 2, gamit ang 2 bilyong parameter, na sinamahan ng isang unCLIP na papel at API.
  • 2023: Nakapasok na ang DALL-E 3, at habang ang mga detalye ay maaaring medyo misteryoso, isang bagay ang malinaw—ito ay isasama sa GPT-4 para ChatGPT+ mga subscriber.

Sa ngayon, ang mga visual ng DALL-E 3 ay nananatiling medyo kakaunti. Walang codebase, post sa blog, o detalyadong paghahambing sa state-of-the-art (SOTA). OpenAI mukhang nilalapit ang kanilang mga card sa kanilang dibdib.

DALL-E 3 Release Amplifies OpenAIImpluwensya ni, Aalis Midjourney at Stable Diffusion sa likod ng

Ang modelo ay tinuturing na nagtataglay ng mas malalim na pag-unawa sa mga nuances at mga detalye kumpara sa mga nauna nito. Nangangahulugan ito na ang pagsasalin ng iyong mga malikhaing konsepto sa lubos na tumpak na mga larawan ay inaasahang maging isang mas maayos na proseso.

Ang isang nakakaintriga na pangako ng DALL-E 3 ay ang pagsasama nito sa ChatGPT. Ito ay nagpapahiwatig na ang mga user ay hindi na kailangang makipagbuno sa paggawa ng masalimuot na mga senyas; isang maikling paglalarawan ay dapat sapat, na may ChatGPT mahusay na pagbuo ng mga detalyadong prompt para sa iyo.

OpenAI binigyang-diin din ang kahalagahan ng konteksto sa mahahabang senyas. Ang DALL-E 3 ay idinisenyo upang yakapin ang verbosity, na ginagawa itong mas naaayon sa kontekstong inilarawan sa malawak na mga senyas.

Gayunpaman, tulad ng anumang bagong modelo ng AI, mayroong isang elemento ng hindi alam. Habang ang mga paunang sulyap ay mukhang may pag-asa, ang totoong litmus test ay darating na may pinalawig na paggamit. Ang mga tanong ay nagtatagal tungkol sa kahusayan at bilis ng operasyon nito.

Malamang na ang DALL-E 3 ay isang multi-stage diffusion na proseso, na may GPT-4 nagsisilbing text encoder. Maaaring manatiling lihim ang masalimuot na mekanika ng setup na ito.

Ang timeline para sa pag-access sa DALL-E 3 ay nakatakda para sa Oktubre, sa simula para sa ChatGPT Dagdag pa at ChatGPT User ng enterprises, na may posibilidad ng mas malawak na pag-access para sa mga mananaliksik pagkatapos noon.

kaugnay: OpenAIAltman sa US Senate para Talakayin ang Mga Panganib ng AI

Nuances at sensura ng DALL-E 3

Ang pangunahing focal point ng pag-unlad ng DALL-E 3 ay ang maselang proseso ng pagpigil sa mga kakayahan nito. Kasama dito ang mahigpit na pagkakahanay at mga filter na idinisenyo upang ibukod ang mga partikular na uri ng nilalaman. Halimbawa, ang modelo ay mahigpit na tumatangging bumuo ng mga larawan ng mga sikat na personalidad, gumagaya ng mga likhang sining sa istilo ng mga kilalang artista, o lumikha ng anumang nilalamang itinuturing na hindi ligtas ng OpenAImaunawain ang mga pamantayan. Ang madiskarteng diskarte na ito ay hindi lamang tungkol sa mga limitasyon; isa itong proactive na hakbang na naglalayong protektahan ang kumpanya mula sa mga potensyal na legal na pagkakasalubong.

Gayunpaman, sa kabila ng mga filter at pagkakahanay na ito, lumilitaw ang ilang nakakaintriga na mga obserbasyon. Ang DALL-E 3 ay lumilitaw na nagpapakita ng isang tiyak na kahinaan pagdating sa pagbuo ng photorealistic na nilalaman. Sa halip na gumawa ng mga larawang gumagaya sa mga tunay na larawan nang walang kamali-mali, ang output ay may natatanging naka-istilong kalidad. Ang mga larawang ginawa ng AI na ito ay nagpapakita ng halos render at bahagyang plastik na hitsura. Kahit na tahasang na-prompt ng salitang "litrato," ang resulta ay nananatiling nakabaon sa katangian nitong stylization.

Prompt #1
Prompt #1: Close-up na larawan ng isang hermit crab na nakalagay sa basang buhangin, na may sea foam sa malapit at ang mga detalye ng shell nito at texture ng buhangin.
Prompt #2
Prompt #2: Ang isang makulay na dilaw na sopa na hugis saging ay nakaupo sa isang maaliwalas na sala, ang kurba nito ay duyan sa isang tumpok ng mga makukulay na unan. sa sahig na gawa sa kahoy, ang isang may pattern na alpombra ay nagdaragdag ng kakaibang kagandahan, at isang nakapaso na halaman ang nakaupo sa sulok, na umaabot patungo sa sinag ng araw na tumatagos sa bintana.
Prompt #3
Prompt #3: Isang larawan ng isang sinaunang pagkawasak ng barko na matatagpuan sa sahig ng karagatan. Inangkin ng mga halaman sa dagat ang istrakturang kahoy, at lumalangoy ang mga isda sa loob at labas ng mga guwang na espasyo nito. Ang mga lumubog na kayamanan at mga lumang kanyon ay nakakalat sa paligid, na nagbibigay ng isang sulyap sa nakaraan.

Kapansin-pansin na sa kabila ng mga kakaibang ito, ang DALL-E 3 ay nag-aalok ng isang sulyap ng kahanga-hangang potensyal. Sa mga likha nito, ang ilang pagkakataon ay nagpapakita ng kapansin-pansing pagkakahawig sa mga litrato. Upang tandaan na ang simulate na pagiging totoo ng mga larawang ito ay hindi kinakailangang umaayon sa kung paano lilitaw ang isang tunay na larawan ng parehong paksa, lalo na kung nakalubog sa ilalim ng tubig.

kaugnay: Inilabas ng Microsoft ang Designer, ang unang propesyonal na tool na Text-to-Image batay sa DALL-E 2

DALL-E 3 Mga Tampok at Detalye

Maglaan tayo ng ilang sandali upang suriing mabuti ang mga pixel at magbasa sa pagitan ng mga linya upang maunawaan kung ano talaga ang inaalok ng bagong modelong ito.

Ang Sining ng Stylization: Sinulyapan OpenAIInstagram account ni, mapapansin mo ang isang kasaganaan ng mga likhang sining na nailalarawan sa pamamagitan ng katangi-tanging stylization. Bagama't mayroong kahanga-hangang hanay ng mga abstract na komposisyon at disenyo, lumilitaw na umiiwas ang modelo sa paggawa ng photorealistic na nilalaman. Ang emphasis dito ay sa aesthetics at creativity, hindi paggaya sa realidad.

Masining na mga hadlang: Ang DALL-E 3 ay tumatagal ng ibang landas mula sa hinalinhan nito. Mahigpit itong tumatangging lumikha ng mga imahe sa istilo ng mga buhay na artista, isang matinding pag-alis mula sa DALL-E 2, na maaaring gayahin ang ilang istilo ng mga artista. Ito ay maaaring magtaas ng kilay sa malikhaing komunidad, katulad ng maligamgam na pagtanggap ng Stable Diffusion 2.0.

Empowering Artists: Sa isang hakbang upang igalang ang mga karapatan ng mga artista, OpenAI nagbibigay-daan sa mga artist na ibukod ang kanilang gawa sa mga hinaharap na bersyon ng DALL-E. Sa pamamagitan ng pagsusumite ng larawang pagmamay-ari nila, maaaring hilingin ng mga artist ang pagbubukod nito sa output ng modelo. Ang mga pag-ulit sa hinaharap ng DALL-E ay maiiwasan ang pagbuo ng nilalaman na kahawig ng estilo ng artista.

Seguridad at Censorship: OpenAIAng paranoya ni tungkol sa seguridad ay kapansin-pansin. Nakipagtulungan sila sa mga panlabas na "mga pulang koponan" upang subukan ang seguridad ng modelo at gumamit ng mga input classifier upang turuan ang modelo na huwag pansinin ang mga partikular na salita na maaaring humantong sa tahasan o nakakapinsalang nilalaman. Ang DALL-E 3 ay umiiwas sa muling paglikha ng mga larawan ng pampublikong mga numero kapag tahasang binanggit ang kanilang mga pangalan. Nananatiling hindi sigurado kung nasa ilalim ng kategoryang ito ang mga celebrity, na posibleng makaapekto sa kalidad ng mga nabuong mukha.

Mga Watermark at Pagsubaybay: May pahiwatig sa pag-embed ng mga tag upang subaybayan ang "mga imaheng binuo ng AI," na nagpapahiwatig ng isang hakbang patungo sa mas mahusay na pagsubaybay at potensyal na pag-watermark ng nabuong nilalaman.

Pinahusay ang Teksto at Kamay: OpenAI pinahusay ang pagbuo ng text at hand rendering, isang karaniwang paghahabol sa mga kakumpitensya. Ang tunay na pagsubok ay nakasalalay sa aktwal na output na lampas sa mga halimbawang pinili ng cherry.

Spatial Comprehension: Ang DALL-E 3 ay mahusay sa pag-unawa sa mga spatial na relasyon na inilarawan sa mga senyas. Pinahuhusay nito ang kakayahan ng modelo na bumuo ng mga kumplikadong anggulo at komposisyon, kahit na ang mga gumagamit ay naghihintay ng mas konkretong ebidensya ng pangakong ito.

Ang Kapangyarihan ng Mga Prompt: Ang pinakabuod ng DALL-E3 namamalagi sa mabilis nitong kakayahan at pagsasama sa ChatGPT. Nangangako ito ng automation, bilis, at pagpapasimple ng maagap na disenyo. Ang uso dito ay patungo chatGPT pagbuo ng mga senyas, pagsasalin ng hindi malinaw na mga ideya o mga pasimulang senyales sa mga magaling magsalita. Ang pinahusay na pag-unawa sa konteksto ng DALL-E 3 ay nag-streamline sa proseso, na nagpapahintulot sa mga user na tumuon sa layunin kaysa sa verbosity.

Mga Uncharted Teritoryo: Kapansin-pansing wala sa talakayan ang mga aspeto tulad ng inpainting, outpainting, generative fill, at 3D modeling. Ang kawalan ng mga feature na ito ay maaaring isang limitasyon, lalo na para sa mga user na nakasanayan na sa mas maraming nalalaman na mga modelo.

Mga Detalye ng Access: DALL-E 3 ay nakatakdang maging available sa ChatGPT Mga customer ng Plus at Enterprise sa unang bahagi ng Oktubre. Gayunpaman, ang mga detalye tungkol sa paglalaan ng mga kredito para sa ChatGPT Nananatiling hindi malinaw ang mga user at ang nauugnay na mga gastos. Ibibigay ang access sa pamamagitan ng API at ang OpenAI Labs platform "mamaya sa taglagas."

Kahusayan ng Pagsasama: Ang DALL-E ay nakatakdang isama nang walang putol sa mga kasosyo at mga produkto ng Microsoft. Asahan na masaksihan ang pagbuo ng mga presentasyon, mga ilustrasyon, mga disenyo, mga logo, lahat sa konteksto at pinalaki sa tulong ng ChatGPT. Ang pagsasama-samang ito ay nakatakdang maging mainstream, na naghaharap ng isang malaking hamon sa mga kakumpitensya tulad Google kasama ang Bard nito at Ideogram.

Ang Convergence ng LLM at Visual na Nilalaman: Ang pinaka nakakaintriga na aspeto ay nakasalalay sa convergence ng Large Language Models (LLMs) at visual content generation models. Nangangahulugan ito ng pagbabago mula sa kumplikadong maagang inhinyero patungo sa pagpapahayag ng mga ideya sa isang mas madaling ma-access na wika. Ang AI ay kukuha ng konteksto at mga ideya mula sa mga ekspresyong ito, na nag-aalok ng mga malikhaing posibilidad na mahirap labanan.

kaugnay: Nangungunang 50 Text-to-Image Prompt para sa AI Art Generators Midjourney at DALL-E

DALL-E 3: Maging Bagong Lider sa AI Image Generation

OpenAIang desisyon na isama ang DALL-E 3 sa ChatGPT ecosystem ay isang madiskarteng hakbang. Ang pagsasamang ito ay nagbibigay sa DALL-E 3 ng access sa isang malawak na database ng user na may 100 milyong aktibong user. Ang hakbang na ito ay makabuluhang pinahusay ang pagiging naa-access ng DALL-E 3 at may potensyal na i-catapult ang katanyagan nito.

Sa kasalukuyan, Midjourney at Stable Diffusion magyabang sa paligid 15 milyong mga gumagamit na nakarehistro. Gayunpaman, sa pagsasamang ito, nakatakda ang DALL-E 3 na magkaroon ng access sa isang user base nang sampung beses na mas malaki—100 milyong mga user. Ginagawa nitong ang ChatGPT Dagdag na subscription planuhin ang lahat ng mas nakakaakit, dahil nag-aalok ito ng access sa isang chatbot, analytical tool, at pagbuo ng imahe, lahat sa abot-kayang presyo.

Ang pagsasama ay hindi lamang kapaki-pakinabang para sa mga umiiral nang user ngunit nagsisilbi rin bilang isang malakas na magnet para sa mga bagong user. Pinapalawak nito ang OpenAI abot at katanyagan ng ecosystem, na kumukuha ng mga indibidwal na naghahanap ng mga solusyon sa content na binuo ng AI.

Ang madiskarteng hakbang na ito ay nakahanda upang mapalakas OpenAIkita at iba pang pangunahing sukatan. Ang mga namumuhunan ng kumpanya ay malamang na tingnan ang pag-unlad na ito nang paborable, lalo na sa liwanag ng isang kamakailang 20% pagbaba sa dami ng trapiko sa tag-araw.

DALL-E 3 Release Amplifies OpenAIImpluwensya ni, Aalis Midjourney at Stable Diffusion sa likod ng
ChatGPT Bumaba ng 20% ​​ang Trapiko sa Web noong Setyembre at Patuloy na Bumagsak

Magbasa ng higit pang mga kaugnay na paksa:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mula sa Ripple hanggang sa The Big Green DAO: Paano Nag-aambag ang Mga Proyekto ng Cryptocurrency sa Charity

Tuklasin natin ang mga hakbangin na gumagamit ng potensyal ng mga digital na pera para sa mga layuning pangkawanggawa.

Malaman Higit Pa

AlphaFold 3, Med-Gemini, at iba pa: The Way AI Transforms Healthcare in 2024

Ang AI ay nagpapakita sa iba't ibang paraan sa pangangalagang pangkalusugan, mula sa pagtuklas ng mga bagong genetic correlations hanggang sa pagpapalakas ng mga robotic surgical system ...

Malaman Higit Pa
Magbasa Pa
Magbasa nang higit pa
Unveiling Ang Kinabukasan Ng GameFi: Anim na Innovator Upang Mangibabaw Web3 Landscape ng Gaming Sa 2025
Pamumuhay Ulat sa Balita Teknolohiya
Unveiling Ang Kinabukasan Ng GameFi: Anim na Innovator Upang Mangibabaw Web3 Landscape ng Gaming Sa 2025
Enero 13, 2025
Bitfinex: Lumalago ang Pag-iingat sa Crypto Market, Ngunit Nananatiling Matatag ang Bitcoin
markets Ulat sa Balita Teknolohiya
Bitfinex: Lumalago ang Pag-iingat sa Crypto Market, Ngunit Nananatiling Matatag ang Bitcoin
Enero 13, 2025
Sa kabila ng Mga Kamakailang Pullback at Pagbabago ng Market, Nananatiling Tiwala ang Grayscale sa Pangmatagalang Bullish na Outlook para sa Crypto
Palagay Negosyo markets Teknolohiya
Sa kabila ng Mga Kamakailang Pullback at Pagbabago ng Market, Nananatiling Tiwala ang Grayscale sa Pangmatagalang Bullish na Outlook para sa Crypto
Enero 13, 2025
Sinuspinde ng UniSat ang Mga Serbisyo sa Market ng CAT20 Habang Sumasailalim ang CAT Protocol sa Update
Ulat sa Balita Teknolohiya
Sinuspinde ng UniSat ang Mga Serbisyo sa Market ng CAT20 Habang Sumasailalim ang CAT Protocol sa Update
Enero 13, 2025
CRYPTOMERIA LABS PTE. LTD.