DALL-E 3 Release vahvistaa OpenAIn vaikutus, lähteminen Midjourney ja Stable Diffusion Takana
Lyhyesti
DALL-E 3 on asetettu integroitavaksi saumattomasti GPT-4, erityisesti räätälöity ChatGPT+ tilaajia.
DALL-E 3 pidättäytyy luomasta kuvia julkisuuden henkilöistä, kun heidän nimensä mainitaan erikseen.
DALL-E 3:n käyttöaikajana on lokakuu.
OpenAI on julkistanut uusimman luomuksensa: DALL-E3. Päinvastoin kuin edeltäjänsä, DALL-E 3 keskittyy yksityiskohtien jalostukseen ja käsittelee ongelmia, kuten kirjaimia ja monimutkaisia kehon yksityiskohtia, kuten sormia. Lopputulos? Joukko esteettisesti miellyttäviä kuvia ilman monimutkaisia kehotteita tai kiertotapoja.
On tärkeää huomata, että tämä julkaisu ei sisällä kattavia toteutustietoja, artikkeleita tai sovellusliittymiä. Sen sijaan DALL-E 3 on integroitu saumattomasti GPT-4, erityisesti räätälöity ChatGPT+ tilaajia.
Tämä kehitys ei välttämättä ole seisminen muutos tekoälymaisemassa, vaan pikemminkin askel eteenpäin mallien välisessä yhteistyössä. Monet odottavat, että seuraava Stable Diffusion malli tarjoaa entistä hienostuneempaa ja taiteellista vetovoimaa.
Laitetaan asia kontekstiin, OpenAIHänen matka tekoälykuvan luomiseen on ollut melkoinen matka:
- 2021: DALL-E 1, 12 miljardin parametrimalli, esiteltiin rajoitetulla tiedolla.
- 2021: GLIDE, 2 miljardin parametrin malli, julkistettiin yhdessä avoimen lähdekoodin 300 miljoonan parametrimallin kanssa.
- 2022: DALL-E 2 saapui 2 miljardilla parametrilla, mukana unCLIP-paperi ja API.
- 2023: DALL-E 3 on tullut esille, ja vaikka yksityiskohdat saattavat olla jokseenkin salaperäisiä, yksi asia on selvä – se integroituu GPT-4 varten ChatGPT+ tilaajia.
Toistaiseksi DALL-E 3:n visuaalinen ilme on jäänyt hieman niukasti. Siinä ei ole koodipohjaa, blogikirjoitusta tai yksityiskohtaista vertailua huipputekniikan (SOTA) kanssa. OpenAI näyttää pitävän korttinsa lähellä rintaansa.
Mallilla mainostetaan edeltäjiinsä verrattuna syvempää ymmärrystä vivahteista ja yksityiskohdista. Tämä tarkoittaa, että luovien konseptien kääntämisen erittäin tarkkoiksi kuviksi odotetaan olevan sujuvampi prosessi.
Yksi DALL-E 3:n kiehtova lupaus on sen integrointi ChatGPT. Tämä tarkoittaa, että käyttäjien ei tarvitse painiskella monimutkaisten kehotteiden kanssa. lyhyen kuvauksen pitäisi riittää ChatGPT luoda yksityiskohtaisia kehotteita puolestasi.
OpenAI on myös korostanut kontekstin merkitystä pitkissä kehotteissa. DALL-E 3 on suunniteltu omaksumaan monisanaisuus, mikä tekee siitä paremmin sopeutetun laajoissa kehotteissa kuvattuun kontekstiin.
Kuitenkin, kuten missä tahansa uudessa tekoälymallissa, siinä on osa tuntematonta. Vaikka ensimmäiset välähdykset näyttävät lupaavilta, todellinen lakmustesti tulee pidennetyssä käytössä. Sen tehokkuudesta ja toiminnan nopeudesta herää kysymyksiä.
On todennäköistä, että DALL-E 3 on monivaiheinen diffuusioprosessi GPT-4 toimii tekstinkooderina. Tämän asennuksen monimutkainen mekaniikka saattaa jäädä salaisuuksien peittoon.
Aikajana DALL-E 3:n käyttöön on asetettu lokakuulle, alun perin vuodelle ChatGPT Plus ja ChatGPT Yrityskäyttäjäs, ja sen jälkeen tutkijoilla on mahdollisuus laajentaa pääsyä niihin.
vivahteet ja Sensuuri DALL-E 3:sta
DALL-E 3:n kehityksen ensisijainen painopiste oli sen ominaisuuksien huolellinen hillitseminen. Tämä sisälsi tiukat kohdistukset ja suodattimet, jotka on suunniteltu sulkemaan pois tietyntyyppinen sisältö. Malli esimerkiksi kieltäytyy jyrkästi luomasta kuvia kuuluisista persoonallisuuksista, kopioimasta taideteoksia tunnettujen taiteilijoiden tyyliin tai luomasta mitään sisältöä, jota hän pitää vaarallisena. OpenAIvaativat standardit. Tämä strateginen lähestymistapa ei ole vain rajoituksia; se on ennakoiva toimenpide, jonka tarkoituksena on suojata yritystä mahdollisilta oikeudellisilta sotkeutumisilta.
Silti näiden suodattimien ja kohdistusten lisäksi tulee esiin joitain kiehtovia havaintoja. DALL-E 3 näyttää osoittavan tiettyä heikkoutta fotorealistisen sisällön luomisessa. Sen sijaan, että tuottaisi kuvia, jotka jäljittelevät virheettömästi oikeita valokuvia, tulosteen laatu on selkeästi tyylitelty. Nämä tekoälyllä tehdyt kuvat huokuvat lähes renderoidun ja hieman plastisen ulkonäön. Jopa silloin, kun sitä kehotetaan nimenomaisesti sanalla "valokuva", tulos pysyy juurtuneena sen tyypilliseen tyylitelmään.
On syytä huomata, että näistä omituisuuksista huolimatta DALL-E 3 tarjoaa välähdyksen huomattavasta potentiaalista. Sen luomuksista joissakin tapauksissa on silmiinpistävää yhtäläisyyttä valokuvien kanssa. Muista, että näiden kuvien simuloitu realismi ei välttämättä vastaa sitä, miltä aito valokuva samasta kohteesta näyttäisi, varsinkin jos se upotetaan veden alle.
DALL-E 3 Ominaisuudet ja yksityiskohdat
Seulotaan hetki pikseleitä ja luetaan rivien välistä ymmärtääksemme, mitä tämä uusi malli todella tarjoaa.
Tyylitoinnin taito: Vilkaista läpi OpenAIn Instagram-tiliä, huomaat runsaasti taideteoksia, joille on ominaista hieno tyylitelty. Vaikka abstrakteja koostumuksia ja malleja on vaikuttava valikoima, malli näyttää välttävän fotorealistisen sisällön tuottamista. Painopiste on tässä estetiikassa ja luovuudessa, ei todellisuuden matkimisessa.
Taiteelliset rajoitteet: DALL-E 3 kulkee eri tavalla kuin edeltäjänsä. Se kieltäytyy jyrkästi luomasta kuvia elävien taiteilijoiden tyyliin, mikä on jyrkkä poikkeama DALL-E 2:sta, joka voisi jäljitellä tiettyjen taiteilijoiden tyylejä. Tämä saattaa nostaa kulmakarvoja luovassa yhteisössä, kuten haalea vastaanotto Stable Diffusion 2.0.
Taiteilijoiden voimaannuttaminen: Pyrkiessään kunnioittamaan taiteilijoiden oikeuksia OpenAI sallii taiteilijoiden sulkea työnsä pois tulevista DALL-E-versioista. Lähettämällä kuvan, johon he omistavat oikeudet, taiteilijat voivat pyytää sen poissulkemista mallin tuotannosta. Tulevat DALL-E:n iteraatiot välttävät sitten luomasta sisältöä, joka muistuttaa DALL-E:tä taiteilijan tyyliin.
Turvallisuus ja sensuuri: OpenAIVainoharhaisuus turvallisuudesta on käsinkosketeltavaa. He ovat tehneet yhteistyötä ulkoisten "punaisten ryhmien" kanssa mallin turvallisuuden testaamiseksi ja käyttäneet syöttöluokittajia, jotka opettavat mallia jättämään huomiotta tietyt sanat, jotka voivat johtaa avoimeen tai haitalliseen sisältöön. DALL-E 3 pidättäytyy luomasta kuvia uudelleen julkisuuden henkilöt kun heidän nimensä mainitaan erikseen. Kuuluvatko julkkikset tähän luokkaan, on edelleen epävarmaa, mikä saattaa vaikuttaa luotujen kasvojen laatuun.
Vesileimat ja seuranta: Siinä on vihje tagien upottamisesta "AI-generated images" -seurantaan, mikä osoittaa siirtymistä kohti parempaa seurantaa ja mahdollisesti luodun sisällön vesileimaa.
Tekstiä ja käsiä paranneltu: OpenAI parantaa tekstin luontia ja käsintoistoa, mikä on yleinen väite kilpailijoiden keskuudessa. Todellinen testi on todellisessa tuotoksessa kirsikkapoimittujen esimerkkien lisäksi.
Tilan ymmärtäminen: DALL-E 3 on erinomainen kehotteissa kuvattujen tilasuhteiden ymmärtämisessä. Tämä parantaa mallin kykyä rakentaa monimutkaisia kulmia ja sommitteluja, vaikka käyttäjät odottavatkin konkreettisempia todisteita tästä lupauksesta.
Kehotteiden voima: Asian ydin DALL-E3 piilee sen nopeassa kyvyssä ja integraatiossa ChatGPT. Se lupaa automaatiota, nopeutta ja nopean suunnittelun yksinkertaistamista. Trendi on tässä kohti chatGPT kehotteiden luominen, kääntämällä epämääräisiä ideoita tai alkeellisia kehotuksia kaunopuheisiksi. DALL-E 3:n parannettu kontekstuaalinen ymmärrys virtaviivaistaa prosessia, jolloin käyttäjät voivat keskittyä aikomukseen sananmukaisuuden sijaan.
Karttamattomat alueet: Erityisesti keskustelusta puuttuvat näkökohdat, kuten maalaus, ulkomaalaus, generatiivinen täyttö ja 3D-mallinnus. Näiden ominaisuuksien puuttuminen voi olla rajoituksena etenkin käyttäjille, jotka ovat tottuneet monipuolisempiin malleihin.
Pääsyn tiedot: DALL-E 3 on asetettu saataville ChatGPT Plus- ja Enterprise-asiakkaat lokakuun alussa. Kuitenkin yksityiskohdat koskien luottojen kohdentamista ChatGPT Plus käyttäjät ja niihin liittyvät kustannukset jäävät epäselväksi. Pääsy tarjotaan API:n ja OpenAI Labs-alusta "myöhemmin syksyllä".
Integraatiokyky: DALL-E on integroitu saumattomasti kumppani- ja Microsoft-tuotteisiin. Odota näkeväsi esitysten, kuvien, kuvioiden, logojen luomista kontekstissa ja täydennettynä ChatGPT. Tästä integraatiosta on tarkoitus tulla valtavirtaa, mikä on merkittävä haaste kilpailijoille, kuten Google Bardin kanssa ja Ideogrammi.
LLM:n ja visuaalisen sisällön lähentyminen: Kiehtovin näkökohta on suurten kielimallien (LLM) ja visuaalisen sisällön luontimallien lähentyminen. Se merkitsee siirtymistä monimutkaisesta nopeasta suunnittelusta ideoiden ilmaisemiseen helpommin ymmärrettävällä kielellä. Tekoäly poimii näistä ilmaisuista kontekstin ja ideat tarjoten luovia mahdollisuuksia, joita on vaikea vastustaa.
DALL-E 3: Ole uusi johtaja tekoälykuvan luomisessa
OpenAIpäätti integroida DALL-E 3:n ChatGPT ekosysteemi on strateginen liike. Tämä integraatio antaa DALL-E 3:lle pääsyn laajaan 100 miljoonan aktiivisen käyttäjän käyttäjätietokantaan. Tämä askel parantaa merkittävästi DALL-E 3:n saavutettavuutta ja voi nostaa sen suosiota.
Tällä hetkellä, Midjourney ja Stable Diffusion ylpeillä ympäriinsä 15 miljoonaa rekisteröitynyttä käyttäjää. Tämän integroinnin ansiosta DALL-E 3 on kuitenkin asetettu saamaan pääsyn kymmenkertaiseen käyttäjäkuntaan – 100 miljoonaan käyttäjään. Tämä tekee ChatGPT Plus tilaus Suunnittelu on sitäkin houkuttelevampi, koska se tarjoaa pääsyn chatbotiin, analyyttisiin työkaluihin ja kuvien luomiseen, kaikki edulliseen hintaan.
Integraatiosta ei ole hyötyä vain olemassa oleville käyttäjille, vaan se toimii myös voimakkaana magneettina uusille käyttäjille. Se laajentaa OpenAI ekosysteemin kattavuus ja suosio houkuttelevat ihmisiä, jotka etsivät tekoälyn luomia sisältöratkaisuja.
Tämä strateginen liike on valmiina vahvistumaan OpenAItulot ja muut keskeiset mittarit. Yhtiön sijoittajat näkevät tämän kehityksen todennäköisesti myönteisesti, etenkin viimeaikaisen tilanteen valossa 20 % liikennemäärän lasku kesän aikana.
Lue lisää aiheeseen liittyvistä aiheista:
Vastuun kieltäminen
Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.
Author
Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.
lisää artikkeleitaDamir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.