Nyhetsrapport Teknologi
September 21, 2023

DALL-E 3 Release Förstärker OpenAIs Inflytande, lämnar Midjourney och Stable Diffusion Bakom

I korthet

DALL-E 3 är inställd för att sömlöst integreras med GPT-4, speciellt anpassad för ChatGPT+ prenumeranter.

DALL-E 3 avstår från att återskapa bilder av offentliga personer när deras namn uttryckligen nämns.

Tidslinjen för åtkomst till DALL-E 3 är satt till oktober.

OpenAI har avslöjat sin senaste skapelse: DALL-E3. Till skillnad från sina föregångare fokuserar DALL-E 3 på att förfina detaljerna, ta itu med problem som bokstäver och intrikata kroppsdetaljer, som fingrar. Resultatet? En rad estetiskt tilltalande bilder utan behov av komplexa uppmaningar eller lösningar.

DALL-E 3 Release Förstärker OpenAIs Inflytande, lämnar Midjourney och Stable Diffusion Bakom

Det är viktigt att notera att den här utgåvan inte kommer med en heltäckande uppsättning implementeringsdetaljer, artiklar eller API:er. Istället är DALL-E 3 inställd på att integreras sömlöst med GPT-4, speciellt anpassad för ChatGPT+ prenumeranter.

Denna utveckling kanske inte är ett seismiskt skifte i AI-landskapet, utan snarare ett steg framåt i samarbete mellan modeller. Många anar det nästa Stable Diffusion modell kommer att erbjuda ännu större sofistikering och konstnärlig dragningskraft.

För att sätta det i sammanhang, OpenAIresan genom AI-bildgenerering har varit en rejäl resa:

  • 2021: DALL-E 1, en modell med 12 miljarder parametrar, introducerades med begränsad information.
  • 2021: GLIDE, en modell med 2 miljarder parametrar, presenterades tillsammans med öppen källkod med 300 miljoner parametermodeller.
  • 2022: DALL-E 2 anlände, med 2 miljarder parametrar, tillsammans med ett unCLIP-papper och API.
  • 2023: DALL-E 3 har gjort entré, och även om detaljerna kan vara något kryptiska, är en sak klar – den kommer att integreras med GPT-4 för ChatGPT+ prenumeranter.

Från och med nu är bilderna för DALL-E 3 fortfarande lite knappa. Det finns ingen kodbas, blogginlägg eller detaljerad jämförelse med det senaste (SOTA). OpenAI verkar ha sina kort nära bröstet.

DALL-E 3 Release Förstärker OpenAIs Inflytande, lämnar Midjourney och Stable Diffusion Bakom

Modellen anses ha en djupare förståelse för nyanser och detaljer jämfört med sina föregångare. Detta innebär att det förväntas bli en smidigare process att översätta dina kreativa koncept till mycket exakta bilder.

Ett spännande löfte om DALL-E 3 är dess integration med ChatGPT. Detta innebär att användare inte behöver brottas med att skapa komplicerade uppmaningar; en kort beskrivning bör räcka, med ChatGPT genererar skickligt detaljerade uppmaningar å dina vägnar.

OpenAI har också betonat vikten av sammanhang i långa uppmaningar. DALL-E 3 är designad för att omfamna verbositet, vilket gör den mer anpassad till sammanhanget som beskrivs i omfattande uppmaningar.

Ändå, som med alla nya AI-modeller, finns det ett element av det okända. Medan de första glimtarna ser lovande ut, kommer det sanna lackmustestet att komma med utökad användning. Frågor kvarstår om dess effektivitet och hastighet.

Det är troligt att DALL-E 3 kommer att vara en diffusionsprocess i flera steg, med GPT-4 fungerar som textkodare. Den invecklade mekaniken i denna installation kan förbli höljd i hemlighet.

Tidslinjen för tillgång till DALL-E 3 är satt till oktober, initialt för ChatGPT Plus och ChatGPT Enterprise användares, med möjlighet till bredare tillgång för forskare därefter.

Relaterad: OpenAI's Altman vid den amerikanska senaten för att diskutera riskerna med AI

nyanser och Censur av DALL-E 3

De primära fokuspunkterna för DALL-E 3:s utveckling var den noggranna processen att stävja dess kapacitet. Detta innebar strikt anpassning och filter utformade för att utesluta specifika typer av innehåll. Till exempel vägrar modellen bestämt att generera bilder av kända personligheter, replikera konstverk i stil med kända konstnärer eller skapa något innehåll som anses osäkert av OpenAIs kräsna standarder. Detta strategiska tillvägagångssätt handlar inte bara om begränsningar; det är en proaktiv åtgärd som syftar till att skydda företaget från potentiella juridiska förvecklingar.

Ändå, bortom dessa filter och anpassningar, kommer några spännande observationer fram. DALL-E 3 verkar uppvisa en viss svaghet när det gäller att generera fotorealistiskt innehåll. Istället för att producera bilder som efterliknar verkliga fotografier felfritt, har resultatet en distinkt stiliserad kvalitet. Dessa AI-tillverkade bilder utstrålar ett nästan renderat och lite plastiskt utseende. Även när det uttryckligen uppmanas med ordet "fotografi", förblir resultatet förankrat i sin karakteristiska stilisering.

Uppmaning #1
Uppmaning #1: Närbildsfotografi av en eremitkräfta inbäddad i våt sand, med havsskum i närheten och detaljerna i dess skal och strukturen på sanden accentuerade.
Uppmaning #2
Uppmaning #2: En livlig gul bananformad soffa sitter i ett mysigt vardagsrum, dess kurva vaggar en hög med färgglada kuddar. på trägolvet ger en mönstrad matta en touch av eklektisk charm, och en krukväxt sitter i hörnet och sträcker sig mot solljuset som filtrerar genom fönstret.
Uppmaning #3
Uppmaning #3: Ett foto av ett gammalt skeppsvrak inbäddat på havsbotten. Marina växter har gjort anspråk på trästrukturen och fiskar simmar in och ut ur dess ihåliga utrymmen. Sjunkna skatter och gamla kanoner ligger utspridda och ger en inblick i det förflutna.

Det är värt att notera att trots dessa idiosynkrasier erbjuder DALL-E 3 en glimt av anmärkningsvärd potential. Bland dess skapelser uppvisar vissa fall en slående likhet med fotografier. För att komma ihåg att den simulerade realismen hos dessa bilder inte nödvändigtvis stämmer överens med hur ett äkta fotografi av samma motiv skulle se ut, särskilt om det är nedsänkt under vattnet.

Relaterad: Microsoft presenterade Designer, det första professionella text-till-bild-verktyget baserat på DALL-E 2

DALL-E 3 Funktioner och detaljer

Låt oss ta en stund att sålla igenom pixlarna och läsa mellan raderna för att förstå vad den här nya modellen verkligen erbjuder.

Konsten att stilisera: Tittar igenom OpenAIs Instagramkonto, kommer du att märka ett överflöd av konstverk som kännetecknas av utsökt stilisering. Även om det finns ett imponerande utbud av abstrakta kompositioner och mönster, verkar modellen undvika att producera fotorealistiskt innehåll. Tonvikten här ligger på estetik och kreativitet, inte att efterlikna verkligheten.

Konstnärliga begränsningar: DALL-E 3 tar en annan väg än sin föregångare. Den vägrar bestämt att skapa bilder i stil med levande konstnärer, en stark avvikelse från DALL-E 2, som skulle kunna imitera vissa konstnärers stilar. Detta kan höja ögonbrynen i det kreativa samhället, liknande det ljumma mottagandet av Stable Diffusion 2.0.

Bemyndigande konstnärer: I ett försök att respektera konstnärers rättigheter, OpenAI tillåter konstnärer att utesluta sina verk från framtida DALL-E-versioner. Genom att skicka in en bild som de äger rättigheterna till kan konstnärer begära att den utesluts från modellens produktion. Framtida iterationer av DALL-E kommer då att undvika att generera innehåll som liknar konstnärens stil.

Säkerhet och censur: OpenAIs paranoia om säkerhet är påtaglig. De har samarbetat med externa "röda team" för att testa modellens säkerhet och använt indataklassificerare för att lära modellen att ignorera specifika ord som kan leda till explicit eller skadligt innehåll. DALL-E 3 avstår från att återskapa bilder av offentliga personer när deras namn uttryckligen nämns. Huruvida kändisar faller under denna kategori är fortfarande osäkert, vilket kan påverka kvaliteten på genererade ansikten.

Vattenstämplar och spårning: Det finns en antydan om inbäddning av taggar för att spåra "AI-genererade bilder", vilket indikerar ett steg mot bättre övervakning och potentiellt vattenmärkegenererat innehåll.

Text och händer förbättras: OpenAI presenterar förbättrad textgenerering och handrendering, ett vanligt påstående bland konkurrenter. Det verkliga testet ligger i den faktiska produktionen bortom körsbärsplockade exempel.

Rumslig förståelse: DALL-E 3 utmärker sig i att förstå rumsliga relationer som beskrivs i prompter. Detta förbättrar modellens förmåga att konstruera komplexa vinklar och kompositioner, även om användarna väntar på mer konkreta bevis på detta löfte.

Kraften i uppmaningar: Kärnan i DALL-E3 ligger i dess snabba kapacitet och integration med ChatGPT. Det lovar automatisering, hastighet och förenkling av snabb design. Trenden här går mot chatGPT genererar uppmaningar, översätta vaga idéer eller rudimentära uppmaningar till vältaliga sådana. DALL-E 3:s förbättrade kontextuella förståelse effektiviserar processen, vilket gör att användarna kan fokusera på avsikt framför utförlighet.

Okända territorier: Särskilt frånvarande i diskussionen är aspekter som inpainting, outpainting, generativ fyllning och 3D-modellering. Frånvaron av dessa funktioner kan vara en begränsning, särskilt för användare som är vana vid mer mångsidiga modeller.

Åtkomstinformation: DALL-E 3 är inställd på att bli tillgänglig för ChatGPT Plus- och Enterprise-kunder i början av oktober. Däremot detaljerna angående tilldelning av poäng för ChatGPT Plusanvändare och de tillhörande kostnaderna förblir oklara. Åtkomst kommer att tillhandahållas via API:et och OpenAI Labs-plattform "senare på hösten."

Integrationsförmåga: DALL-E kommer att integreras sömlöst i partner- och Microsoft-produkter. Räkna med att bevittna genereringen av presentationer, illustrationer, mönster, logotyper, allt i sammanhanget och förstärkt med hjälp från ChatGPT. Denna integration kommer att bli mainstream, vilket innebär en betydande utmaning för konkurrenter som Google med sin Bard och Ideogram.

Konvergensen av LLM och visuellt innehåll: Den mest spännande aspekten ligger i konvergensen mellan stora språkmodeller (LLM) och modeller för generering av visuellt innehåll. Det betyder ett skifte från komplexa snabba ingenjörskonst till att uttrycka idéer på ett mer tillgängligt språk. AI kommer att ta fram sammanhang och idéer från dessa uttryck, och erbjuda kreativa möjligheter som är svåra att motstå.

Relaterad: Topp 50 text-till-bild-uppmaningar för AI-konstgeneratorer Midjourney och DALL-E

DALL-E 3: Bli en ny ledare i AI-bildgenereringen

OpenAIs beslut att integrera DALL-E 3 i ChatGPT ekosystemet är ett strategiskt drag. Denna integration ger DALL-E 3 tillgång till en stor användardatabas med 100 miljoner aktiva användare. Det här steget förbättrar DALL-E 3:s tillgänglighet avsevärt och har potential att katapulera dess popularitet.

Närvarande, Midjourney och Stable Diffusion skryta runt 15 miljoner registrerade användare. Men med denna integration är DALL-E 3 inställd på att få tillgång till en användarbas som är tio gånger större – 100 miljoner användare. Detta gör att ChatGPT Plus abonnemang planen är desto mer tilltalande, eftersom den ger tillgång till en chatbot, analysverktyg och bildgenerering, allt till ett överkomligt pris.

Integrationen är inte bara fördelaktig för befintliga användare utan fungerar också som en kraftfull magnet för nya användare. Det utökar OpenAI ekosystemets räckvidd och popularitet, som drar till sig individer som söker AI-genererade innehållslösningar.

Detta strategiska drag är redo att öka OpenAIs intäkter och andra nyckeltal. Bolagets investerare kommer sannolikt att se denna utveckling positivt, särskilt mot bakgrund av den senaste tiden 20% minskning i trafikvolym under sommaren.

ChatGPT Webbtrafiken sjunker med 20 % i september och fortsätter att sjunka

Läs mer relaterade ämnen:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

From Ripple to The Big Green DAO: How Cryptocurrency Projects Contribute to Charity

Låt oss utforska initiativ som utnyttjar potentialen hos digitala valutor för välgörande ändamål.

Lär dig mer

AlphaFold 3, Med-Gemini och andra: The Way AI Transforms Healthcare in 2024

AI manifesterar sig på olika sätt inom vården, från att avslöja nya genetiska korrelationer till att stärka robotkirurgiska system ...

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
From Ripple to The Big Green DAO: How Cryptocurrency Projects Contribute to Charity
Analys Kryptovalutor Wiki Företag Utbildning Livsstil Marknader Mjukvara Teknologi
From Ripple to The Big Green DAO: How Cryptocurrency Projects Contribute to Charity
Maj 13, 2024
AlphaFold 3, Med-Gemini och andra: The Way AI Transforms Healthcare in 2024
AI Wiki Analys Smälta Yttrande Företag Marknader Nyhetsrapport Mjukvara Berättelser och recensioner Teknologi
AlphaFold 3, Med-Gemini och andra: The Way AI Transforms Healthcare in 2024
Maj 13, 2024
Nim Network ska rulla ut AI-ägarskapstokeniseringsram och genomföra avkastningsförsäljning med ögonblicksbilddatum planerat till maj
Marknader Nyhetsrapport Teknologi
Nim Network ska rulla ut AI-ägarskapstokeniseringsram och genomföra avkastningsförsäljning med ögonblicksbilddatum planerat till maj
Maj 13, 2024
Binance samarbetar med Argentina för att bekämpa cyberbrottslighet
Yttrande Företag Marknader Nyhetsrapport Mjukvara Teknologi
Binance samarbetar med Argentina för att bekämpa cyberbrottslighet
Maj 13, 2024