November 03, 2023

Text-till-3D AI-modell

Publicerad: 03 november 2023 kl. 9 Uppdaterad: 21 november 05 kl. 2023

Vad är Text-to-3D AI-modell?

En text-till-3D AI-modell är en teknik som översätter textbeskrivningar eller instruktioner till tredimensionella (3D) visuella representationer eller modeller. Denna AI-modell kan ta textinmatning, som kan beskriva objekt, scener eller koncept, och konvertera den till en motsvarande 3D-modell. Den fungerar i skärningspunkten mellan naturlig språkbehandling (NLP) och datorgrafik, och använder avancerade algoritmer för att generera 3D-innehåll baserat på den tillhandahållna texten.

Relaterad: 10+ bästa AI 3D-generatorer 2023: text-till-3D, bild-till-3D, video-till-3D

Förståelse av text-till-3D AI-modell

Att förstå en text-till-3D AI-modell innebär att förstå de underliggande mekanismerna för hur den tolkar och omvandlar textdata till 3D-former och -strukturer. Det kräver kunskap om NLP-tekniker, 3D-modellering och den specifika modellarkitekturen som används för denna uppgift. Dessa AI-modeller hittar applikationer inom olika områden, inklusive datorstödd design, virtuell verklighet, spel och arkitektonisk visualisering, vilket möjliggör en sömlös översättning mellan textbeskrivningar och påtagliga 3D-representationer.

presto-spelare>

World of Text-to-3D

På olika plattformar florerar diskussioner om generering av 3D-modeller från textbeskrivningar eller till och med enstaka bilder, som lovar att låsa upp en värld av möjligheter. Men låt oss dra tillbaka lagren och utforska vad som finns under ytan.

Först och främst är det viktigt att inse att 3D inte bara är en värld som bebos av komplexa rymdskepp och häpnadsväckande simuleringar; den finns också i den praktiska världen av vardagliga tillämpningar. I kärnan innebär 3D skapandet av maskor, intrikata nätverk som define strukturen hos ett 3D-objekt, vilket möjliggör ytterligare manipulation och interaktion. Från och med nu erbjuder de befintliga forskningsartiklarna och projekten metoder som, något förenklat uttryckt, innebär att ta text eller visuell input, generera flera bilder från olika vinklar och sedan använda en fusion av fotogrammetri, beräkningsguide och befintliga tekniker för att rekonstruera en 3D objekt från indata.

Även om dessa tillvägagångssätt har gjort betydande framsteg för att förbättra texturkvaliteten och noggrannheten, finns det fortfarande en ihållande utmaning som dröjer sig kvar. Frågan kvarstår, varför behöver vi dessa 3D-modeller? Även om de hittar praktiska tillämpningar, som roterande produktbilder för onlinebutiker, utnyttjas ofta den fulla potentialen av 3D-textur och detaljer, vilket resulterar i ett hav av TikTok-videor och memes.

Hur fungerar text-to-3D AI-modeller?

Text-to-3D AI-modeller har fått uppmärksamhet för sin potential att översätta textbeskrivningar till tredimensionella (3D) representationer. Men hur fungerar denna process och vilka utmaningar ligger framför oss?

Processen kan delas in i tre huvudsteg. Först tränas AI-modellen för att känna igen en viss klass eller typ av 3D-objekt baserat på en given datamängd. Den analyserar datamängden och funktionerna som define den klassen, vilket gör att den kan förstå hur objekt i den kategorin är strukturerade. Detta steg lägger grunden för AI:s framtida 3D-generation.

Det andra steget innebär att använda befintliga 3D-modeller som referenser. Dessa modeller fungerar som en mall för AI, vilket gör att den kan generera nya 3D-objekt med liknande attribut och strukturer. Detta referensbaserade tillvägagångssätt effektiviserar genereringsprocessen och hjälper till att upprätthålla konsekvens i produktionen.

Det tredje steget är lite mer specialiserat och gäller främst kategorier som mänskliga avatarer. Här fokuserar AI på specifika klasser av 3D-modeller, såsom olika typer av huvuden. Genom att skapa en betydande datauppsättning av 3D-huvuden och träna AI på den, kan utvecklare generera realistiska 3D-huvuden effektivt. Även om detta tillvägagångssätt ger högkvalitativa maskor, är det begränsat till en smal klass av objekt.

Det är viktigt att notera att den här tekniken inte ger ett slutgiltigt, polerat resultat som en statisk bild eller video. Istället genererar den en mellanliggande 3D-tillgång som kan förfinas ytterligare i efterproduktion eller användas i en produktionspipeline. Denna mångsidighet gör det till ett värdefullt verktyg för olika applikationer, från att skapa 3D-tillgångar för videospel till att effektivisera innehållsproduktion.

Trots löftet om Text-to-3D AI-modeller finns det fortfarande utmaningar att övervinna. Ett stort hinder är behovet av att begränsa kategorierna av objekt som AI kan generera effektivt. Utan detta fokus är det utmanande för AI att producera meningsfulla resultat.

Dessutom finns det en mängd 3D-datauppsättningar tillgängliga, men alla är inte lämpliga för efterproduktion. Många är för bullriga och tunga för praktiska tillämpningar. Det här problemet har föranlett en sökning efter datauppsättningar av hög kvalitet som kan stödja utvecklingen av bättre AI-modeller.

Dessutom skapa text-till-3D-modeller som generera tillgångar lämplig för specifika uppgifter eller programvara är en komplex process. Det kräver ofta ett specialiserat tillvägagångssätt, eftersom "parametrarna" eller specifikationerna varierar avsevärt mellan olika applikationer.

Nyligen, Luma AI har avslöjat sin senaste skapelse, Genie – ett revolutionerande neuralt nätverk designat för att ta 3D-modelleringsvärlden med storm. Genie, Luma Ais idé, har gjort en anmärkningsvärd entré till AI-domänen, och dess kapacitet kommer definitivt att lämna dig i vördnad. Denna innovativa teknik, introducerad av Luma AI, kan enkelt skapa intrikata 3D-modeller på några sekunder, allt från en enkel textuppmaning. Hastigheten och effektiviteten som Genie arbetar med är inget mindre än imponerande. Denna banbrytande utveckling innebär ett betydande steg framåt i världen av AI-genererad 3D-modellering. Till skillnad från många andra tjänster är Genie inte bara häpnadsväckande snabb utan också helt gratis. Användare kan sömlöst generera 3D-modeller utan någon kostnad, vilket gör den tillgänglig för alla. Det är en spelomvandlare, och möjligheterna är obegränsade.

När det gäller text-till-3D-utveckling är det inte ovanligt att stöta på några rådande missuppfattningar. För många utvecklare kan konceptet med 3D verka lika svårfångat som bara cloud poäng. Ytor, kanter, hörn, UV, Tris/Quads och andra grundläggande element förbises ibland, vilket lämnar en lucka i förståelsen. Det är ungefär som att betrakta en bild som inget annat än ett rutnät av pixlar, med liten hänsyn till mer intrikata aspekter som alfa, Z-kanal och kompositering. Dall-E 3, en framstående figur inom detta område, är medveten om transparens och alfa men medger ödmjukt att alfakanalen förblir något gåtfull. Resultatet? En komisk blandning av manövrering i Photoshop-stil när man försöker ta bort bakgrunder. Vi fördjupar oss i dessa missuppfattningar för att belysa grunden för text-till-3D-utveckling.

Senaste nyheterna om text-till-3D AI-modell

Google har introducerat TextMesh, en ny text-till-3D-metod som förbättras Stable Diffusion-baserad text-till-3D-modellgenerering. Den här metoden genererar flera vinklar från 2D-ingång och använder metoden Neural Radiance Fields (NeRF) för att skapa ett 3D-nät. TextMesh erbjuder användarvänliga utdata, realistiska 3D-nät och undviker höga mättnadseffekter. SDF-ramverket förfinar texturen, förbättrar klarheten och undviker övermättnad.
Nvidia har lanserats Magic3D, en programvara för att skapa text-till-3D-innehåll som konverterar textbeskrivningar till digitala 3D-modeller. Programvaran använder ett neuralt nätverk som tränats på ett stort dataset av 3D-modeller och kan generera 3D-modeller från en enda 2D-bild eller en serie 2D-bilder. Den erbjuder användarna nya sätt att styra 3D-syntes och kan producera högkvalitativa 3D-nätmodeller dubbelt så snabbt som DreamFusion.
Google har utvecklat ett neuralt nätverk som heter DreamFusion, som kan generera 3D-modeller från textbeskrivningar med hjälp av en förtränad 2D-text-till-bild-diffusionsmodell. Den här metoden övervinner begränsningarna hos storskaliga datauppsättningar och effektiva 3D-dataarkitekturer för denoising. DreamFusion använder gradientnedstigning för att optimera en slumpmässigt initierad 3D-modell, vilket resulterar i pålitliga 3D-modeller med högtroget utseende, djup och normaler. Systemet använder Score Destillation Sampling (SDS) för att optimera prover i valfritt parameterutrymme, såsom 3D-utrymme.

Vad tycker du om Stability AIs nya stabila 3D-text-till-3D- och bild-till-3D-modell? pic.twitter.com/PITVzQ0xtM
— Tsarathustra (@tsarnick) November 1, 2023

Generativ AI-text till 3D-modell + VR/AR + Nätverksanslutet virtuellt 3D-utrymme i webbläsare. Kod och onlinedemo på https://t.co/NrX2LlHLsZ #treejs #GenAI #webxr #webgl pic.twitter.com/cY1m3gM2XY
— takahiro(John Smith) (@superhoge) November 3, 2023

Kan vi skapa en 3D-scen med en enda 360-gradersbild? Vi presenterar PERF för att ta itu med detta problem.

Tillämpningar: 1) Panorama-till-3D; 2) Text-till-3D; 3) Introducera 3D-stilisering.

Papper: https://t.co/OSnaV3w5ey
Projektsida: https://t.co/f2z8XzBW1f
Koda: https://t.co/d4kV4qbp9m pic.twitter.com/TPPRP7VHlR
— Guangcong Wang (@GuangcongW) Oktober 26, 2023

Ganska övertygande Text-to-3D. Uppmaning var "modern lila soffa". Genereras på 14 sekunder (med 3 andra) och GLB importeras till Blender på ytterligare 5 sekunder.

Försök genom att gå med i Discord: https://t.co/z0ZwTIz4AS https://t.co/wCE7R5TiAF pic.twitter.com/tiKxzind71
— Andrew Price (@andrewpprice) November 2, 2023

«Tillbaka till ordlistaindex

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.

fler artiklar

Damir Yalalov