November 03, 2023

Tekst-til-3D AI-model

Udgivet: 03. november 2023 kl. 9 Opdateret: 21. november 05 kl. 2023

Hvad er tekst-til-3D AI-model?

En tekst-til-3D AI-model er en teknologi, der oversætter tekstbeskrivelser eller instruktioner til tredimensionelle (3D) visuelle repræsentationer eller modeller. Denne AI-model kan tage tekstinput, som kan beskrive objekter, scener eller koncepter, og konvertere den til en tilsvarende 3D-model. Det fungerer i skæringspunktet mellem naturlig sprogbehandling (NLP) og computergrafik, ved at bruge avancerede algoritmer til at generere 3D-indhold baseret på den medfølgende tekst.

Relaterede: 10+ bedste AI 3D-generatorer i 2023: tekst-til-3D, billede-til-3D, video-til-3D

Forståelse af tekst-til-3D AI-model

At forstå en tekst-til-3D AI-model involverer at forstå de underliggende mekanismer for, hvordan den fortolker og konverterer tekstdata til 3D-former og -strukturer. Det kræver viden om NLP-teknikker, 3D-modellering og den specifikke modelarkitektur, der bruges til denne opgave. Disse AI-modeller finder applikationer inden for forskellige områder, herunder computerstøttet design, virtual reality, spil og arkitektonisk visualisering, hvilket muliggør en sømløs oversættelse mellem tekstbeskrivelser og håndgribelige 3D-repræsentationer.

presto-spiller>

En verden af tekst-til-3D

På forskellige platforme florerer diskussioner om generering af 3D-modeller fra tekstbeskrivelser eller endda enkelte billeder, der lover at låse op for en verden af muligheder. Men lad os skrælle lagene tilbage og udforske, hvad der gemmer sig under overfladen.

Først og fremmest er det vigtigt at erkende, at 3D ikke kun er et rige beboet af komplekse rumfartøjer og forbløffende simuleringer; den ligger også i den praktiske verden af hverdagsapplikationer. I sin kerne involverer 3D skabelsen af masker, indviklede netværk, der define strukturen af et 3D-objekt, hvilket muliggør yderligere manipulation og interaktion. Lige nu tilbyder de eksisterende forskningsartikler og -projekter metoder, der, lidt forenklet sagt, involverer at tage tekstlige eller visuelle input, generere flere billeder fra forskellige vinkler og derefter anvende en fusion af fotogrammetri, beregningsmæssig trolddom og eksisterende teknikker til at rekonstruere en 3D objekt fra inputdata.

Selvom disse tilgange har gjort betydelige fremskridt med at forbedre teksturkvaliteten og nøjagtigheden, er der stadig en vedvarende udfordring, der dvæler. Spørgsmålet er, hvorfor har vi brug for disse 3D-modeller? Mens de finder praktiske anvendelser, såsom roterende produktbilleder til onlinebutikker, bliver det fulde potentiale af 3D-tekstur og detaljer ofte underudnyttet, hvilket resulterer i et hav af TikTok-videoer og memes.

Hvordan fungerer tekst-til-3D AI-modeller?

Tekst-til-3D AI-modeller har fået opmærksomhed for deres potentiale til at oversætte tekstlige beskrivelser til tredimensionelle (3D) repræsentationer. Men hvordan fungerer denne proces, og hvilke udfordringer ligger forude?

Processen kan opdeles i tre hovedtrin. Først trænes AI-modellen til at genkende en bestemt klasse eller type 3D-objekt baseret på et givet datasæt. Den analyserer datasættet og de funktioner, der define den klasse, så den kan forstå, hvordan objekter i den kategori er struktureret. Dette trin danner grundlaget for AI'ens fremtidige 3D-generation.

Det andet trin involverer at bruge eksisterende 3D-modeller som referencer. Disse modeller fungerer som en skabelon for AI, så den kan generere nye 3D-objekter med lignende attributter og strukturer. Denne referencebaserede tilgang strømliner genereringsprocessen og hjælper med at opretholde ensartethed i outputtet.

Det tredje trin er lidt mere specialiseret og gælder primært kategorier som menneskelige avatarer. Her fokuserer AI på specifikke klasser af 3D-modeller, såsom forskellige typer hoveder. Ved at skabe et omfattende datasæt af 3D-hoveder og træne AI'en på det, kan udviklere generere realistiske 3D-hoveder effektivt. Selvom denne tilgang giver mesh af høj kvalitet, er den begrænset til en snæver klasse af objekter.

Det er vigtigt at bemærke, at denne teknologi ikke giver et endeligt, poleret resultat som et statisk billede eller video. I stedet genererer det et mellemliggende 3D-aktiv, der kan forfines yderligere i postproduktion eller bruges i en produktionspipeline. Denne alsidighed gør det til et værdifuldt værktøj til forskellige applikationer, fra at skabe 3D-aktiver til videospil til at strømline indholdsproduktion.

På trods af løftet om tekst-til-3D AI-modeller er der stadig udfordringer at overvinde. En stor hindring er behovet for at indsnævre de kategorier af objekter, som AI kan generere effektivt. Uden dette fokus er det udfordrende for AI at producere meningsfulde resultater.

Derudover er der et væld af 3D-datasæt tilgængelige, men ikke alle af dem er egnede til postproduktionsbrug. Mange er for støjende og tunge til praktiske anvendelser. Dette problem har foranlediget en søgning efter datasæt af høj kvalitet, der kan understøtte udviklingen af bedre AI-modeller.

Desuden skabe tekst-til-3D-modeller, der generere aktiver egnet til specifikke opgaver eller software er en kompleks proces. Det kræver ofte en specialiseret tilgang, da "parametrene" eller specifikationerne varierer betydeligt mellem forskellige applikationer.

For nylig, Luma AI har afsløret sin seneste kreation, Genie – et revolutionært neuralt netværk designet til at tage 3D-modelleringsverdenen med storm. Genie, Luma Ais idé, har gjort en bemærkelsesværdig indgang til AI-domænet, og dets evner vil helt sikkert efterlade dig i ærefrygt. Denne innovative teknologi, introduceret af Luma AI, kan ubesværet lave indviklede 3D-modeller på få sekunder, alt sammen fra en simpel tekstprompt. Den hastighed og effektivitet, som Genie arbejder med, er intet mindre end imponerende. Denne banebrydende udvikling betyder et betydeligt spring fremad i verden af AI-genereret 3D-modellering. I modsætning til mange andre tjenester er Genie ikke kun forbavsende hurtig, men også helt gratis. Brugere kan problemfrit generere 3D-modeller uden omkostninger, hvilket gør det tilgængeligt for alle. Det er en game-changer, og mulighederne er ubegrænsede.

Inden for tekst-til-3D-udvikling er det ikke ualmindeligt at støde på nogle fremherskende misforståelser. For mange udviklere kan konceptet med 3D virke lige så uhåndgribeligt som blot cloud af point. Ansigter, kanter, hjørner, UV, Tris/Quads og andre grundlæggende elementer bliver nogle gange overset, hvilket efterlader et hul i forståelsen. Det svarer til at betragte et billede som intet andet end et gitter af pixels, uden hensyntagen til mere indviklede aspekter som alfa, Z-kanal og sammensætning. Dall-E 3, en fremtrædende figur på dette felt, er opmærksom på gennemsigtighed og alfa, men indrømmer ydmygt, at alfakanalen forbliver noget gådefuld. Resultatet? En komisk blanding af manøvrering i Photoshop-stil, når man forsøger det fjerne baggrunde. Vi dykker ned i disse misforståelser for at kaste lys over kernefundamentet for tekst-til-3D-udvikling.

Seneste nyt om tekst-til-3D AI-model

Google har introduceret TextMesh, en ny tekst-til-3D-metode, der forbedres Stable Diffusion-baseret tekst-til-3D-modelgenerering. Denne metode genererer flere vinkler fra 2D-input og bruger Neural Radiance Fields (NeRF)-tilgangen til at skabe et 3D-net. TextMesh tilbyder brugervenligt output, realistiske 3D-masker og undgår høje mætningseffekter. SDF-rammen forfiner tekstur, forbedrer klarheden og undgår overmætning.
Nvidia er lanceret Magic3D, en tekst-til-3D-indholdsskabersoftware, der konverterer tekstbeskrivelser til digitale 3D-modeller. Softwaren bruger et neuralt netværk trænet på et stort datasæt af 3D-modeller og kan generere 3D-modeller fra et enkelt 2D-billede eller en serie af 2D-billeder. Det giver brugerne nye måder at styre 3D-syntese på og kan producere højkvalitets 3D-mesh-modeller dobbelt så hurtigt som DreamFusion.
Google har udviklet et neuralt netværk kaldet DreamFusion, som kan generere 3D-modeller ud fra tekstbeskrivelser ved hjælp af en forudtrænet 2D-tekst-til-billede-diffusionsmodel. Denne metode overvinder begrænsninger af datasæt i stor skala og effektive 3D-dataarkitekturer. DreamFusion bruger gradient-nedstigning til at optimere en tilfældigt initialiseret 3D-model, hvilket resulterer i pålidelige 3D-modeller med high-fidelity udseende, dybde og normaler. Systemet bruger Score Destillation Sampling (SDS) til at optimere prøver i ethvert parameterrum, såsom 3D-rum.

Hvad tænker du om Stability AI's nye stabile 3D-tekst-til-3D- og billed-til-3D-model? pic.twitter.com/PITVzQ0xtM
— Tsarathustra (@tsarnick) November 1, 2023

Generativ AI-tekst til 3D-model + VR/AR + Netværksforbundet virtuel 3D-plads på webbrowser. Kode og online demo på https://t.co/NrX2LlHLsZ #treejs #GenAI #webxr #webgl pic.twitter.com/cY1m3gM2XY
— takahiro(John Smith) (@superhoge) November 3, 2023

Kan vi generere en 3D-scene med et enkelt 360-graders billede? Vi præsenterer PERF for at løse dette problem.

Anvendelser: 1) Panorama-til-3D; 2) Tekst-til-3D; 3) Introducer 3D-stilisering.

Papir: https://t.co/OSnaV3w5ey
Projektside: https://t.co/f2z8XzBW1f
Kode: https://t.co/d4kV4qbp9m pic.twitter.com/TPPRP7VHlR
— Guangcong Wang (@GuangcongW) Oktober 26, 2023

Temmelig overbevisende tekst-til-3D. Spørgsmålet var "moderne lilla sofa". Genereret på 14 sekunder (med 3 andre), og GLB importeres til Blender på yderligere 5 sekunder.

Prøv ved at deltage i Discord: https://t.co/z0ZwTIz4AS https://t.co/wCE7R5TiAF pic.twitter.com/tiKxzind71
— Andrew Price (@andrewpprice) November 2, 2023

«Tilbage til ordlisteindeks

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.

Flere artikler

Damir Yalalov