November 03, 2023

Besedilo v 3D model AI

Objavljeno: 03. november 2023 ob 9 dopoldne Posodobljeno: 21. november 05 ob 2023

Kaj je model AI za pretvorbo besedila v 3D?

Model AI Text-to-3D je tehnologija, ki prevaja besedilne opise ali navodila v tridimenzionalne (3D) vizualne predstavitve ali modele. Ta model AI lahko sprejme besedilni vnos, ki lahko opisuje predmete, prizore ali koncepte, in ga pretvori v ustrezen 3D model. Deluje na presečišču obdelave naravnega jezika (NLP) in računalniške grafike, pri čemer uporablja napredne algoritme za ustvarjanje 3D vsebine na podlagi predloženega besedila.

Podobni: 10+ najboljših generatorjev AI 3D v letu 2023: besedilo v 3D, slika v 3D, video v 3D

Razumevanje modela AI za pretvorbo besedila v 3D

Razumevanje modela AI za pretvorbo besedila v 3D vključuje razumevanje osnovnih mehanizmov, kako interpretira in pretvarja besedilne podatke v 3D oblike in strukture. Zahteva poznavanje tehnik NLP, 3D modeliranja in specifične arhitekture modela, ki se uporablja za to nalogo. Ti modeli umetne inteligence najdejo aplikacije na različnih področjih, vključno z računalniško podprtim oblikovanjem, virtualno resničnostjo, igranjem iger in arhitekturno vizualizacijo, kar omogoča brezhibno prevajanje med besedilnimi opisi in oprijemljivimi 3D predstavitvami.

presto-player>

Svet besedila v 3D

Na različnih platformah je veliko razprav o ustvarjanju 3D modelov iz besedilnih opisov ali celo posameznih slik, ki obljubljajo odklepanje sveta možnosti. Toda oluščimo plasti in raziščimo, kaj se skriva pod površjem.

Najprej in najpomembneje je, da se je treba zavedati, da 3D ni samo kraljestvo, naseljeno s kompleksnimi vesoljskimi plovili in osupljivimi simulacijami; prebiva tudi v praktičnem svetu vsakodnevnih aplikacij. V svojem bistvu 3D vključuje ustvarjanje mrež, zapletenih omrežij, ki define strukturo 3D predmeta, ki omogoča nadaljnjo manipulacijo in interakcijo. Trenutno obstoječi raziskovalni članki in projekti ponujajo metode, ki, nekoliko poenostavljeno povedano, vključujejo sprejemanje besedilnih ali vizualnih vnosov, ustvarjanje več slik iz različnih zornih kotov in nato uporabo spoja fotogrametrije, računalniških čarovnikov in obstoječih tehnik za rekonstrukcijo 3D objekt iz vhodnih podatkov.

Čeprav so ti pristopi znatno napredovali pri izboljšanju kakovosti in natančnosti teksture, še vedno obstaja vztrajen izziv. Ostaja vprašanje, zakaj potrebujemo te 3D modele? Čeprav najdejo praktične aplikacije, kot je vrtenje slik izdelkov za spletne trgovine, je celoten potencial 3D teksture in podrobnosti pogosto premalo izkoriščen, kar ima za posledico morje videoposnetkov in memov TikTok.

Kako delujejo modeli AI za pretvorbo besedila v 3D?

Modeli umetne inteligence za pretvorbo besedila v 3D so pritegnili pozornost zaradi svojega potenciala za prevajanje besedilnih opisov v tridimenzionalne (3D) predstavitve. Toda kako ta proces poteka in kakšni izzivi so pred nami?

Postopek lahko razdelimo na tri glavne korake. Prvič, model AI je usposobljen za prepoznavanje določenega razreda ali vrste 3D-predmeta na podlagi danega nabora podatkov. Analizira nabor podatkov in značilnosti, ki jih define ta razred, kar mu omogoča razumevanje, kako so objekti v tej kategoriji strukturirani. Ta korak postavlja temelje za prihodnjo 3D generacijo umetne inteligence.

Drugi korak vključuje uporabo obstoječih 3D modelov kot referenc. Ti modeli delujejo kot predloga za AI, ki ji omogoča ustvarjanje novih 3D objektov s podobnimi atributi in strukturami. Ta pristop, ki temelji na referencah, poenostavi proces generiranja in pomaga ohranjati doslednost v izhodu.

Tretji korak je nekoliko bolj specializiran in se nanaša predvsem na kategorije, kot so človeški avatarji. Tukaj se umetna inteligenca osredotoča na posebne razrede 3D modelov, kot so različne vrste glav. Z ustvarjanjem obsežnega nabora podatkov 3D glav in usposabljanjem AI na njem lahko razvijalci učinkovito ustvarijo realistične 3D glave. Čeprav ta pristop daje visokokakovostna očesa, je omejen na ozek razred predmetov.

Pomembno je vedeti, da ta tehnologija ne ustvari končnega, dovršenega rezultata, kot je statična slika ali video. Namesto tega ustvari vmesno 3D sredstvo, ki ga je mogoče dodatno izboljšati v postprodukciji ali uporabiti v proizvodnem procesu. Zaradi svoje vsestranskosti je dragoceno orodje za različne aplikacije, od ustvarjanja 3D sredstev za video igre do racionalizacije produkcije vsebine.

Kljub obljubi modelov AI Text-to-3D še vedno obstajajo izzivi, ki jih je treba premagati. Ena glavnih ovir je potreba po zožitvi kategorij predmetov, ki jih lahko AI učinkovito ustvari. Brez te osredotočenosti je za AI težko ustvariti pomembne rezultate.

Poleg tega je na voljo ogromno naborov 3D podatkov, vendar niso vsi primerni za postprodukcijsko uporabo. Mnogi so prehrupni in težki za praktično uporabo. Ta težava je spodbudila iskanje visokokakovostnih naborov podatkov, ki lahko podpirajo razvoj boljših modelov umetne inteligence.

Poleg tega ustvarjanje modelov Text-to-3D, ki ustvarjanje sredstev primerna za posebne naloge ali programska oprema je kompleksen proces. Pogosto zahteva specializiran pristop, saj se »parametri« ali specifikacije med različnimi aplikacijami močno razlikujejo.

V zadnjem času, Luma AI je predstavil svojo najnovejšo kreacijo Genie – revolucionarna nevronska mreža, zasnovana tako, da zavzame svet 3D modeliranja. Genie, zamisel Luma Ai, je naredil izjemen vstop na področje umetne inteligence in njegove zmogljivosti vas bodo zagotovo pustile navdušene. Ta inovativna tehnologija, ki jo je predstavil Luma AI, lahko brez truda izdela zapletene 3D modele v nekaj sekundah, vse iz preprostega besedilni poziv. Hitrost in učinkovitost, s katero deluje Genie, ni nič manj kot impresivna. Ta prelomen razvoj pomeni pomemben korak naprej v svetu 3D modeliranja, ustvarjenega z umetno inteligenco. V nasprotju s številnimi drugimi storitvami Genie ni le osupljivo hiter, temveč tudi popolnoma brezplačen. Uporabniki lahko nemoteno ustvarjajo 3D modele brez kakršnih koli stroškov, zaradi česar so dostopni vsem. To je sprememba igre in možnosti so neomejene.

Na področju razvoja besedila v 3D ni nenavadno, da naletimo na nekatere prevladujoče napačne predstave. Za mnoge razvijalce se lahko koncept 3D zdi tako nedosegljiv kot zgolj oblak točk. Obrazi, robovi, oglišča, UV, Tris/Quads in drugi temeljni elementi so včasih spregledani, kar pušča vrzel v razumevanju. To je podobno, kot če bi sliko obravnavali kot nič drugega kot mrežo slikovnih pik, brez upoštevanja bolj zapletenih vidikov, kot so alfa, Z-kanal in sestavljanje. Dall-E 3, vidna osebnost na tem področju, se zaveda preglednosti in alfe, vendar ponižno priznava, da kanal alfa ostaja nekoliko zagoneten. rezultat? Komična mešanica manevriranja v slogu Photoshopa pri poskusu odstranite ozadja. Poglabljamo se v te napačne predstave, da bi osvetlili temelje razvoja besedila v 3D.

Zadnje novice o modelu AI za pretvorbo besedila v 3D

Google je predstavil TextMesh, nova metoda pretvorbe besedila v 3D, ki izboljšuje Stable Diffusiongeneriranje modela besedila v 3D. Ta metoda ustvari več kotov iz 2D vnosa in uporablja pristop Neural Radiance Fields (NeRF) za ustvarjanje 3D mreže. TextMesh ponuja uporabniku prijazen izpis, realistične 3D mreže in se izogiba visokim učinkom nasičenosti. Ogrodje SDF izboljša teksturo, izboljša jasnost in prepreči prenasičenost.
Nvidia je lansirala Magic3D, programska oprema za ustvarjanje besedila v 3D vsebino, ki pretvarja besedilne opise v 3D digitalne modele. Programska oprema uporablja nevronsko mrežo, usposobljeno za velik nabor podatkov 3D-modelov, in lahko ustvari 3D-modele iz ene 2D-slike ali niza 2D-slik. Uporabnikom ponuja nove načine za nadzor 3D sinteze in lahko izdela visokokakovostne 3D mrežne modele dvakrat hitreje kot DreamFusion.
Google je razvil nevronsko mrežo, imenovano DreamFusion, ki lahko generira 3D modele iz besedilnih opisov z vnaprej pripravljenim 2D modelom difuzije besedila v sliko. Ta metoda premaga omejitve obsežnih naborov podatkov in učinkovito odpravlja hrup 3D podatkovnih arhitektur. DreamFusion uporablja gradientni spust za optimizacijo naključno inicializiranega 3D modela, kar ima za posledico ponovno osvetlitvene 3D modele z visoko zvestobo videza, globine in normal. Sistem uporablja Score Destillation Sampling (SDS) za optimizacijo vzorcev v katerem koli prostoru parametrov, kot je 3D prostor.

Kaj misliš o Stability AINovi stabilni 3D model besedila v 3D in slike v 3D? pic.twitter.com/PITVzQ0xtM
— Tsarathustra (@tsarnick) November 1, 2023

Generativno besedilo AI v model 3D + VR/AR + omrežni virtualni 3D prostor v spletnem brskalniku. Koda in spletna predstavitev na https://t.co/NrX2LlHLsZ #trojke #GenAI #webxr #webgl pic.twitter.com/cY1m3gM2XY
— takahiro (John Smith) (@superhoge) November 3, 2023

Ali lahko ustvarimo 3D sceno z eno samo 360-stopinjsko sliko? Predstavljamo PERF za reševanje tega problema.

Aplikacije: 1) Panorama-to-3D; 2) Pretvorba besedila v 3D; 3) Intruct 3D stilizacija.

Papir: https://t.co/OSnaV3w5ey
Stran projekta: https://t.co/f2z8XzBW1f
Koda: https://t.co/d4kV4qbp9m pic.twitter.com/TPPRP7VHlR
— Guangcong Wang (@GuangcongW) Oktober 26, 2023

Precej prepričljivo pretvorbo besedila v 3D. Poziv je bil "moderna vijolična sedežna garnitura". Ustvarjeno v 14 sekundah (s 3 drugimi) in GLB se uvozi v Blender v nadaljnjih 5 sekundah.

Poskusite tako, da se pridružite Discordu: https://t.co/z0ZwTIz4AS https://t.co/wCE7R5TiAF pic.twitter.com/tiKxzind71
— Andrew Price (@andrewpprice) November 2, 2023

«Nazaj na kazalo slovarja

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.

več člankov

Damir Yalalov