Novinová správa
September 30, 2022

Text-to-3D: Google vyvinul neurónovú sieť, ktorá generuje 3D modely z textových popisov

Stručne

Prevod textu na 3D neurónová sieť dokáže generovať 3D modely z textu

DreamFusion optimalizuje 3D scény na základe Imagen text-to-image

2D difúzny model možno použiť na syntézu textu na obrázok

Google vytvoril a neurónové sieť schopný vytvárať 3D modely z textových popisov. Najlepšie na tom je, že ten najťažší aspekt nebolo treba ani učiť. Imagen bol použitý ako základ pre Text-to-3D.

Text-to-3D: Google vyvinul neurónovú sieť, ktorá generuje 3D modely z textových popisov

O čom by ste mali vedieť DreamFusion?

Difúzne modely trénované na miliardách párov obrázok-text viedli k nedávnemu pokroku v syntéze textu na obrázok. Prispôsobenie tohto prístupu k 3D syntéze si vyžiada rozsiahle súbory údajov označených 3D aktív, ako aj efektívne odšumovacie 3D dátové architektúry, z ktorých ani jedna nie je v súčasnosti dostupná. V tomto článku sme tieto obmedzenia prekonali vykonaním syntézy textu do 3D s vopred pripraveným 2D šírenie textu do obrázka Model. Predstavujeme stratu založenú na destilácii hustoty pravdepodobnosti, ktorá umožňuje použiť 2D difúzny model ako predchádzajúci na optimalizáciu parametrického generátor obrázkov. Pomocou tejto straty používame gradientný zostup na optimalizáciu náhodne inicializovaného 3D modelu (Neural Radiance Field alebo NeRF), aby jeho 2D vykresľovanie z náhodných uhlov malo minimálnu stratu.

Vygenerovaný 3D model zadaného textu je možné prezerať z ľubovoľného uhla, nasvietiť ho variabilným osvetlením a zložiť do akéhokoľvek 3D prostredia. Jeho metóda nevyžaduje žiadne 3D tréningové dáta a žiadne zmeny model difúzie obrazu, čo ilustruje účinnosť použitia vopred pripravených modelov difúzie obrazu ako predtým.

DreamFusion vytvára 3D modely s verným vzhľadom, hĺbkou a normálnosťou na základe titulku, ktoré je možné opätovne osvetliť. Objekty sú reprezentované ako Neural Radiance Field, s predtrénovaným šírenie textu do obrázka skôr ako Imagen.

Príklady generovaného 3D z textu

Výzva: fotografia veveričky v stredovekom brnení, ktorá hrá na saxofón
Výzva: fotografia veveričky v elegantných plesových šatách, ktorá sedí pri hrnčiarskom kruhu a tvaruje hlinenú misku
Výzva: vysoko detailná kovová socha veveričky vo fialovej mikine s kapucňou, ktorá jazdí na motorke
Výzva: zložitá drevená rezba veveričky v stredovekom brnení s katanou

Skladanie predmetov dohromady, aby sa vytvorila scéna

Ako to funguje?

DreamFusion optimalizuje 3D scénu na základe titulku pomocou generatívneho modelu Imagen text-to-image. Navrhuje Score Destillation Sampling (SDS), ktorý zahŕňa optimalizáciu stratovej funkcie na výrobu vzoriek z difúzneho modelu. Pokiaľ môžeme mapovať späť na obrázky odlišne, SDS nám umožňuje optimalizovať vzorky v akomkoľvek parametrickom priestore, ako je 3D priestor. Komu defiv tomto diferencovateľnom mapovaní využíva parametrizáciu 3D scény, ktorá je podobná poliam neurálneho žiarenia alebo NeRF. Samotný SDS vytvára prijateľný vzhľad scény, ale DreamFusion vylepšuje geometriu pomocou ďalších regularizérov a optimalizačných techník. Trénované NeRF, ktoré sú vytvorené, sú koherentné, majú vynikajúce normály, povrchovú geometriu a hĺbku a môžu byť presvetlené pomocou Lambertovho modelu tieňovania.

Prečítajte si súvisiace články:

Disclaimer

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Hot Stories
Pridajte sa k nášmu newsletteru.
Novinky

Pokoj pred búrkou Solana: Čo teraz hovoria grafy, veľryby a signály na reťazci

Spoločnosť Solana preukázala silný výkon, ktorý bol poháňaný rastúcim prijatím, inštitucionálnym záujmom a kľúčovými partnerstvami, pričom zároveň čelí potenciálnym...

vedieť viac

Kryptomeny v apríli 2025: Kľúčové trendy, zmeny a čo bude ďalej

V apríli 2025 sa kryptopriestor zameral na posilnenie základnej infraštruktúry, pričom Ethereum sa pripravovalo na Pectru ...

vedieť viac
Čítaj viac
Čítaj viac
Nexo si zabezpečuje viacročné titulárne sponzorstvo amerického turnaja ATP 500 Dallas Open
Novinová správa Technológia
Nexo si zabezpečuje viacročné titulárne sponzorstvo amerického turnaja ATP 500 Dallas Open
Januára 13, 2026
Microsoft zdôrazňuje rastúcu priepasť v oblasti umelej inteligencie: Spojené arabské emiráty vedú, USA klesajú a DeepSeek sa rozširuje do rozvíjajúcich sa ekonomík
Novinová správa Technológia
Microsoft zdôrazňuje rastúcu priepasť v oblasti umelej inteligencie: Spojené arabské emiráty vedú, USA klesajú a DeepSeek sa rozširuje do rozvíjajúcich sa ekonomík
Januára 13, 2026
Safe a Ethena spolupracujú na zvýšení hodnoty USDe na multisignových peňaženkách
Novinová správa
Safe a Ethena spolupracujú na zvýšení hodnoty USDe na multisignových peňaženkách
Januára 13, 2026
Google rozširuje možnosti maloobchodu riadeného umelou inteligenciou o novú platformu nákupných agentov
Názor Životný štýl Novinová správa Technológia
Google rozširuje možnosti maloobchodu riadeného umelou inteligenciou o novú platformu nákupných agentov
Januára 13, 2026
CRYPTOMERIA LABS PTE. LTD.