Text-to-3D: Google vyvinul neurónovú sieť, ktorá generuje 3D modely z textových popisov
Stručne
Prevod textu na 3D neurónová sieť dokáže generovať 3D modely z textu
DreamFusion optimalizuje 3D scény na základe Imagen text-to-image
2D difúzny model možno použiť na syntézu textu na obrázok
Google vytvoril a neurónové sieť schopný vytvárať 3D modely z textových popisov. Najlepšie na tom je, že ten najťažší aspekt nebolo treba ani učiť. Imagen bol použitý ako základ pre Text-to-3D.
O čom by ste mali vedieť DreamFusion?
Difúzne modely trénované na miliardách párov obrázok-text viedli k nedávnemu pokroku v syntéze textu na obrázok. Prispôsobenie tohto prístupu k 3D syntéze si vyžiada rozsiahle súbory údajov označených 3D aktív, ako aj efektívne odšumovacie 3D dátové architektúry, z ktorých ani jedna nie je v súčasnosti dostupná. V tomto článku sme tieto obmedzenia prekonali vykonaním syntézy textu do 3D s vopred pripraveným 2D šírenie textu do obrázka Model. Predstavujeme stratu založenú na destilácii hustoty pravdepodobnosti, ktorá umožňuje použiť 2D difúzny model ako predchádzajúci na optimalizáciu parametrického generátor obrázkov. Pomocou tejto straty používame gradientný zostup na optimalizáciu náhodne inicializovaného 3D modelu (Neural Radiance Field alebo NeRF), aby jeho 2D vykresľovanie z náhodných uhlov malo minimálnu stratu.
Vygenerovaný 3D model zadaného textu je možné prezerať z ľubovoľného uhla, nasvietiť ho variabilným osvetlením a zložiť do akéhokoľvek 3D prostredia. Jeho metóda nevyžaduje žiadne 3D tréningové dáta a žiadne zmeny model difúzie obrazu, čo ilustruje účinnosť použitia vopred pripravených modelov difúzie obrazu ako predtým.
Príklady generovaného 3D z textu
Skladanie predmetov dohromady, aby sa vytvorila scéna
Ako to funguje?
DreamFusion optimalizuje 3D scénu na základe titulku pomocou generatívneho modelu Imagen text-to-image. Navrhuje Score Destillation Sampling (SDS), ktorý zahŕňa optimalizáciu stratovej funkcie na výrobu vzoriek z difúzneho modelu. Pokiaľ môžeme mapovať späť na obrázky odlišne, SDS nám umožňuje optimalizovať vzorky v akomkoľvek parametrickom priestore, ako je 3D priestor. Komu defiv tomto diferencovateľnom mapovaní využíva parametrizáciu 3D scény, ktorá je podobná poliam neurálneho žiarenia alebo NeRF. Samotný SDS vytvára prijateľný vzhľad scény, ale DreamFusion vylepšuje geometriu pomocou ďalších regularizérov a optimalizačných techník. Trénované NeRF, ktoré sú vytvorené, sú koherentné, majú vynikajúce normály, povrchovú geometriu a hĺbku a môžu byť presvetlené pomocou Lambertovho modelu tieňovania.
Prečítajte si súvisiace články:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.