Novice
September 30, 2022

Besedilo v 3D: Google je razvil nevronsko mrežo, ki ustvarja 3D modele iz besedilnih opisov

Na kratko

Besedilo v 3D nevronska mreža lahko ustvari 3D modele iz besedila

DreamFusion optimizira 3D prizore na podlagi pretvorbe besedila v sliko Imagen

2D difuzijski model se lahko uporablja za sintezo besedila v sliko

Google je ustvaril a nevronska mreža sposobni ustvarjati 3D modele iz besedilnih opisov. Najboljše pri tem je, da najtežjega vidika sploh ni bilo treba poučevati. Imagen je bil uporabljen kot osnova za Text-to-3D.

Besedilo v 3D: Google je razvil nevronsko mrežo, ki ustvarja 3D modele iz besedilnih opisov

Kaj morate vedeti DreamFusion?

Difuzijski modeli, usposobljeni na milijardah parov slika-besedilo, so pripeljali do nedavnega napredka pri sintezi besedila v sliko. Prilagoditev tega pristopa k 3D-sintezi bo zahtevala obsežne nabore podatkov označenih 3D-sredstev ter učinkovite 3D-podatkovne arhitekture za odstranjevanje šumov, od katerih nobena trenutno ni na voljo. V tem prispevku te omejitve premagamo tako, da izvedemo sintezo besedila v 3D s predhodno usposobljenim 2D difuzijo besedila v sliko model. Predstavljamo izgubo na podlagi destilacije gostote verjetnosti, ki omogoča, da se 2D difuzijski model uporabi kot predhodnik za optimizacijo parametričnega generator slik. Z uporabo te izgube uporabljamo gradientni spust za optimizacijo naključno inicializiranega 3D modela (Neural Radiance Field ali NeRF), tako da imajo njegove 2D upodobitve iz naključnih kotov minimalne izgube.

Ustvarjeni 3D model določenega besedila si je mogoče ogledati iz katerega koli kota, ga osvetliti s spremenljivo osvetlitvijo in sestaviti v poljubno 3D okolje. Njegova metoda ne zahteva podatkov o 3D usposabljanju in nobenih sprememb v model difuzije slike, ki ponazarja učinkovitost uporabe vnaprej pripravljenih modelov difuzije slike kot prej.

DreamFusion izdeluje 3D-modele, ki jih je mogoče znova osvetliti, z visoko zvestobo videza, globine in normalnih vrednosti na podlagi napisa. Predmeti so predstavljeni kot polje nevralnega sevanja s prednastavljenim difuzijo besedila v sliko pred uporabo Imagen.

Primeri ustvarjenega 3D iz besedila

Poziv: fotografija veverice v srednjeveškem oklepu, ki igra saksofon
Poziv: fotografija veverice v elegantni plesni obleki, ki sedi za lončarskim vretenom in oblikuje glineno skledo
Poziv: zelo podrobna kovinska skulptura veverice, ki nosi vijoličen pulover s kapuco in se vozi z motorjem
Poziv: zapletena lesena rezbarija veverice v srednjeveškem oklepu, ki vihti katano

Sestavljanje predmetov skupaj za ustvarjanje prizora

Kako deluje?

DreamFusion optimizira 3D sceno na podlagi napisa z uporabo generativnega modela besedila v sliko Imagen. Predlaga Score Destillation Sampling (SDS), ki vključuje optimizacijo funkcije izgube za izdelavo vzorcev iz difuzijskega modela. Dokler lahko slike preslikamo drugače, nam SDS omogoča optimizacijo vzorcev v katerem koli prostoru parametrov, kot je 3D prostor. Za defipri tem razločljivem preslikavi uporablja parametrizacijo 3D scene, ki je podobna nevronskim sevalnim poljem ali NeRF. Samo SDS ustvari sprejemljiv videz scene, vendar DreamFusion izboljša geometrijo z dodatnimi regulatorji in tehnikami optimizacije. Izurjeni NeRF-ji, ki so proizvedeni, so koherentni, imajo odlične normale, geometrijo površine in globino ter jih je mogoče ponovno osvetliti z uporabo Lambertovega modela senčenja.

Preberite povezane članke:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Institucionalni apetit raste proti Bitcoin ETF-jem sredi volatilnosti

Razkritja prek vlog 13F razkrivajo pomembne institucionalne vlagatelje, ki se ukvarjajo z Bitcoin ETF, kar poudarja vse večje sprejemanje ...

Več o tem

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Injective združuje moči z AltLayer, da bi v inEVM prinesel varnost preoblikovanja
ŽELITE POSTATI PARTNER Novice Tehnologija
Injective združuje moči z AltLayer, da bi v inEVM prinesel varnost preoblikovanja
Maj 3, 2024
Masa se združuje s podjetjem Teller, da uvede MASA Lending Pool, ki omogoča izposojo USDC na osnovi
Prisotnost Novice Tehnologija
Masa se združuje s podjetjem Teller, da uvede MASA Lending Pool, ki omogoča izposojo USDC na osnovi
Maj 3, 2024
Velodrome v prihodnjih tednih lansira različico Superchain Beta in se širi po verigah blokov plasti 2 sklada OP
Prisotnost Novice Tehnologija
Velodrome v prihodnjih tednih lansira različico Superchain Beta in se širi po verigah blokov plasti 2 sklada OP
Maj 3, 2024
CARV napoveduje partnerstvo z Aethirjem za decentralizacijo njegove podatkovne plasti in razdeljevanje nagrad
ŽELITE POSTATI PARTNER Novice Tehnologija
CARV napoveduje partnerstvo z Aethirjem za decentralizacijo njegove podatkovne plasti in razdeljevanje nagrad
Maj 3, 2024
CRYPTOMERIA LABS PTE. LTD.