Raport aktualności
30 września 2022 r.

Text-to-3D: Google opracował sieć neuronową, która generuje modele 3D z opisów tekstowych

W skrócie

Tekst do 3D sieć neuronowa może generować modele 3D z tekstu

DreamFusion optymalizuje sceny 3D w oparciu o zamianę tekstu na obraz Imagen

Model dyfuzji 2D można wykorzystać do syntezy tekstu na obraz

Google stworzył sieci neuronowe potrafi tworzyć modele 3D z opisów tekstowych. Najlepsze jest to, że najtrudniejszego aspektu nie trzeba było nawet uczyć. Imagen został użyty jako podstawa dla Text-to-3D.

Text-to-3D: Google opracował sieć neuronową, która generuje modele 3D z opisów tekstowych

O czym powinieneś wiedzieć DreamFusion?

Modele dyfuzji przeszkolone na miliardach par obraz-tekst doprowadziły do ​​ostatnich postępów w syntezie tekstu-obrazu. Dostosowanie tego podejścia do syntezy 3D będzie wymagało wielkoskalowych zestawów danych oznaczonych zasobów 3D, a także wydajnych architektur danych 3D z usuwaniem szumów, z których żadna nie jest obecnie dostępna. W tym artykule przezwyciężyliśmy te ograniczenia, przeprowadzając syntezę tekstu do 3D za pomocą wstępnie wyszkolonego 2D dyfuzja tekstu do obrazu Model. Przedstawiamy stratę opartą na destylacji gęstości prawdopodobieństwa, która pozwala na wykorzystanie modelu dyfuzji 2D jako wstępnej optymalizacji parametrycznej generator obrazów. Korzystając z tej straty, używamy opadania gradientowego w celu optymalizacji losowo zainicjowanego modelu 3D (neural Radiance Field, NeRF), tak aby jego renderingi 2D pod przypadkowymi kątami miały minimalną stratę.

Wygenerowany model 3D określonego tekstu można oglądać pod dowolnym kątem, oświetlać zmiennym oświetleniem i wkomponowywać w dowolne środowisko 3D. Jego metoda nie wymaga danych treningowych 3D ani zmian w pliku model dyfuzji obrazu, ilustrujący skuteczność stosowania wcześniej wytrenowanych modeli dyfuzji obrazu.

DreamFusion tworzy modele 3D, które można ponownie oświetlić, o wysokiej wierności wyglądzie, głębi i normalnych na podstawie podpisu. Obiekty są reprezentowane jako Neural Radiance Field ze wstępnie wytrenowanym polem dyfuzja tekstu do obrazu przed użyciem Imagen.

Przykłady wygenerowanego 3D z tekstu

Podpowiedź: zdjęcie wiewiórki w średniowiecznej zbroi grającej na saksofonie
Podpowiedź: zdjęcie wiewiórki w eleganckiej sukni balowej siedzącej na kole garncarskim i formującej glinianą miskę
Podpowiedź: bardzo szczegółowa metalowa rzeźba wiewiórki w fioletowej bluzie z kapturem jadącej na motocyklu
Podpowiedź: misterna drewniana rzeźba wiewiórki w średniowiecznej zbroi dzierżącej katanę

Łączenie przedmiotów w celu stworzenia sceny

Jak to działa?

DreamFusion optymalizuje scenę 3D na podstawie podpisu, korzystając z modelu generowania tekstu na obraz Imagen. Sugeruje to pobieranie próbek metodą destylacji punktowej (SDS), które obejmuje optymalizację funkcji straty w celu uzyskania próbek z modelu dyfuzyjnego. O ile możemy w inny sposób odwzorować obrazy na obrazy, SDS umożliwia nam optymalizację próbek w dowolnej przestrzeni parametrów, takiej jak przestrzeń 3D. Do defiW tym różniczkowym mapowaniu wykorzystuje parametryzację sceny 3D podobną do Neural Radiance Fields lub NeRF. Sam SDS zapewnia zadowalający wygląd sceny, ale DreamFusion poprawia geometrię za pomocą dodatkowych regulatorów i technik optymalizacji. Wytworzone wyszkolone NeRF są spójne, mają doskonałe normalne, geometrię powierzchni i głębokość, a także można je ponownie oświetlić przy użyciu modelu cieniowania Lamberta.

Przeczytaj powiązane artykuły:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
Biznes Raport aktualności Technologia
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
3 maja 2024 r.
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
rynki Raport aktualności Technologia
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
3 maja 2024 r.
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
rynki Raport aktualności Technologia
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
3 maja 2024 r.
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
Biznes Raport aktualności Technologia
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
3 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.