30 września 2022 r.

Text-to-3D: Google opracował sieć neuronową, która generuje modele 3D z opisów tekstowych

Opublikowano: 30 września 2022 o 7:15 Zaktualizowano: 30 września 2022 o 10:54

W skrócie

Tekst do 3D sieć neuronowa może generować modele 3D z tekstu

DreamFusion optymalizuje sceny 3D w oparciu o zamianę tekstu na obraz Imagen

Model dyfuzji 2D można wykorzystać do syntezy tekstu na obraz

Google stworzył sieci neuronowe potrafi tworzyć modele 3D z opisów tekstowych. Najlepsze jest to, że najtrudniejszego aspektu nie trzeba było nawet uczyć. Imagen został użyty jako podstawa dla Text-to-3D.

Text-to-3D: Google opracował sieć neuronową, która generuje modele 3D z opisów tekstowych

O czym powinieneś wiedzieć DreamFusion?

Modele dyfuzji przeszkolone na miliardach par obraz-tekst doprowadziły do ostatnich postępów w syntezie tekstu-obrazu. Dostosowanie tego podejścia do syntezy 3D będzie wymagało wielkoskalowych zestawów danych oznaczonych zasobów 3D, a także wydajnych architektur danych 3D z usuwaniem szumów, z których żadna nie jest obecnie dostępna. W tym artykule przezwyciężyliśmy te ograniczenia, przeprowadzając syntezę tekstu do 3D za pomocą wstępnie wyszkolonego 2D dyfuzja tekstu do obrazu Model. Przedstawiamy stratę opartą na destylacji gęstości prawdopodobieństwa, która pozwala na wykorzystanie modelu dyfuzji 2D jako wstępnej optymalizacji parametrycznej generator obrazów. Korzystając z tej straty, używamy opadania gradientowego w celu optymalizacji losowo zainicjowanego modelu 3D (neural Radiance Field, NeRF), tak aby jego renderingi 2D pod przypadkowymi kątami miały minimalną stratę.

Wygenerowany model 3D określonego tekstu można oglądać pod dowolnym kątem, oświetlać zmiennym oświetleniem i wkomponowywać w dowolne środowisko 3D. Jego metoda nie wymaga danych treningowych 3D ani zmian w pliku model dyfuzji obrazu, ilustrujący skuteczność stosowania wcześniej wytrenowanych modeli dyfuzji obrazu.

DreamFusion tworzy modele 3D, które można ponownie oświetlić, o wysokiej wierności wyglądzie, głębi i normalnych na podstawie podpisu. Obiekty są reprezentowane jako Neural Radiance Field ze wstępnie wytrenowanym polem dyfuzja tekstu do obrazu przed użyciem Imagen.

Przykłady wygenerowanego 3D z tekstu

Podpowiedź: zdjęcie wiewiórki w średniowiecznej zbroi grającej na saksofonie

Podpowiedź: zdjęcie wiewiórki w eleganckiej sukni balowej siedzącej na kole garncarskim i formującej glinianą miskę

Podpowiedź: bardzo szczegółowa metalowa rzeźba wiewiórki w fioletowej bluzie z kapturem jadącej na motocyklu

Podpowiedź: misterna drewniana rzeźba wiewiórki w średniowiecznej zbroi dzierżącej katanę

Łączenie przedmiotów w celu stworzenia sceny

Jak to działa?

DreamFusion optymalizuje scenę 3D na podstawie podpisu, korzystając z modelu generowania tekstu na obraz Imagen. Sugeruje to pobieranie próbek metodą destylacji punktowej (SDS), które obejmuje optymalizację funkcji straty w celu uzyskania próbek z modelu dyfuzyjnego. O ile możemy w inny sposób odwzorować obrazy na obrazy, SDS umożliwia nam optymalizację próbek w dowolnej przestrzeni parametrów, takiej jak przestrzeń 3D. Do defiW tym różniczkowym mapowaniu wykorzystuje parametryzację sceny 3D podobną do Neural Radiance Fields lub NeRF. Sam SDS zapewnia zadowalający wygląd sceny, ale DreamFusion poprawia geometrię za pomocą dodatkowych regulatorów i technik optymalizacji. Wytworzone wyszkolone NeRF są spójne, mają doskonałe normalne, geometrię powierzchni i głębokość, a także można je ponownie oświetlić przy użyciu modelu cieniowania Lamberta.

Przeczytaj powiązane artykuły:

tagi:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.

Więcej artykułów

Damir Jałałow