Text-to-3D: Google opracował sieć neuronową, która generuje modele 3D z opisów tekstowych
W skrócie
Tekst do 3D sieć neuronowa może generować modele 3D z tekstu
DreamFusion optymalizuje sceny 3D w oparciu o zamianę tekstu na obraz Imagen
Model dyfuzji 2D można wykorzystać do syntezy tekstu na obraz
Google stworzył sieci neuronowe potrafi tworzyć modele 3D z opisów tekstowych. Najlepsze jest to, że najtrudniejszego aspektu nie trzeba było nawet uczyć. Imagen został użyty jako podstawa dla Text-to-3D.
O czym powinieneś wiedzieć DreamFusion?
Modele dyfuzji przeszkolone na miliardach par obraz-tekst doprowadziły do ostatnich postępów w syntezie tekstu-obrazu. Dostosowanie tego podejścia do syntezy 3D będzie wymagało wielkoskalowych zestawów danych oznaczonych zasobów 3D, a także wydajnych architektur danych 3D z usuwaniem szumów, z których żadna nie jest obecnie dostępna. W tym artykule przezwyciężyliśmy te ograniczenia, przeprowadzając syntezę tekstu do 3D za pomocą wstępnie wyszkolonego 2D dyfuzja tekstu do obrazu Model. Przedstawiamy stratę opartą na destylacji gęstości prawdopodobieństwa, która pozwala na wykorzystanie modelu dyfuzji 2D jako wstępnej optymalizacji parametrycznej generator obrazów. Korzystając z tej straty, używamy opadania gradientowego w celu optymalizacji losowo zainicjowanego modelu 3D (neural Radiance Field, NeRF), tak aby jego renderingi 2D pod przypadkowymi kątami miały minimalną stratę.
Wygenerowany model 3D określonego tekstu można oglądać pod dowolnym kątem, oświetlać zmiennym oświetleniem i wkomponowywać w dowolne środowisko 3D. Jego metoda nie wymaga danych treningowych 3D ani zmian w pliku model dyfuzji obrazu, ilustrujący skuteczność stosowania wcześniej wytrenowanych modeli dyfuzji obrazu.
Przykłady wygenerowanego 3D z tekstu
Łączenie przedmiotów w celu stworzenia sceny
Jak to działa?
DreamFusion optymalizuje scenę 3D na podstawie podpisu, korzystając z modelu generowania tekstu na obraz Imagen. Sugeruje to pobieranie próbek metodą destylacji punktowej (SDS), które obejmuje optymalizację funkcji straty w celu uzyskania próbek z modelu dyfuzyjnego. O ile możemy w inny sposób odwzorować obrazy na obrazy, SDS umożliwia nam optymalizację próbek w dowolnej przestrzeni parametrów, takiej jak przestrzeń 3D. Do defiW tym różniczkowym mapowaniu wykorzystuje parametryzację sceny 3D podobną do Neural Radiance Fields lub NeRF. Sam SDS zapewnia zadowalający wygląd sceny, ale DreamFusion poprawia geometrię za pomocą dodatkowych regulatorów i technik optymalizacji. Wytworzone wyszkolone NeRF są spójne, mają doskonałe normalne, geometrię powierzchni i głębokość, a także można je ponownie oświetlić przy użyciu modelu cieniowania Lamberta.
Przeczytaj powiązane artykuły:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.