Raport aktualności
06 października 2022 r.

Google pokonuje Meta, uruchamiając nowy generator sztucznej inteligencji do zamiany tekstu na wideo, Imagen Video 

W skrócie

Google Imagen Video próbuje pomóc generatorowi wideo przekształcić się w zabójcze aplikacje

Nie trzeba było długo czekać, aby Google odpowiedział na Make-a-Video od Meta. Korzystając z zachęty tekstowej, Obraz wideo może wyprodukować fantastyczne wideo. Wyniki są ogromnym postępem w stosunku do stanu techniki, pomimo szeregu wad.

W porównaniu z generatorem sztucznej inteligencji Text-to-Video na Facebooku Zrób wideo, wyniki są zauważalnie lepsze. Jednak ta strategia wymagała również większego nadzoru. W przeciwieństwie do Imagen Video, w którym mikropracownicy ciężko pracowali, aby dodawać adnotacje do filmów z pisemnymi opisami, Make-a-Scene używał filmów bez etykiet do celów szkoleniowych.

Wchodzenie w specyfikę architektury mija się z celem; powinieneś przeczytać o tym w artykule tutaj. Możemy jedynie potwierdzić, że 16 klatek jest najpierw generowanych z osadzania tekstu kodera T5 w rozdzielczości 48×24 przy 3 klatkach na sekundę, a następnie jest to skalowane w górę przez szereg modeli dyfuzji do końcowego filmu o 128 klatkach przy 1280×768 i 24 klatkach na sekundę.

Co to jest Imagen Video?

Imagen Video to metoda tworzenia filmów warunkowych tekstowych oparta na szeregu modeli dyfuzji wideo. Imagen Video produkuje wysokiej jakości filmy z monity tekstowe poprzez połączenie podstawowego modelu produkcji wideo z serią przeplatanych przestrzennych i czasowych modeli wideo o super rozdzielczości. Przejrzyj wybory projektowe dokonane przez zespół podczas skalowania systemu jako rozwiązania o wysokiejdefinad modelem zamiany tekstu na wideo, w tym decyzją o parametryzacji v modeli dyfuzji i wyborze w pełni splotowych modeli superrozdzielczości czasowej i przestrzennej w określonych rozdzielczościach. Ponadto weryfikuje i stosuje wyniki wcześniejszych prac nad tworzeniem obrazu w oparciu o dyfuzję w kontekście generowanie wideo. Modele wideo są następnie poddawane destylacji progresywnej ze wskazówkami bez klasyfikatorów w celu szybkiego pobierania próbek o wysokiej jakości.

Zespół badawczy Google twierdzi, że system akceptuje opis tekstowy i generuje 16-klatkowy film z szybkością trzech klatek na sekundę w rozdzielczości 24 na 48 pikseli. System skaluje i „przewiduje” dodatkowe klatki, tworząc ostateczny film ze 128 klatkami przy 24 klatkach na sekundę i rozdzielczości 720p (1280×768). Do szkolenia Imagen Video użyto 60 milionów par obraz-tekst, a 14 milionów par wideo-tekst.

Próbki wideo obrazu

Nawet jeśli tylko dlatego, że wykorzystanie sztucznej inteligencji do tworzenia wideo jest szybsze i tańsze, takie technologie niewątpliwie będą stosowane wszędzie.

Chcesz przeczytać więcej? Oto kilka dodatkowych tematów do sprawdzenia:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Hot Stories
Dołącz do naszego newslettera.
Najnowsze wieści

Szał DOGE: analiza niedawnego wzrostu wartości Dogecoina (DOGE).

Branża kryptowalut szybko się rozwija, a monety memowe przygotowują się na znaczny wzrost. Dogecoin (DOGE), ...

Dowiedz się więcej

Ewolucja treści generowanych przez sztuczną inteligencję w Metaverse

Pojawienie się generatywnych treści AI jest jednym z najbardziej fascynujących osiągnięć w środowisku wirtualnym…

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Brokerzy Tiger wprowadzą handel bez prowizji dla Bosera HashKey, China Asset Management i funduszy ETF Harvest Spot Crypto
Biznes rynki Raport aktualności
Brokerzy Tiger wprowadzą handel bez prowizji dla Bosera HashKey, China Asset Management i funduszy ETF Harvest Spot Crypto
29 kwietnia 2024 r.
Scroll kończy aktualizację sieci głównej Bernoulli, przewiduje 10-krotny spadek kosztów transakcji
Raport aktualności Technologia
Scroll kończy aktualizację sieci głównej Bernoulli, przewiduje 10-krotny spadek kosztów transakcji
29 kwietnia 2024 r.
OKX Jumpstart wyświetla Runecoin, umożliwia stakowanie BTC w celu zdobycia tokenów RUNE
rynki Raport aktualności Technologia
OKX Jumpstart wyświetla Runecoin, umożliwia stakowanie BTC w celu zdobycia tokenów RUNE
29 kwietnia 2024 r.
Najlepsze oferty tego tygodnia, duże inwestycje w sztuczną inteligencję, IT, Web3i Krypto (22-26.04)
Digest Biznes rynki Technologia
Najlepsze oferty tego tygodnia, duże inwestycje w sztuczną inteligencję, IT, Web3i Krypto (22-26.04)
26 kwietnia 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.