Звіт про новини
Жовтень 06, 2022

Google долає Meta, запускаючи новий AI-генератор перетворення тексту у відео Imagen Video 

Коротко

Imagen Video від Google намагається допомогти відеогенератору перетворитися на вбивчу програму

Google не знадобилося багато часу, щоб відповісти на Make-a-Video від Meta. Використовуючи текстову підказку, Imagen Відео може створити фантастичне відео. Результати значно перевершують сучасний рівень, незважаючи на низку недоліків.

Порівняно з генератором AI Text-to-Video від Facebook Зробіть відео, результати помітно кращі. Однак ця стратегія також вимагала більшого контролю. На відміну від Imagen Video, де мікропрацівники наполегливо працювали над анотаціями до фільмів із письмовими описами, Make-a-Scene використовував для навчання відео без позначок.

Вдаватися в специфіку архітектури безглуздо; про це варто прочитати в статті тут. Ми можемо лише підтвердити, що 16 кадрів спочатку генеруються з вбудованого тексту кодувальником T5 із роздільною здатністю 48 × 24 із частотою 3 кадри на секунду, а потім масштабуються кількома моделями розповсюдження до остаточного відео із 128 кадрів. 1280×768 і 24 кадри в секунду.

Що таке Imagen Video?

Imagen Video — це метод створення текстових умовних відео на основі серії моделей розповсюдження відео. Imagen Video створює високоякісні фільми текстові підказки шляхом поєднання базової моделі виробництва відео з серією просторових і часових моделей просторового та часового відео з надвисокою роздільною здатністю. Ознайомтеся з вибором дизайну, зробленим командою під час розширення системи якdefiмодель перетворення тексту у відео, включаючи рішення щодо параметризації дифузійних моделей v-параметризації та вибір повністю згорткових часових і просторових моделей із надвисокою роздільною здатністю при певній роздільній здатності. Крім того, він перевіряє та застосовує результати попередніх робіт із створення зображень на основі дифузії до контексту генерація відео. Відеомоделі потім піддаються прогресивній дистиляції без використання класифікатора для швидкого високоякісного відбору проб.

Дослідницька група Google стверджує, що система приймає текстовий опис і генерує 16-кадровий фільм зі швидкістю три кадри в секунду з роздільною здатністю 24 на 48 пікселів. Система масштабує та «прогнозує» додаткові кадри, створюючи остаточне відео зі 128 кадрами зі швидкістю 24 кадри в секунду та роздільною здатністю 720p (1280×768). Для навчання Imagen Video було використано 60 мільйонів пар зображення-текст і 14 мільйонів пар відео-текст.

Зразки відео Imagen

Навіть якщо лише тому, що використання штучного інтелекту для створення відео є швидшим і дешевшим, такі технології, безсумнівно, будуть використовуватися всюди.

Хочете прочитати більше? Ось деякі додаткові теми для перевірки:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Від Ripple до The Big Green DAO: як криптовалютні проекти сприяють благодійності

Давайте розглянемо ініціативи, які використовують потенціал цифрових валют для благодійних цілей.

Дізнайтеся більше

AlphaFold 3, Med-Gemini та інші: як AI трансформує охорону здоров’я у 2024 році

ШІ проявляється різними способами в охороні здоров’я, від виявлення нових генетичних кореляцій до розширення можливостей роботизованих хірургічних систем...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Токенізовані RWA долають розрив між ними DeFi і TradFi
Думка Топ списки Business ринки Софтвер Технологія
Токенізовані RWA долають розрив між ними DeFi і TradFi
24 Червня, 2024.
Поточний рівень корекції біткойна все ще нижче середнього, каже криптоаналітик Rekt Capital
ринки Звіт про новини Технологія
Поточний рівень корекції біткойна все ще нижче середнього, каже криптоаналітик Rekt Capital
24 Червня, 2024.
Код індексатора протоколу SRC з відкритим вихідним кодом основних розробників, включаючи стандарти маркерів SRC-20, SRC-721 і SRC-101
Звіт про новини Софтвер Технологія
Код індексатора протоколу SRC з відкритим вихідним кодом основних розробників, включаючи стандарти маркерів SRC-20, SRC-721 і SRC-101
24 Червня, 2024.
Зліт і падіння рекламних амбіцій Oracle: мрія про 2 мільярди доларів руйнується
Думка Business Стиль життя ринки Технологія
Зліт і падіння рекламних амбіцій Oracle: мрія про 2 мільярди доларів руйнується
24 Червня, 2024.
CRYPTOMERIA LABS PTE. LTD.