Google преодолевает мета, запустив новый генератор искусственного интеллекта для преобразования текста в видео, Imagen Video
Коротко
Imagen Video от Google пытается помочь видеогенератору превратиться в убийственное приложение
Google не потребовалось много времени, чтобы отреагировать на Make-a-Video от Meta. С помощью текстовой подсказки Изображение Видео может создать фантастическое видео. Результаты являются огромным шагом вперед по сравнению с уровнем техники, несмотря на ряд недостатков.
По сравнению с генератором искусственного интеллекта Facebook для преобразования текста в видео. Сделать видео, результаты заметно лучше. Однако эта стратегия также требовала большего контроля. В отличие от Imagen Video, где микроработники усердно трудились над аннотированием фильмов письменными описаниями, Make-a-Scene использовала для обучения видео без маркировки.
Вдаваться в особенности архитектуры бессмысленно; вы должны прочитать об этом в статье здесь. Мы можем только подтвердить, что 16 кадров сначала генерируются из встраивания текста кодировщиком T5 с разрешением 48×24 с частотой 3 кадра в секунду, а затем масштабируются с помощью ряда моделей диффузии в окончательный фильм из 128 кадров. с разрешением 1280×768 и частотой 24 кадра в секунду.
Что такое имиджевое видео?
Imagen Video — это метод создания текстовых видео, основанный на серии моделей распространения видео. Imagen Video производит высококачественные фильмы из текстовые подсказки путем объединения базовой модели производства видео с серией чересстрочных моделей пространственного и временного видео сверхвысокого разрешения. Изучите проектные решения, принятые командой при масштабировании системы до уровня высокопроизводительной системы.defiпреобразование текста в видео, включая решение о v-параметризации диффузионных моделей и выбор полностью сверточных моделей временного и пространственного сверхвысокого разрешения при определенных разрешениях. Кроме того, он подтверждает и применяет результаты более ранних работ по созданию изображений на основе диффузии в контексте генерация видео. Затем видеомодели подвергаются прогрессивной дистилляции с использованием классификатора без руководства для быстрой и высококачественной выборки.
Исследовательская группа Google утверждает, что система принимает текстовое описание и генерирует 16-кадровый фильм со скоростью три кадра в секунду с разрешением 24 на 48 пикселей. Система масштабирует и «предсказывает» лишние кадры, создавая итоговое видео со 128 кадрами при частоте 24 кадра в секунду и разрешении 720p (1280×768). Для обучения Imagen Video было использовано 60 миллионов пар изображение-текст и 14 миллионов пар видео-текст.
Образцы видео изображений
Хотя бы потому, что использование ИИ для создания видео быстрее и дешевле, такие технологии, несомненно, будут применяться повсеместно.
Хотите узнать больше? Вот несколько дополнительных тем для ознакомления:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.