Google преодолява Meta чрез пускането на нов AI генератор на текст към видео, Imagen Video
Накратко
Imagen Video на Google се опитва да помогне на видеогенератора да се превърне в убийствени приложения
Не отне много време на Google да отговори на Make-a-Video от Meta. С помощта на текстова подкана, Изображение Видео може да създаде фантастично видео. Резултатите са огромен напредък спрямо състоянието на техниката въпреки редица недостатъци.
В сравнение с AI генератора на текст към видео на Facebook Създаване на видео, резултатите са значително по-добри. Тази стратегия обаче изискваше и повече надзор. За разлика от Imagen Video, където микро работниците работиха усилено, за да коментират филми с писмени описания, Make-a-Scene използва немаркирани видеоклипове за обучение.
Навлизането в спецификата на архитектурата е безсмислено; трябва да прочетете за това в статията тук. Можем само да потвърдим, че първо се генерират 16 кадъра от вграждането на текст на енкодера T5 при разделителна способност 48×24 с 3 кадъра в секунда и че след това това се мащабира от редица дифузионни модели до крайния филм от 128 кадъра. при 1280×768 и 24 кадъра в секунда.
Какво е Imagen Video?
Imagen Video е метод за създаване на текстови условни видеоклипове, базирани на поредица от модели на видео дифузия. Imagen Video произвежда висококачествени филми от текстови подкани чрез комбиниране на базов модел за видео продукция със серия от преплетени пространствени и времеви модели със супер разделителна способност. Прегледайте екипа за избор на дизайн, направен при мащабирането на системата като високоdefiмодел текст към видео, включително решението за v-параметризиране на дифузионни модели и избор на напълно конволюционни времеви и пространствени модели със супер разделителна способност при специфични разделителни способности. В допълнение, той валидира и прилага резултати от по-ранна работа върху базирано на дифузия производство на изображения в контекста на генериране на видео. След това видео моделите се подлагат на прогресивна дестилация с насоки без класификатор за бързо, висококачествено вземане на проби.
Изследователският екип на Google твърди, че системата приема текстово описание и генерира филм от 16 кадъра при три кадъра в секунда с резолюция 24 на 48 пиксела. Системата мащабира и „предсказва“ допълнителните кадри, създавайки окончателно видео със 128 кадъра при 24 кадъра в секунда и 720p резолюция (1280×768). Има 60 милиона двойки изображение-текст и 14 милиона двойки видео-текст са използвани за обучение на Imagen Video.
Imagen видео примери
Дори само защото използването на AI за създаване на видео е по-бързо и по-евтино, такива технологии несъмнено ще бъдат използвани навсякъде.
Интересувате ли се да прочетете повече? Ето някои допълнителни теми, които да разгледате:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.