MiniMax представляє відеоагента та голосовий дизайн Hailuo, розширюючи свої мультимодальні можливості штучного інтелекту


Коротко
MiniMax завершив тиждень анонсів продуктів запуском Hailuo Video Agent, інструменту для створення відео на основі штучного інтелекту, та Voice Design, багатомовного генератора тексту в мовлення.

Китайська компанія зі штучним інтелектом MiniMax оголосила про запуск бета-версії Hailuo Video Agent. Ця програма на базі штучного інтелекту перетворює прості текстові або графічні підказки на короткі високоякісні відеокліпи одним клацанням миші. Вона використовує передові методи, такі як покадрове моделювання фізики, підказки на основі руху та мультимодальний парсинг, для створення креативного відеоконтенту в доступному форматі.
Цей бета-реліз знаменує собою початок розробки продукту, представляючи ранні творчі можливості, призначені для стимулювання генерації ідей та сигналізації про початок нової ери у створенні відео за допомогою штучного інтелекту.
Платформа дозволяє користувачам вибрати бажаний стиль креативного агента, описати свою ідею простою мовою без потреби в технічних знаннях, а потім отримати повністю відрендерене, відшліфоване відео, згенероване агентом Hailuo.
Розробка відеоагента Hailuo відбувається у три окремі етапи. Перший етап включає попередньо створені шаблони відеоагентів, які генерують високоякісні, креативні відео з тексту або зображень, надісланих користувачами, за допомогою однієї команди.
На другому етапі буде представлено напівналаштовуваних відеоагентів, що надасть користувачам можливість змінювати всі аспекти процесу створення відео, включаючи сценарій, візуальні ефекти та озвучку. На третьому етапі буде повністю автономний відеоагент, здатний перетворити творчий внесок у фінальний відеоматеріал з мінімальним ручним втручанням.
MiniMax заявила, що має намір поступово впроваджувати другий етап інструментів створення агентів протягом літа.
Крім того, MiniMax представила Voice Design, вдосконалену модель перетворення тексту в мовлення без необхідності повторення, яка використовує навчальний кодер мовця для точного відтворення вокального тембру еталонного голосу без необхідності транскрипції. Ця технологія забезпечує високоякісний та виразний синтез мовлення, включаючи можливості клонування голосу одним кадром. Вона підтримує вивід 32 мовами та пропонує такі розширені функції, як модуляція емоцій та професійне налаштування голосу, що відображає значний прогрес у багатомовній та адаптивній генерації голосу.
MiniMax запускає MiniMax-M1 LLM та відеомодель Hailuo 02
MiniMax — це стартап у сфері штучного інтелекту, який вважається однією з провідних китайських компаній у сфері штучного інтелекту. Компанія спеціалізується на розробці масштабних мультимодальних систем штучного інтелекту, що охоплюють генерацію тексту, голосу, зображень та відео, включаючи відеомодель Hailuo.
Його інфраструктура підтримує виробництво мільярдів текстових токенів та мільйонів відеосегментів. MiniMax підтримується такими значними інвесторами, як Alibaba, Tencent та IDG, і входить до обраної групи швидкозростаючих китайських стартапів у сфері штучного інтелекту, які часто називають «Маленькими драконами» та які разом залучили значний венчурний капітал за останній рік.
Минулого тижня компанія запустила кілька нових технологій, зокрема модель великої мови програмування (LLM) під назвою MiniMax-M1, яка представлена як ефективніша за інші власницькі моделі в Китаї та, як повідомляється, перевершує продуктивність моделі DeepSeek R1-0528 у різних бенчмарк-тестах. Крім того, MiniMax представила нову версію свого інструменту для генерації відео, Хайлуо 02, яка пропонує рідну роздільну здатність 1080p, покращену відповідність інструкціям користувача та розширені можливості моделювання складних фізичних середовищ.
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, доказах з нульовим знанням, інвестиціях і великій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.
інші статті

Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, доказах з нульовим знанням, інвестиціях і великій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.