Inihayag ng MiniMax ang Hailuo Video Agent At Disenyo ng Boses, Pinapalawak ang Multimodal AI Capabilities Nito


Sa madaling sabi
Tinapos ng MiniMax ang linggo ng mga anunsyo ng produkto sa paglulunsad ng Hailuo Video Agent, isang tool sa paggawa ng video na hinimok ng AI, at Voice Design, isang multilingguwal na text-to-speech generator.

kumpanya ng Chinese AI mINIMAX inihayag na inilunsad nito ang Hailuo Video Agent sa Beta phase nito. Ang AI-driven na application na ito ay nagko-convert ng mga pangunahing text o image prompt sa maikli, mataas na kalidad na mga video clip sa isang pag-click. Gumagamit ito ng mga advanced na diskarte tulad ng frame-by-frame physics simulation, motion-based na pag-prompt, at multimodal na pag-parse upang maghatid ng malikhaing nilalaman ng video sa isang naa-access na format.
Ang paglabas ng Beta na ito ay nagmamarka ng simula ng paglalakbay sa pag-develop ng produkto, na nagpapakilala ng mga maagang kakayahan sa creative na idinisenyo upang pasiglahin ang ideya at hudyat ng pagsisimula ng isang bagong panahon sa pagbuo ng AI video.
Binibigyang-daan ng platform ang mga user na pumili ng gustong istilo ng ahente ng creative, ilarawan ang kanilang ideya gamit ang simpleng wika nang hindi nangangailangan ng teknikal na kaalaman, at pagkatapos ay makatanggap ng ganap na nai-render, pinakintab na video na binuo ng Hailuo Agent.
Ang Hailuo Video Agent ay binuo sa tatlong natatanging yugto. Kasama sa Stage One ang mga prebuilt na template ng ahente ng video na bumubuo ng mga de-kalidad at malikhaing video mula sa text o mga larawang isinumite ng user gamit ang isang command.
Ang Stage Two ay magpapakilala ng mga semi-customizable na ahente ng video, na nagbibigay sa mga user ng opsyon na baguhin ang lahat ng aspeto ng proseso ng paggawa ng video, kabilang ang script, visual, at voiceover. Ang Stage Three ay maghahatid ng ganap na autonomous, end-to-end na ahente ng video na may kakayahang baguhin ang creative input sa isang final-cut na video na may kaunting manual na paglahok.
Ipinahayag ng MiniMax na nilalayon nitong unti-unting ipatupad ang Stage Two ng mga tool sa paglikha ng Ahente sa panahon ng tag-araw.
Bilang karagdagan, inilabas ng MiniMax ang Voice Design, isang advanced na zero-shot na text-to-speech na modelo na gumagamit ng natutunang speaker encoder upang tumpak na kopyahin ang vocal timbre ng isang reference na boses nang hindi nangangailangan ng transkripsyon. Ang teknolohiyang ito ay nagbibigay-daan sa mataas na kalidad at nagpapahayag na synthesis ng pagsasalita, kabilang ang mga kakayahan sa one-shot na voice cloning. Sinusuportahan nito ang output sa 32 mga wika at nag-aalok ng mga sopistikadong feature tulad ng emotion modulation at professional-grade na pag-customize ng boses, na nagpapakita ng makabuluhang pag-unlad sa multilingual at adaptive na pagbuo ng boses.
Inilunsad ng MiniMax ang MiniMax-M1 LLM At Hailuo 02 Video Model
Ang MiniMax ay isang AI startup na kinilala bilang isa sa mga kilalang umuusbong na kumpanya ng AI ng China. Dalubhasa ang kumpanya sa pagbuo ng malakihang multimodal AI system na sumasaklaw sa text, voice, image, at video generation, kasama ang Hailuo video model nito.
Sinusuportahan ng imprastraktura nito ang paggawa ng bilyun-bilyong text token at milyun-milyong segment ng video. Ang MiniMax ay sinusuportahan ng mga mahahalagang investor gaya ng Alibaba, Tencent, at IDG, at nakategorya sa piling grupo ng mga high-growth na Chinese AI startup na kadalasang tinutukoy bilang Little Dragons, na sama-samang nakakuha ng malaking venture capital sa nakalipas na taon.
Noong nakaraang linggo, naglunsad ang kumpanya ng ilang bagong teknolohiya, kabilang ang isang malaking modelo ng wika (LLM) na pinangalanang MiniMax-M1, na ipinakita bilang mas mahusay kaysa sa iba pang pagmamay-ari na mga modelo sa China at naiulat na nalampasan ang pagganap ng modelo ng DeepSeek na R1-0528 sa iba't ibang benchmark na pagsubok. Bilang karagdagan, ipinakilala ng MiniMax ang isang bagong bersyon ng tool sa pagbuo ng video nito, Hailuo 02, na nag-aalok ng native na 1080p na resolution, pinahusay na pagsunod sa mga tagubilin ng user, at pinahusay na mga kakayahan para sa pagtulad sa mga kumplikadong pisikal na kapaligiran.
Pagtanggi sa pananagutan
Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.
Tungkol sa Ang May-akda
Alisa, isang dedikadong mamamahayag sa MPost, dalubhasa sa cryptocurrency, zero-knowledge proofs, investments, at ang malawak na larangan ng Web3. Sa isang matalas na mata para sa mga umuusbong na uso at teknolohiya, naghahatid siya ng komprehensibong saklaw upang ipaalam at hikayatin ang mga mambabasa sa patuloy na umuusbong na tanawin ng digital finance.
Mas marami pang artikulo

Alisa, isang dedikadong mamamahayag sa MPost, dalubhasa sa cryptocurrency, zero-knowledge proofs, investments, at ang malawak na larangan ng Web3. Sa isang matalas na mata para sa mga umuusbong na uso at teknolohiya, naghahatid siya ng komprehensibong saklaw upang ipaalam at hikayatin ang mga mambabasa sa patuloy na umuusbong na tanawin ng digital finance.