MiniMax představuje video agenta a hlasový design Hailuo a rozšiřuje své multimodální možnosti umělé inteligence


Stručně
Společnost MiniMax uzavřela týden plný oznámení o produktech spuštěním Hailuo Video Agent, nástroje pro tvorbu videa řízeného umělou inteligencí, a Voice Design, vícejazyčného generátoru textu na řeč.

Čínská společnost zabývající se umělou inteligencí MiniMax oznámila spuštění beta verze aplikace Hailuo Video Agent. Tato aplikace řízená umělou inteligencí převádí základní textové nebo obrazové pokyny na krátké, vysoce kvalitní videoklipy jediným kliknutím. Využívá pokročilé techniky, jako je fyzikální simulace po jednotlivých snímcích, pokyny založené na pohybu a multimodální parsování, k poskytování kreativního video obsahu v přístupném formátu.
Tato beta verze představuje začátek vývoje produktu a představuje rané kreativní funkce určené ke stimulaci nápadů a signalizaci začátku nové éry v generování videa s využitím umělé inteligence.
Platforma umožňuje uživatelům vybrat si preferovaný styl kreativního agenta, popsat svůj nápad srozumitelným jazykem bez nutnosti technických znalostí a poté obdržet plně vykreslené a propracované video vygenerované agentem Hailuo.
Vývoj Hailuo Video Agent probíhá ve třech odlišných fázích. První fáze zahrnuje předpřipravené šablony video agentů, které generují vysoce kvalitní a kreativní videa z textu nebo obrázků odeslaných uživateli pomocí jediného příkazu.
Druhá fáze představí částečně přizpůsobitelné video agenty, kteří uživatelům dají možnost upravovat všechny aspekty procesu tvorby videa, včetně scénáře, vizuální stránky a dabingu. Třetí fáze dodá plně autonomního, komplexního video agenta schopného transformovat kreativní vstup do finálního videa s minimálním manuálním zásahem.
Společnost MiniMax uvedla, že v průběhu léta hodlá postupně zavést druhou fázi nástrojů pro tvorbu agentů.
Společnost MiniMax dále představila Voice Design, pokročilý model převodu textu na řeč s nulovým počtem hlasů, který využívá učitelný kodér mluvčího k přesné replikaci zabarvení hlasu referenčního hlasu bez nutnosti transkripce. Tato technologie umožňuje vysoce kvalitní a expresivní syntézu řeči, včetně možností klonování hlasu s jedním počtem hlasů. Podporuje výstup ve 32 jazycích a nabízí sofistikované funkce, jako je modulace emocí a profesionální přizpůsobení hlasu, což odráží významný pokrok ve vícejazyčném a adaptivním generování hlasu.
MiniMax uvádí na trh MiniMax-M1 LLM a video model Hailuo 02
MiniMax je startup zabývající se umělou inteligencí, který je považován za jednu z předních rozvíjejících se čínských firem v oblasti umělé inteligence. Společnost se specializuje na vývoj rozsáhlých multimodálních systémů umělé inteligence, které zahrnují generování textu, hlasu, obrazu a videa, včetně video modelu Hailuo.
Jeho infrastruktura podporuje produkci miliard textových tokenů a milionů video segmentů. MiniMax je podporován významnými investory, jako jsou Alibaba, Tencent a IDG, a je zařazen do vybrané skupiny rychle rostoucích čínských startupů v oblasti umělé inteligence, často označovaných jako Malí draci, kteří v uplynulém roce kolektivně přilákali značný rizikový kapitál.
Minulý týden společnost uvedla na trh několik nových technologií, včetně modelu velkého jazyka programování (LLM) s názvem MiniMax-M1, který je v Číně prezentován jako efektivnější než jiné proprietární modely a údajně překonává výkon modelu DeepSeek R1-0528 v různých benchmarkových testech. MiniMax navíc představil novou verzi svého nástroje pro generování videa, Hailuo 02, které nabízí nativní rozlišení 1080p, vylepšené dodržování uživatelských pokynů a rozšířené možnosti simulace složitých fyzikálních prostředí.
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Alisa, oddaná novinářka v MPost, se specializuje na kryptoměny, důkazy s nulovými znalostmi, investice a rozsáhlou oblast Web3. S velkým okem pro nové trendy a technologie poskytuje komplexní pokrytí, aby informovala a zapojila čtenáře do neustále se vyvíjejícího prostředí digitálních financí.
Další články

Alisa, oddaná novinářka v MPost, se specializuje na kryptoměny, důkazy s nulovými znalostmi, investice a rozsáhlou oblast Web3. S velkým okem pro nové trendy a technologie poskytuje komplexní pokrytí, aby informovala a zapojila čtenáře do neustále se vyvíjejícího prostředí digitálních financí.