Tudósítást Technológia
Január 03, 2024

Az AI Startup MyShell kiadja az OpenVoice algoritmust a precíz hangklónozáshoz

Röviden

A kanadai AI startup, a MyShell bejelentette, hogy nyílt forráskódú OpenVoice algoritmust kínál az azonnali hangklónozáshoz.

Az AI Startup MyShell kiadja az OpenVoice algoritmust a precíz hangklónozáshoz

Respeecher, Voicemod és ElevenLabs – mindhárom startupban van egy közös vonás – mind algoritmusokat és mesterséges intelligenciaszoftvert biztosítanak a hangklónok készítéséhez. Most egy új játékos, a kanadai AI startup MyShell bejelentette, hogy nyílt forráskódú OpenVoice algoritmust kínál az azonnali hangklónozáshoz.

A MyShell megosztotta a frissítést itt közösségi média platform X és azt mondta: „Klónozzon hangokat páratlan precizitással, a hangszín finom szabályozásával, az érzelmektől az akcentusig, a ritmusig, a szünetekig és az intonációig, mindössze egy kis hangklip segítségével.”

Az együttműködés keretében az MIT, a MyShell.ai és a Tsinghua Egyetem kutatói bemutatták az OpenVoice-ot, amely képes reprodukálni a beszélő hangját és beszédet generálni. több nyelven, csak egy rövid hangrészletet használva az eredeti forrásból. Megragadja a beszélő hangjának egyedi tónusát és színét is.

A cég szerint az algoritmus olyan kulcsfontosságú stilisztikai elemeket ad hozzá, mint az érzelem, az akcentus, a ritmus, a szünetek és az intonáció. Ezek az elemek kulcsfontosságúak a beszéd valódi hangzásához és érdekes beszélgetések létrehozásához. Segít elkerülni az unalmas hangzást, amelyet a rendszeres szövegfelolvasás során gyakran kap.

Hogyan működik a hangklónozó mesterséges intelligencia modell

egy kutatási papír, az OpenVoice megosztotta a hangklónozó mesterséges intelligencia mögött meghúzódó módszertant. Az OpenVoice két különálló részből áll AI modellek: egy szövegfelolvasó (TTS) modell és egy „hang konverter”.

A modell képes kezelni a stílusparamétereket és a nyelveket, és „30,000 XNUMX mondatos betanításon” esett át angol (amerikai és brit akcentussal), kínai és japán beszélők részéről. A tréning során a mintákat a kifejezett érzelmek alapján címkézték, a modell pedig ezekből a hangfelvételekből tanulta meg az intonációt, a ritmust és a szüneteket.

Másrészt a hangszínátalakító modellt több mint 300,000 20,000 hangmintából álló hatalmas adathalmazra képezték ki, több mint XNUMX XNUMX különböző hangszóróból. Mindkét esetben az emberi beszéd hangját fonémákká alakították át – konkrét hangokká, amelyek megkülönböztetik a szavakat –, és vektoros beágyazásokkal ábrázolták.

Az „alaphangszórót” használó TTS-modell kombinálja a felhasználó által az edzési folyamat során felvett hangból származó hangszínnel. Ez a két modell együtt képes reprodukálni a felhasználó hangját és módosítani a hangszínt – a beszélt szövegben közvetített érzelmi kifejezést.

A startupot 2023-ban alapították. Tavaly a MyShell 5.6 millió dollár magvető finanszírozást gyűjtött össze az INCE Capital vezetésével, és olyan prominens befektetők vettek részt benne, mint a Folius Ventures, a Hashkey Capital, a SevenX Ventures, a TSVC és az OP Crypto.

A társaság szerint a finanszírozás elősegíti a tulajdonjog előrehaladását AI modellek, az AI-natív alkalmazásokhoz szabott Alkotói Stúdió létrehozása, valamint egy élénk alkotói ökoszisztéma létrehozása a blokklánc technológia területén.

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Kumar tapasztalt műszaki újságíró, aki az AI/ML dinamikus metszéspontjaira, a marketingtechnológiára és az olyan feltörekvő területekre szakosodott, mint a kriptográfia, blokklánc és NFTs. Az iparágban szerzett több mint 3 éves tapasztalatával Kumar bevált eredményeket hozott fel lenyűgöző narratívák készítése, éleslátó interjúk készítése és átfogó betekintések nyújtása terén. A Kumar szakértelme abban rejlik, hogy nagy hatású tartalmakat készít, ideértve cikkeket, jelentéseket és kutatási publikációkat prominens iparági platformok számára. A technikai tudást és a történetmesélést ötvöző egyedülálló készségkészletével Kumar kiválóan kommunikál összetett technológiai koncepciókkal a különböző közönségekkel, világos és vonzó módon.

További cikkek
Kumar Gandharv
Kumar Gandharv

Kumar tapasztalt műszaki újságíró, aki az AI/ML dinamikus metszéspontjaira, a marketingtechnológiára és az olyan feltörekvő területekre szakosodott, mint a kriptográfia, blokklánc és NFTs. Az iparágban szerzett több mint 3 éves tapasztalatával Kumar bevált eredményeket hozott fel lenyűgöző narratívák készítése, éleslátó interjúk készítése és átfogó betekintések nyújtása terén. A Kumar szakértelme abban rejlik, hogy nagy hatású tartalmakat készít, ideértve cikkeket, jelentéseket és kutatási publikációkat prominens iparági platformok számára. A technikai tudást és a történetmesélést ötvöző egyedülálló készségkészletével Kumar kiválóan kommunikál összetett technológiai koncepciókkal a különböző közönségekkel, világos és vonzó módon.

A volatilitás közepette nő az intézményi étvágy a Bitcoin ETF-ek felé

A 13F bejelentéseken keresztül közzétett információk jelentős intézményi befektetőket tárnak fel a Bitcoin ETF-ek iránt, ami alátámasztja a ...

Tudjon meg többet

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
A Crypto Exchange OKX listázza a Notcoint, május 16-án bevezeti az azonnali kereskedést NOT-USDT párral
piacok Tudósítást Technológia
A Crypto Exchange OKX listázza a Notcoint, május 16-án bevezeti az azonnali kereskedést NOT-USDT párral  
May 10, 2024
A Blast elindítja a harmadik Blast Gold Distribution Event, 15 millió pontot oszt ki a DApps-nak
piacok Tudósítást Technológia
A Blast elindítja a harmadik Blast Gold Distribution Event, 15 millió pontot oszt ki a DApps-nak
May 10, 2024
Az Espresso Systems együttműködik a Polygon Labs-szal az AggLayer fejlesztésében a Rollup interoperabilitás javítása érdekében
üzleti Tudósítást Technológia
Az Espresso Systems együttműködik a Polygon Labs-szal az AggLayer fejlesztésében a Rollup interoperabilitás javítása érdekében
May 9, 2024
A ZKP-alapú infrastruktúra protokoll A ZKBase bemutatja az ütemtervet, a Testnet májusban történő elindítását tervezi
Tudósítást Technológia
A ZKP-alapú infrastruktúra protokoll A ZKBase bemutatja az ütemtervet, a Testnet májusban történő elindítását tervezi
May 9, 2024
CRYPTOMERIA LABS PTE. KFT.