Nyhetsrapport SMW Teknologi
Maj 30, 2023

SoundStorm: Google avslöjar skrämmande AI-verktyg som kan replikera röst i realtid

I korthet

Google har introducerat SoundStorm, en banbrytande modell för effektiv och icke-autoregressiv ljudgenerering.

Den använder dubbelriktad uppmärksamhet och konfidensbaserad parallell avkodning för att generera högkvalitativt ljud samtidigt som den avsevärt minskar generationstiden.

Den har också förmågan att syntetisera naturliga dialoger.

Google har introducerat sitt senaste genombrott inom artificiell intelligens-teknik med SoundStorm, en banbrytande modell för effektiv och icke-autoregressiv ljudgenerering. Med förmågan att syntetisera dialoger med olika röster öppnar SoundStorm nya möjligheter för applikationer som att generera ljudinnehåll från skriven text och skapa realistiska podcasts.

SoundStorm: Google avslöjar skrämmande AI-verktyg som kan replikera röst i realtid
@Midjourney

Till skillnad från sin föregångare AudioLM, SoundStorm använder en ny arkitektur som genererar ljud i bitar av 30 sekunder, vilket ökar effektiviteten. Genom att använda dubbelriktad uppmärksamhet och konfidensbaserad parallell avkodning producerar modellen högkvalitativt ljud samtidigt som den avsevärt minskar generationstiden. På Googles TPU-v4-hårdvara kan SoundStorm generera 30 sekunders ljud på bara 0.5 sekunder, vilket markerar en avsevärd hastighetsförbättring.

SoundStorms utbildning genomfördes med hjälp av en massiv datauppsättning på 100,000 XNUMX timmars dialog, vilket säkerställer en robust förståelse av talade språkmönster. Modellen uppnår imponerande konsistens i röst- och akustiska förhållanden samtidigt som den bibehåller ljudkvaliteten som uppnås av AudioLM. Detta genombrott gör SoundStorm två storleksordningar snabbare än sin föregångare, vilket visar dess potential för skalbar ljudgenerering.

En av de viktigaste egenskaperna hos SoundStorm är dess förmåga att syntetisera naturliga dialoger genom att utnyttja det text-till-semantiska modelleringsstadiet i SPEAR-TTS. Genom att tillhandahålla utskrifter med högtalarvändningar och korta röstmeddelanden kan användare kontrollera det talade innehållet och rösterna från högtalarna. Under testningen visade SoundStorm förmågan att syntetisera 30-sekunders dialogsegment på bara 2 sekunder på en enda TPU-v4, vilket visar upp dess effektivitet och mångsidighet.

Röstprompt

Syntetiserad dialog

Jämfört med standardbaslinjer är ljudet som genereras av SoundStorm av likvärdig kvalitet som AudioLM och uppvisar överlägsen konsistens och akustisk integritet. När man uppmanas att ge ett talexempel, bevarar modellen talarens röst med otrolig noggrannhet, vilket avsevärt ökar dess förmåga att skapa verklighetstrogen dialog.

Även om SoundStorms kapacitet är enastående, är det viktigt att känna igen och lösa möjliga etiska problem. Träningsdatan för algoritmen kan introducera fördomar relaterade till accenter och röstfunktioner. Förmågan att imitera röster skulle kunna missbrukas för imitation eller för att kringgå biometrisk identifiering. Google understryker betydelsen av att införa skydd för att förhindra sådant missbruk och säkerställa detekterbarheten skapat ljud genom dedikerade klassificerare.

Googles etiska AI-principer driver dess fortsatta ansträngningar för att hantera potentiella faror och begränsningar. Organisationen inser behovet av att göra en grundlig studie av utbildningsdata och konsekvenserna för modellutdata. De planerar också att undersöka ytterligare tillvägagångssätt, såsom ljudvattenmärkning, för att upptäcka syntetiserat tal för att göra etisk användning av denna teknik.

  • SoundStorm är ett stort steg framåt inom AI-driven ljudproduktion, och tillhandahåller högkvalitativa och effektiva ljudrepresentationer härledda av neurala ljud med codec. Google förväntar sig att SoundStorms lägre minnes- och bearbetningsbehov kommer att göra forskning om ljudgenerering mer tillgänglig för ett bredare samhälle. Google förblir dedikerat till att bevara ansvarsfull AI-praxis och säkerställa säker och ansvarsfull användning av SoundStorm och jämförbara genombrott inom området allt eftersom tekniken utvecklas.
  • VAL-E, Microsofts senaste text-till-tal-modell (TTS), är ett stort steg framåt för att förbättra hur dessa system genererar röst. VAL-E är en TTS-modell baserat på transformatorer som kan generera tal med vilken röst som helst efter att bara ha hört ett tre sekunders prov av den rösten. Detta är ett stort framsteg jämfört med tidigare modeller, som krävde en betydligt längre träningsperiod för att utveckla en ny röst.

Läs mer om AI:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer

Samourai Wallet-grundare anklagade för att underlätta $2 miljarder i Darknet-erbjudanden

Uppfattningen av Samourai Wallet-grundarna representerar ett anmärkningsvärt bakslag för branschen, vilket understryker den ihållande ...

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Pantera Capital investerar i TON Blockchain, uttrycker förtroende för Telegrams potential att bredda kryptotillgänglighet
Företag Nyhetsrapport Teknologi
Pantera Capital investerar i TON Blockchain, uttrycker förtroende för Telegrams potential att bredda kryptotillgänglighet
Maj 2, 2024
Mitosis samlar in 7 miljoner dollar i finansiering från Amber Group och foresight Ventures för att främja sitt modulära likviditetsprotokoll
Företag Nyhetsrapport Teknologi
Mitosis samlar in 7 miljoner dollar i finansiering från Amber Group och foresight Ventures för att främja sitt modulära likviditetsprotokoll
Maj 2, 2024
Galxe samarbetar med Jambo för att utöka den globala tillgängligheten till Web3
Företag Nyhetsrapport Teknologi
Galxe samarbetar med Jambo för att utöka den globala tillgängligheten till Web3
Maj 2, 2024
Googles Med-Gemini redo att ge ett försprång GPT-4 Med sin överlägsna prestanda inom sjukvården
AI Wiki Nyheter Mjukvara Teknologi
Googles Med-Gemini redo att ge ett försprång GPT-4 Med sin överlägsna prestanda inom sjukvården
Maj 2, 2024