Nyheds rapport SMW Teknologier
Maj 30, 2023

SoundStorm: Google afslører skræmmende AI-værktøj, der er i stand til stemmereplikering i realtid

Kort sagt

Google har introduceret SoundStorm, en banebrydende model til effektiv og ikke-autoregressiv lydgenerering.

Den anvender tovejs opmærksomhed og tillidsbaseret parallel afkodning for at generere højkvalitetslyd og samtidig reducere generationstiden markant.

Det har også evnen til at syntetisere naturlige dialoger.

Google har introduceret sit seneste gennembrud inden for kunstig intelligens-teknologi med SoundStorm, en banebrydende model til effektiv og ikke-autoregressiv lydgenerering. Med evnen til syntetisere dialoger med forskellige stemmer åbner SoundStorm nye muligheder for applikationer som at generere lydindhold fra skrevet tekst og skabe realistiske podcasts.

SoundStorm: Google afslører skræmmende AI-værktøj, der er i stand til stemmereplikering i realtid
@Midjourney

I modsætning til sin forgænger AudioLM, SoundStorm anvender en ny arkitektur, der genererer lyd i bidder af 30 sekunder, hvilket øger effektiviteten. Ved at bruge tovejs opmærksomhed og tillidsbaseret parallel afkodning producerer modellen højkvalitetslyd, samtidig med at generationstiden reduceres markant. På Googles TPU-v4-hardware kan SoundStorm generere 30 sekunders lyd på kun 0.5 sekunder, hvilket markerer en væsentlig hastighedsforbedring.

SoundStorms træning blev udført ved hjælp af et massivt datasæt på 100,000 timers dialog, hvilket sikrede en robust forståelse af talte sprogmønstre. Modellen opnår en imponerende konsistens i stemme- og akustiske forhold, samtidig med at den bibeholder lydkvaliteten opnået af AudioLM. Dette gennembrud gør SoundStorm to størrelsesordener hurtigere end sin forgænger, hvilket viser dets potentiale for skalerbar lydgenerering.

En af de vigtigste egenskaber ved SoundStorm er dens evne til at syntetisere naturlige dialoger ved at udnytte det tekst-til-semantiske modelleringsstadium i SPEAR-TTS. Ved at levere transskriptioner med højttalerdrejninger og korte stemmemeddelelser kan brugerne kontrollere det talte indhold og højttalernes stemmer. Under testen demonstrerede SoundStorm evnen til at syntetisere 30-sekunders dialogsegmenter på kun 2 sekunder på en enkelt TPU-v4, hvilket viser dens effektivitet og alsidighed.

Stemmesprompt

Syntetiseret dialog

Sammenlignet med standardbaselines er lyden, der genereres af SoundStorm, af tilsvarende kvalitet som AudioLM og demonstrerer overlegen konsistens og akustisk integritet. Når du bliver bedt om at give en taleprøve, bevarer modellen især højttalerens stemme med forbløffende nøjagtighed, hvilket i høj grad øger dens kapacitet til at skabe livagtig dialog.

Selvom SoundStorms egenskaber er fremragende, er det afgørende at genkende og løse mulige etiske betænkeligheder. Træningsdataene for algoritmen kan introducere skævheder i forbindelse med accenter og stemmefunktioner. Evnen til at efterligne stemmer kunne blive misbrugt til personifikation eller for at omgå biometrisk identifikation. Google understreger betydningen af ​​at indføre beskyttelse for at forhindre sådant misbrug og at sikre sporbarheden af skabt lyd gennem dedikerede klassifikatorer.

Googles etiske AI-principper driver dets fortsatte bestræbelser på at håndtere potentielle farer og begrænsninger. Organisationen indser behovet for at lave en grundig undersøgelse af træningsdata og implikationerne for modeloutput. De planlægger også at undersøge yderligere tilgange, såsom lydvandmærkning, til at detektere syntetiseret tale for at gøre etisk brug af denne teknologi.

  • SoundStorm er et stort skridt fremad inden for AI-drevet lydproduktion, der leverer højkvalitets og effektive neurale audio-codec-afledte lydrepræsentationer. Google forventer, at SoundStorms lavere hukommelse og behandlingsbehov vil gøre forskning i lydgenerering mere tilgængelig for et bredere samfund. Google er fortsat dedikeret til at bevare ansvarlig AI-praksis og sikre sikker og ansvarlig brug af SoundStorm og sammenlignelige gennembrud på området, efterhånden som teknologien udvikler sig.
  • VAL-E, Microsofts seneste tekst-til-tale (TTS) model, er et stort skridt fremad i at forbedre, hvordan disse systemer genererer stemme. VAL-E er en TTS model baseret på transformere, der kan generere tale med enhver stemme efter kun at have hørt en tre-sekunders prøve af den stemme. Dette er et stort fremskridt i forhold til tidligere modeller, som krævede en væsentlig længere træningsperiode for at udvikle en ny stemme.

Læs mere om AI:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere

Samourai Wallet Founders anklaget for at facilitere $2B i Darknet-tilbud

Frygten fra Samourai Wallet-grundlæggerne repræsenterer et bemærkelsesværdigt tilbageslag for industrien, hvilket understreger den vedvarende ...

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
Pantera Capital investerer i TON Blockchain, udtrykker tillid til Telegrams potentiale for at udvide kryptotilgængelighed
Forretning Nyheds rapport Teknologier
Pantera Capital investerer i TON Blockchain, udtrykker tillid til Telegrams potentiale for at udvide kryptotilgængelighed
Maj 2, 2024
Mitosis hæver $7M i finansiering fra Amber Group og fremsynsprojekter for at fremme sin modulære likviditetsprotokol
Forretning Nyheds rapport Teknologier
Mitosis hæver $7M i finansiering fra Amber Group og fremsynsprojekter for at fremme sin modulære likviditetsprotokol
Maj 2, 2024
Galxe samarbejder med Jambo for at udvide den globale tilgængelighed til Web3
Forretning Nyheds rapport Teknologier
Galxe samarbejder med Jambo for at udvide den globale tilgængelighed til Web3
Maj 2, 2024
Googles Med-Gemini klar til at give et forspring GPT-4 Med sin overlegne ydeevne inden for sundhedspleje
AI Wiki Nyheder Software Teknologier
Googles Med-Gemini klar til at give et forspring GPT-4 Med sin overlegne ydeevne inden for sundhedspleje
Maj 2, 2024