Nieuwsverslag SMW Technologie
30 mei 2023

SoundStorm: Google onthult angstaanjagende AI-tool die real-time spraakreplicatie mogelijk maakt

In het kort

Google heeft SoundStorm geïntroduceerd, een geavanceerd model voor efficiënte en niet-autoregressieve audiogeneratie.

Het maakt gebruik van bidirectionele aandacht en op vertrouwen gebaseerde parallelle decodering om audio van hoge kwaliteit te genereren en tegelijkertijd de generatietijd aanzienlijk te verkorten.

Het heeft ook de mogelijkheid om natuurlijke dialogen te synthetiseren.

Google heeft zijn nieuwste doorbraak op het gebied van kunstmatige intelligentie geïntroduceerd GeluidStorm, een geavanceerd model voor efficiënte en niet-autoregressieve audiogeneratie. Met de mogelijkheid om dialogen synthetiseren met verschillende stemmen opent SoundStorm nieuwe mogelijkheden voor toepassingen zoals het genereren van audiocontent uit geschreven tekst en het maken van realistische podcasts.

SoundStorm: Google onthult angstaanjagende AI-tool die real-time spraakreplicatie mogelijk maakt
@Midjourney

In tegenstelling tot zijn voorganger AudioLM, gebruikt SoundStorm een ​​nieuwe architectuur die audio genereert in blokken van 30 seconden, waardoor de efficiëntie wordt verbeterd. Door gebruik te maken van bidirectionele aandacht en op vertrouwen gebaseerde parallelle decodering, produceert het model audio van hoge kwaliteit terwijl de generatietijd aanzienlijk wordt verkort. Op de TPU-v4-hardware van Google kan SoundStorm 30 seconden audio genereren in slechts 0.5 seconden, wat een aanzienlijke snelheidsverbetering betekent.

De training van SoundStorm werd uitgevoerd met behulp van een enorme dataset van 100,000 uur dialoog, waardoor een goed begrip van gesproken taalpatronen werd gegarandeerd. Het model bereikt een indrukwekkende consistentie in stem- en akoestische omstandigheden terwijl de audiokwaliteit van AudioLM behouden blijft. Deze doorbraak maakt SoundStorm twee ordes van grootte sneller dan zijn voorganger, wat zijn potentieel voor schaalbare audiogeneratie aantoont.

Een van de belangrijkste mogelijkheden van SoundStorm is het vermogen om natuurlijke dialogen te synthetiseren door gebruik te maken van de tekst-naar-semantische modelleringsfase van SPEAR-TTS. Door transcripties te voorzien van sprekerbeurten en korte gesproken aanwijzingen, kunnen gebruikers de gesproken inhoud en de stemmen van de sprekers beheersen. Tijdens het testen demonstreerde SoundStorm de mogelijkheid om dialoogsegmenten van 30 seconden in slechts 2 seconden te synthetiseren op een enkele TPU-v4, wat de efficiëntie en veelzijdigheid aantoont.

Voice Prompt

Gesynthetiseerde dialoog

In vergelijking met standaard baselines is de door SoundStorm gegenereerde audio van dezelfde kwaliteit als AudioLM en vertoont het superieure consistentie en akoestische integriteit. Met name wanneer het model wordt gevraagd om een ​​spraakvoorbeeld te geven, behoudt het model de stem van de spreker met verbazingwekkende nauwkeurigheid, waardoor het vermogen om levensechte dialogen te genereren enorm wordt vergroot.

Hoewel de mogelijkheden van SoundStorm uitstekend zijn, is het van cruciaal belang om mogelijke problemen te onderkennen en op te lossen Etnische twijfels. De trainingsgegevens voor het algoritme kunnen vooroordelen met betrekking tot accenten en stemkenmerken introduceren. Er zou misbruik kunnen worden gemaakt van het vermogen om stemmen te imiteren verpersoonlijking of om biometrische identificatie te omzeilen. Google onderstreept het belang van het instellen van bescherming om dergelijk misbruik te voorkomen en het verzekeren van de detecteerbaarheid van gecreëerde audio via speciale classifiers.

De ethische AI-principes van Google vormen de drijvende kracht achter de voortdurende inspanningen van Google om potentiële gevaren en beperkingen aan te pakken. De organisatie realiseert zich de noodzaak om een ​​grondige studie te doen van trainingsgegevens en de implicaties voor modeloutputs. Ze zijn ook van plan aanvullende benaderingen te onderzoeken, zoals audiowatermerken, voor het detecteren van gesynthetiseerde spraak om ethisch gebruik te maken van deze technologie.

  • SoundStorm is een grote stap voorwaarts op het gebied van AI-aangedreven audioproductie en biedt hoogwaardige en efficiënte neurale audiocodec-afgeleide audiorepresentaties. Google verwacht dat de lagere geheugen- en verwerkingsbehoeften van SoundStorm het onderzoek naar audiogeneratie toegankelijker zullen maken voor een bredere gemeenschap. Google blijft zich inzetten voor het behoud van verantwoorde AI-praktijken en het waarborgen van een veilig en verantwoord gebruik van SoundStorm en vergelijkbare doorbraken in het veld naarmate de technologie evolueert.
  • VAL-E, het nieuwste tekst-naar-spraak (TTS)-model van Microsoft, is een enorme stap voorwaarts in het verbeteren van de manier waarop deze systemen spraak genereren. VAL-E is een TTS-model gebaseerd op transformatoren die spraak in elke stem kunnen genereren na slechts drie seconden van die stem te hebben gehoord. Dit is een grote vooruitgang ten opzichte van eerdere modellen, die een aanzienlijk langere trainingsperiode vereisten om een ​​nieuwe stem te ontwikkelen.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten

Oprichters van Samourai Wallet beschuldigd van het faciliteren van $2 miljard aan Darknet-deals

De arrestatie van de oprichters van Samourai Wallet betekent een opmerkelijke tegenslag voor de sector en onderstreept de aanhoudende ...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Pantera Capital investeert in TON Blockchain en spreekt vertrouwen uit in het potentieel van Telegram om de toegankelijkheid van cryptovaluta te vergroten
Business Nieuwsverslag Technologie
Pantera Capital investeert in TON Blockchain en spreekt vertrouwen uit in het potentieel van Telegram om de toegankelijkheid van cryptovaluta te vergroten
2 mei 2024
Mitosis haalt $7 miljoen aan financiering op van Amber Group en Foresight Ventures om zijn modulaire liquiditeitsprotocol te bevorderen
Business Nieuwsverslag Technologie
Mitosis haalt $7 miljoen aan financiering op van Amber Group en Foresight Ventures om zijn modulaire liquiditeitsprotocol te bevorderen
2 mei 2024
Galxe werkt samen met Jambo om de wereldwijde toegankelijkheid uit te breiden Web3
Business Nieuwsverslag Technologie
Galxe werkt samen met Jambo om de wereldwijde toegankelijkheid uit te breiden Web3
2 mei 2024
Google's Med-Gemini klaar om een ​​voorsprong te geven GPT-4 Met zijn superieure prestaties in de gezondheidszorg
AI Wiki Nieuws Software Technologie
Google's Med-Gemini klaar om een ​​voorsprong te geven GPT-4 Met zijn superieure prestaties in de gezondheidszorg
2 mei 2024