Nieuwsverslag SMW Technologie
30 mei 2023

SoundStorm: Google onthult angstaanjagende AI-tool die real-time spraakreplicatie mogelijk maakt

In het kort

Google heeft SoundStorm geïntroduceerd, een geavanceerd model voor efficiënte en niet-autoregressieve audiogeneratie.

Het maakt gebruik van bidirectionele aandacht en op vertrouwen gebaseerde parallelle decodering om audio van hoge kwaliteit te genereren en tegelijkertijd de generatietijd aanzienlijk te verkorten.

Het heeft ook de mogelijkheid om natuurlijke dialogen te synthetiseren.

Google heeft zijn nieuwste doorbraak op het gebied van kunstmatige intelligentie geïntroduceerd GeluidStorm, een geavanceerd model voor efficiënte en niet-autoregressieve audiogeneratie. Met de mogelijkheid om dialogen synthetiseren met verschillende stemmen opent SoundStorm nieuwe mogelijkheden voor toepassingen zoals het genereren van audiocontent uit geschreven tekst en het maken van realistische podcasts.

SoundStorm: Google onthult angstaanjagende AI-tool die real-time spraakreplicatie mogelijk maakt
@Midjourney

In tegenstelling tot zijn voorganger AudioLM, gebruikt SoundStorm een ​​nieuwe architectuur die audio genereert in blokken van 30 seconden, waardoor de efficiëntie wordt verbeterd. Door gebruik te maken van bidirectionele aandacht en op vertrouwen gebaseerde parallelle decodering, produceert het model audio van hoge kwaliteit terwijl de generatietijd aanzienlijk wordt verkort. Op de TPU-v4-hardware van Google kan SoundStorm 30 seconden audio genereren in slechts 0.5 seconden, wat een aanzienlijke snelheidsverbetering betekent.

De training van SoundStorm werd uitgevoerd met behulp van een enorme dataset van 100,000 uur dialoog, waardoor een goed begrip van gesproken taalpatronen werd gegarandeerd. Het model bereikt een indrukwekkende consistentie in stem- en akoestische omstandigheden terwijl de audiokwaliteit van AudioLM behouden blijft. Deze doorbraak maakt SoundStorm twee ordes van grootte sneller dan zijn voorganger, wat zijn potentieel voor schaalbare audiogeneratie aantoont.

Een van de belangrijkste mogelijkheden van SoundStorm is het vermogen om natuurlijke dialogen te synthetiseren door gebruik te maken van de tekst-naar-semantische modelleringsfase van SPEAR-TTS. Door transcripties te voorzien van sprekerbeurten en korte gesproken aanwijzingen, kunnen gebruikers de gesproken inhoud en de stemmen van de sprekers beheersen. Tijdens het testen demonstreerde SoundStorm de mogelijkheid om dialoogsegmenten van 30 seconden in slechts 2 seconden te synthetiseren op een enkele TPU-v4, wat de efficiëntie en veelzijdigheid aantoont.

Voice Prompt

Gesynthetiseerde dialoog

In vergelijking met standaard baselines is de door SoundStorm gegenereerde audio van dezelfde kwaliteit als AudioLM en vertoont het superieure consistentie en akoestische integriteit. Met name wanneer het model wordt gevraagd om een ​​spraakvoorbeeld te geven, behoudt het model de stem van de spreker met verbazingwekkende nauwkeurigheid, waardoor het vermogen om levensechte dialogen te genereren enorm wordt vergroot.

Hoewel de mogelijkheden van SoundStorm uitstekend zijn, is het van cruciaal belang om mogelijke problemen te onderkennen en op te lossen Etnische twijfels. De trainingsgegevens voor het algoritme kunnen vooroordelen met betrekking tot accenten en stemkenmerken introduceren. Er zou misbruik kunnen worden gemaakt van het vermogen om stemmen te imiteren verpersoonlijking of om biometrische identificatie te omzeilen. Google onderstreept het belang van het instellen van bescherming om dergelijk misbruik te voorkomen en het verzekeren van de detecteerbaarheid van gecreëerde audio via speciale classifiers.

De ethische AI-principes van Google vormen de drijvende kracht achter de voortdurende inspanningen van Google om potentiële gevaren en beperkingen aan te pakken. De organisatie realiseert zich de noodzaak om een ​​grondige studie te doen van trainingsgegevens en de implicaties voor modeloutputs. Ze zijn ook van plan aanvullende benaderingen te onderzoeken, zoals audiowatermerken, voor het detecteren van gesynthetiseerde spraak om ethisch gebruik te maken van deze technologie.

  • SoundStorm is een grote stap voorwaarts op het gebied van AI-aangedreven audioproductie en biedt hoogwaardige en efficiënte neurale audiocodec-afgeleide audiorepresentaties. Google verwacht dat de lagere geheugen- en verwerkingsbehoeften van SoundStorm het onderzoek naar audiogeneratie toegankelijker zullen maken voor een bredere gemeenschap. Google blijft zich inzetten voor het behoud van verantwoorde AI-praktijken en het waarborgen van een veilig en verantwoord gebruik van SoundStorm en vergelijkbare doorbraken in het veld naarmate de technologie evolueert.
  • VAL-E, het nieuwste tekst-naar-spraak (TTS)-model van Microsoft, is een enorme stap voorwaarts in het verbeteren van de manier waarop deze systemen spraak genereren. VAL-E is een TTS-model gebaseerd op transformatoren die spraak in elke stem kunnen genereren na slechts drie seconden van die stem te hebben gehoord. Dit is een grote vooruitgang ten opzichte van eerdere modellen, die een aanzienlijk langere trainingsperiode vereisten om een ​​nieuwe stem te ontwikkelen.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Hot Stories
Schrijf je in op onze nieuwsbrief.
Laatste Nieuws

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
De Wallet Browser-extensie van Uniswap Labs is nu beschikbaar en ondersteunt Ethereum samen met 10 andere blockchains
Nieuwsverslag Technologie
De Wallet Browser-extensie van Uniswap Labs is nu beschikbaar en ondersteunt Ethereum samen met 10 andere blockchains
16 juli 2024
Chromia implementeert MVP Mainnet en introduceert CHR-token
Nieuwsverslag Technologie
Chromia implementeert MVP Mainnet en introduceert CHR-token
16 juli 2024
Van ride-sharing tot gaming: onderzoek naar de visie van Neutron op slimme contracten buiten het domein van DeFi
Interview Zakelijk Markten Software Technologie
Van ride-sharing tot gaming: onderzoek naar de visie van Neutron op slimme contracten buiten het domein van DeFi
16 juli 2024
Baanbrekend: Top 7 DeFi Trends die begin 2024 de grenzen van de Blockchain-mogelijkheden verleggen
Advies Zakelijk Markten Software Technologie
Baanbrekend: Top 7 DeFi Trends die begin 2024 de grenzen van de Blockchain-mogelijkheden verleggen
16 juli 2024