Nieuwsverslag Technologie
30 Augustus 2023

VALL-E X: de gevaarlijkste Scammy AI-tool voor stemklonen, nu open source

In het kort

Het VALL-EX zero-shot TTS-model van Microsoft is open source vrijgegeven, waardoor gebruikers geavanceerde tekst-naar-spraak-synthese en stemklonen kunnen verkennen.

Het model ondersteunt vloeiende spraaksynthese in het Engels, Chinees en Japans, zero-shot stemklonen, spraakemotiecontrole, zero-shot cross-linguale spraaksynthese, accentcontrole en aanpassing van de akoestische omgeving.

VALL-E X werkt naadloos op zowel CPU als GPU, waarbij een GPU VRAM van 6 GB vereist is voor optimale prestaties.

Een open source-implementatie van Het VALL-E X zero-shot TTS-model van Microsoft is onthuld, waardoor gebruikers zich kunnen verdiepen in de rijken van geavanceerde tekst-naar-spraak-synthese en stemklonen. Deze ontwikkeling komt als een uitbreiding van Het eerste onderzoeksrapport van Microsoft, waarin de code of vooraf getrainde modellen ontbraken die nodig zijn voor praktische verkenning. Met deze release krijgt de technologiegemeenschap toegang tot een krachtig hulpmiddel voor TTS-mogelijkheden van de volgende generatie.

VALL-E X: de gevaarlijkste Scammy AI-tool voor stemklonen, nu open source
VALL-E X: een doorbraak in meertalige tekst-naar-spraaksynthese en stemklonen
Verwant: VALL-E van Microsoft lijkt de gevaarlijkste zwendelsoftware ooit te zijn

VALL-E X is een uitzonderlijk meertalig tekst-naar-spraakmodel geïntroduceerd door Microsoft. Hoewel het oorspronkelijke onderzoekspaper informatief was, ontbrak het aan praktische toepassing vanwege de afwezigheid van code of vooraf getrainde modellen. Om deze kloof te overbruggen, ging het toegewijde team de uitdaging aan om de resultaten te reproduceren en ons eigen VALL-EX X-model te trainen. Het resultaat van onze inspanningen is nu beschikbaar voor het publiek, waardoor een breder publiek het transformerende potentieel van de allernieuwste TTS-technologie kan ervaren.

VALL-E X wordt gekenmerkt door verschillende baanbrekende functionaliteiten:

  • Meertalige TTS: Het model ondersteunt vloeiende spraaksynthese in drie talen: Engels, Chinees en Japans. Gebruikers kunnen natuurlijke en expressieve spraaksynthese in deze talen ervaren.
  • Zero-shot stemklonen: Door een korte sample van 3 tot 10 seconden op te nemen van de stem van een onbekende spreker, heeft VALL-EX het vermogen om gepersonaliseerde spraak van hoge kwaliteit te genereren die de unieke vocale kenmerken van de spreker weerspiegelt.
  • Spraak-emotiebeheersing: VALL-E X kan gesynthetiseerde spraak voorzien van specifieke emoties, waardoor een laag expressiviteit aan de audio-uitvoer wordt toegevoegd die aansluit bij de aangeboden akoestische prompt.
  • Zero-shot cross-linguale spraaksynthese: Het model kan gepersonaliseerde spraak in een andere taal produceren met behoud van vloeiendheid en accent, waardoor de taalkundige horizon van eentalige sprekers wordt vergroot.
  • Accentcontrole: VALL-E X biedt accentexperimenten, waardoor gebruikers inhoud met verschillende accenten kunnen creëren, zoals Chinees spreken met een Engels accent en omgekeerd.
  • Aanpassing aan de akoestische omgeving: Het model is geschikt voor verschillende audioprompts en past zich aan de akoestische omgeving van de invoer aan om een ​​natuurlijke en meeslepende spraakgeneratie-ervaring te bieden.

Bovendien breidt VALL-EX X zijn ondersteuning uit naar Chinese en Japanse talen, en biedt uitzonderlijke prestaties in alle drie de talen.

Dit maakt VALL-E X tot een veelzijdige en efficiënte taalondersteuningstool voor gebruikers in diverse taalomgevingen.
Verwant: VALL-E: het nieuwe zero-shot tekst-naar-spraakmodel van Microsoft kan de stem van iedereen in drie seconden dupliceren

De mogelijkheden voor het klonen van stemmen van VALL-EX vergemakkelijken het creëren van gesproken aanwijzingen met behulp van de stem van een persoon, personage of iemands eigen stem. Een spraakvoorbeeld van 3 tot 10 seconden, samen met het transcript, is alles wat nodig is om een ​​duidelijke stemprompt te maken. Een gebruiksvriendelijke grafische interface vereenvoudigt de interacties met VALL-EX verder, waardoor stemklonen en meertalige spraaksynthese een toegankelijke onderneming worden.

Met name werkt VALL-E X naadloos op zowel CPU als GPU (pytorch 2.0+, CUDA 11.7 en CUDA 12.0). Het efficiënte ontwerp van het model zorgt ervoor dat een GPU VRAM van 6 GB voldoende is voor gebruik zonder overbelasting.

In vergelijking met de Schors-model, VALL-E X biedt verschillende voordelen:

  • Lichter van gewicht en neemt slechts 3/4 van de ruimte in beslag.
  • Verbeterde efficiëntie met een snelheidsboost van 4x.
  • Superieure kwaliteit in Chinese en Japanse talen.
  • Cross-linguale spraaksynthese zonder buitenlandse accenten.
  • Eenvoudige mogelijkheden voor het klonen van stemmen.

Wat de VRAM-vereisten betreft, voldoet een GPU-VRAM van 6 GB aan de criteria voor het effectief uitvoeren van VALL-EX. Voor het genereren van langere tekst moet de totale lengte van de audioprompt en de gegenereerde audio echter minder dan 22 seconden blijven om optimale prestaties te garanderen.

De open-sourcelicenties van VALL-EX, beheerst door de MIT-licentie, luiden een nieuw tijdperk van toegankelijkheid en verkenning in op het gebied van meertalige tekst-naar-spraaksynthese en stemklonen.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Hot Stories
Schrijf je in op onze nieuwsbrief.
Laatste Nieuws

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Marlin-onderzoeker onthult TEE- en ZK-integratie voor ongeëvenaarde Blockchain-prestaties
Interview Zakelijk Markten Software Technologie
Marlin-onderzoeker onthult TEE- en ZK-integratie voor ongeëvenaarde Blockchain-prestaties
17 juli 2024
Sanctum lanceert CLOUD opnieuw Airdrop Toewijzingscontrole, voegt 1,000 nieuwe in aanmerking komende gebruikers toe
Lifestyle Nieuwsverslag Technologie
Sanctum lanceert CLOUD opnieuw Airdrop Toewijzingscontrole, voegt 1,000 nieuwe in aanmerking komende gebruikers toe
17 juli 2024
Sarah Grace van zkLink onderzoekt synergie tussen ZK Proofs en DePIN Networks
Interview Zakelijk Lifestyle Markten Software Technologie
Sarah Grace van zkLink onderzoekt synergie tussen ZK Proofs en DePIN Networks
17 juli 2024
Saga opent Vault Three om SAGA-tokenhouders en stakers te stimuleren
Nieuwsverslag Technologie
Saga opent Vault Three om SAGA-tokenhouders en stakers te stimuleren
17 juli 2024