Buletin de stiri SMW Tehnologia
30 Mai, 2023

SoundStorm: Google dezvăluie un instrument AI terifiant capabil de replicare a vocii în timp real

Pe scurt

Google a introdus SoundStorm, un model de ultimă oră pentru generarea audio eficientă și neautoregresivă.

Utilizează atenție bidirecțională și decodare paralelă bazată pe încredere pentru a genera sunet de înaltă calitate, reducând în același timp semnificativ timpul de generare.

De asemenea, are capacitatea de a sintetiza dialoguri naturale.

Google a introdus cea mai recentă descoperire în tehnologia inteligenței artificiale cu SunStorm, un model de ultimă oră pentru generarea audio eficientă și neautoregresivă. Cu capacitatea de a sintetizează dialoguri cu voci diferite, SoundStorm deschide noi posibilități pentru aplicații precum generarea de conținut audio din text scris și crearea de podcasturi realiste.

SoundStorm: Google dezvăluie un instrument AI terifiant capabil de replicare a vocii în timp real
@Midjourney

Spre deosebire de predecesorul său AudioLM, SoundStorm folosește o arhitectură nouă care generează sunet în bucăți de 30 de secunde, sporind eficiența. Utilizând atenția bidirecțională și decodificarea paralelă bazată pe încredere, modelul produce sunet de înaltă calitate, reducând în același timp semnificativ timpul de generare. Pe hardware-ul Google TPU-v4, SoundStorm poate genera 30 de secunde de sunet în doar 0.5 secunde, marcând o îmbunătățire substanțială a vitezei.

Instruirea SoundStorm a fost efectuată folosind un set masiv de date de 100,000 de ore de dialog, asigurând o înțelegere solidă a tiparelor limbajului vorbit. Modelul atinge o consistență impresionantă în condițiile vocii și acustice, menținând în același timp calitatea audio atinsă de AudioLM. Această descoperire face ca SoundStorm să fie cu două ordine de mărime mai rapid decât predecesorul său, demonstrând potențialul său de generare audio scalabilă.

Una dintre capacitățile cheie ale SoundStorm este capacitatea sa de a sintetiza dialoguri naturale prin valorificarea etapei de modelare text-semantică a SPEAR-TTS. Oferind transcrieri cu rânduri ale difuzorului și prompturi vocale scurte, utilizatorii pot controla conținutul vorbit și vocile difuzoarelor. În timpul testării, SoundStorm a demonstrat capacitatea de a sintetiza segmente de dialog de 30 de secunde în doar 2 secunde pe un singur TPU-v4, arătându-și eficiența și versatilitatea.

Voice Prompt

Dialog sintetizat

În comparație cu liniile de bază standard, sunetul generat de SoundStorm este de o calitate echivalentă cu AudioLM și demonstrează consistență și integritate acustică superioare. În special, atunci când este solicitat să ofere un eșantion de vorbire, modelul păstrează vocea vorbitorului cu o acuratețe uimitoare, sporind foarte mult capacitatea acestuia de a genera dialog real.

Deși capacitățile SoundStorm sunt remarcabile, este esențial să recunoaștem și să rezolvăm posibilitățile preocupări etice. Datele de antrenament pentru algoritm pot introduce părtiniri legate de accente și caracteristici vocale. Capacitatea de a imita voci ar putea fi abuzată impersonarea sau pentru a evita identificarea biometrică. Google subliniază importanța punerii în aplicare a unor protecții pentru a preveni astfel de abuz și asigurând detectabilitatea de audio creat prin clasificatoare dedicate.

Principiile etice ale IA ale Google conduc eforturile sale continue de a aborda pericolele și constrângerile potențiale. Organizația realizează necesitatea de a face un studiu amănunțit al datelor de instruire și a implicațiilor pentru rezultatele modelului. Ei intenționează, de asemenea, să investigheze abordări suplimentare, cum ar fi filigranul audio, pentru detectarea vorbirii sintetizate pentru a utiliza această tehnologie în mod etic.

  • SoundStorm este un mare pas înainte în producția audio bazată pe inteligență artificială, oferind reprezentări audio de înaltă calitate și eficiente, derivate din codecuri audio neuronale. Google se așteaptă ca nevoile reduse de memorie și procesare ale SoundStorm să facă cercetarea generației audio mai accesibilă unei comunități mai largi. Google rămâne dedicat păstrării practicilor responsabile de AI și asigurării utilizării sigure și responsabile a SoundStorm și descoperiri comparabile în domeniu pe măsură ce tehnologia evoluează.
  • VALE, cel mai recent model text-to-speech (TTS) al Microsoft, reprezintă un pas uriaș înainte în îmbunătățirea modului în care aceste sisteme generează voce. VALL-E este un Model TTS bazat pe transformatoare care pot genera vorbire în orice voce după ce aud doar o probă de trei secunde din acea voce. Acesta este un mare progres față de modelele anterioare, care au necesitat o perioadă de antrenament semnificativ mai lungă pentru a dezvolta o nouă voce.

Citiți mai multe despre AI:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Hot Stories
Alăturați-vă Newsletter-ului nostru.
Ultimele ştiri

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe

Fondatorii portofelului Samourai sunt acuzați că au facilitat 2 miliarde de dolari în oferte Darknet

Reținerea fondatorilor Samourai Wallet reprezintă un regres notabil pentru industrie, subliniind persistenta...

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Pantera Capital investește în TON Blockchain și își exprimă încrederea în potențialul Telegram de a extinde accesibilitatea criptografică
Afaceri Buletin de stiri Tehnologia
Pantera Capital investește în TON Blockchain și își exprimă încrederea în potențialul Telegram de a extinde accesibilitatea criptografică
2 Mai, 2024
Mitosis strânge finanțare de 7 milioane USD de la Amber Group și Foresight Ventures pentru a-și avansa protocolul modular de lichiditate
Afaceri Buletin de stiri Tehnologia
Mitosis strânge finanțare de 7 milioane USD de la Amber Group și Foresight Ventures pentru a-și avansa protocolul modular de lichiditate
2 Mai, 2024
Galxe se asociază cu Jambo pentru a extinde accesibilitatea globală la Web3
Afaceri Buletin de stiri Tehnologia
Galxe se asociază cu Jambo pentru a extinde accesibilitatea globală la Web3
2 Mai, 2024
Med-Gemini de la Google este pregătit să dea un avans GPT-4 Cu performanța sa superioară în domeniul sănătății
AI Wiki Noutăţi Software Tehnologia
Med-Gemini de la Google este pregătit să dea un avans GPT-4 Cu performanța sa superioară în domeniul sănătății
2 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.