Uutisraportti SMW Elektroniikka
Voi 30, 2023

SoundStorm: Google paljastaa pelottavan tekoälytyökalun, joka pystyy toistamaan reaaliaikaisen äänen

Lyhyesti

Google on esitellyt SoundStormin, huippuluokan mallin tehokkaaseen ja ei-autoregressiiviseen äänentuotantoon.

Se käyttää kaksisuuntaista huomiota ja luottamuspohjaista rinnakkaisdekoodausta tuottaakseen korkealaatuista ääntä ja lyhentää samalla merkittävästi generointiaikaa.

Sillä on myös kyky syntetisoida luonnollisia dialogeja.

Google on esitellyt uusimman läpimurtonsa tekoälyteknologiassa SoundStorm, huippuluokan malli tehokkaaseen ja ei-autoregressiiviseen äänentuotantoon. Kykyllä syntetisoida dialogeja eri äänillä SoundStorm avaa uusia mahdollisuuksia sovelluksille, kuten äänisisällön tuottamiseen kirjoitetusta tekstistä ja realististen podcastien luomisesta.

SoundStorm: Google paljastaa pelottavan tekoälytyökalun, joka pystyy toistamaan reaaliaikaisen äänen
@Midjourney

Toisin kuin edeltäjänsä AudioLM, SoundStorm käyttää uutta arkkitehtuuria, joka tuottaa äänen 30 sekunnin paloina, mikä lisää tehokkuutta. Hyödyntämällä kaksisuuntaista huomiota ja luottamukseen perustuvaa rinnakkaisdekoodausta malli tuottaa korkealaatuista ääntä samalla, kun se vähentää merkittävästi sukupolven aikaa. Googlen TPU-v4-laitteistolla SoundStorm voi tuottaa 30 sekuntia ääntä vain 0.5 sekunnissa, mikä merkitsee huomattavaa nopeuden parannusta.

SoundStormin koulutus toteutettiin käyttämällä massiivista 100,000 XNUMX tunnin dialogia sisältävää tietojoukkoa, mikä varmisti puhutun kielen mallien vankan ymmärtämisen. Malli saavuttaa vaikuttavan johdonmukaisuuden ääni- ja akustisissa olosuhteissa säilyttäen samalla AudioLM:n saavuttaman äänenlaadun. Tämä läpimurto tekee SoundStormista kaksi suuruusluokkaa edeltäjäänsä nopeamman, mikä osoittaa sen potentiaalin skaalautuvaan äänentuotantoon.

Yksi SoundStormin avainominaisuuksista on sen kyky syntetisoida luonnollisia dialogeja hyödyntämällä SPEAR-TTS:n tekstistä semanttiseksi mallinnusvaihetta. Tarjoamalla transkriptioita kaiuttimien käännöksillä ja lyhyillä äänikehotteilla käyttäjät voivat hallita puhuttua sisältöä ja kaiuttimien ääntä. Testauksen aikana SoundStorm osoitti kykynsä syntetisoida 30 sekunnin dialogisegmenttejä vain kahdessa sekunnissa yhdellä TPU-v2:llä, mikä osoittaa sen tehokkuuden ja monipuolisuuden.

Äänipyyntö

Syntetisoitu dialogi

Verrattuna standardiperustasoihin SoundStormin tuottama ääni vastaa AudioLM:n laatua ja osoittaa erinomaisen yhtenäisyyden ja akustisen eheyden. Erityisesti, kun mallia kehotetaan antamaan puhenäyte, se säilyttää puhujan äänen hämmästyttävällä tarkkuudella, mikä parantaa huomattavasti sen kykyä luoda todenmukaista dialogia.

Vaikka SoundStormin ominaisuudet ovat erinomaisia, on tärkeää tunnistaa ja ratkaista mahdolliset eettiset näkökohdat. Algoritmin opetusdata voi aiheuttaa painotuksiin ja ääniominaisuuksiin liittyviä poikkeamia. Kykyä matkia ääniä voidaan käyttää väärin imitointi tai kiertää biometristä tunnistamista. Google korostaa, että on tärkeää ottaa käyttöön suojauksia tällaisen väärinkäytön estämiseksi ja havaittavuuden varmistaminen luodusta äänestä erityisten luokittimien kautta.

Googlen eettiset tekoälyperiaatteet ohjaavat sen jatkuvaa pyrkimystä puuttua mahdollisiin vaaroihin ja rajoituksiin. Organisaatio ymmärtää tarpeen tehdä perusteellinen tutkimus koulutustiedoista ja vaikutuksista mallin tuotoksiin. He aikovat myös tutkia muita lähestymistapoja, kuten äänivesileimaa, syntetisoidun puheen havaitsemiseksi hyödyntääkseen tätä tekniikkaa eettisesti.

  • SoundStorm on iso askel eteenpäin tekoälyllä toimivassa äänentuotannossa, joka tarjoaa korkealaatuisia ja tehokkaita hermoäänen koodekista johdettuja audioesityksiä. Google odottaa, että SoundStormin pienemmät muisti- ja prosessointitarpeet tekevät äänen sukupolventutkimuksesta laajemman yhteisön ulottuville. Google on edelleen omistautunut ylläpitämään vastuullisia tekoälykäytäntöjä ja varmistamaan SoundStormin turvallisen ja vastuullisen käytön sekä vastaavat läpimurrot alalla tekniikan kehittyessä.
  • LAKSO, Microsoftin uusin tekstistä puheeksi (TTS) -malli, on valtava edistysaskel näiden järjestelmien äänen tuottamisessa. VALL-E on a TTS malli perustuu muuntajiin, jotka voivat tuottaa puhetta millä tahansa äänellä kuultuaan vain kolmen sekunnin näytteen kyseisestä äänestä. Tämä on suuri edistysaskel aikaisempiin malleihin verrattuna, mikä vaati huomattavasti pidemmän harjoittelujakson uuden äänen kehittämiseen.

Lue lisää tekoälystä:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

lisää artikkeleita
Damir Yalalov
Damir Yalalov

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

Tuomiopäivä saapuu: CZ:n kohtalo on tasapainossa, kun Yhdysvaltain tuomioistuin harkitsee DOJ:n vetoomusta

Changpeng Zhao odottaa tänään tuomiota Yhdysvaltain oikeudessa Seattlessa.

Tiedä enemmän

Samourai Walletin perustajia syytetään 2 miljardin dollarin helpottamisesta Darknet-kaupoissa

Samourai Walletin perustajien pelko on huomattava takaisku teollisuudelle, mikä korostaa jatkuvaa ...

Tiedä enemmän
Liity innovatiiviseen teknologiayhteisöömme
Lue lisää
Lue lisää
Pantera Capital sijoittaa TON Blockchainiin, ilmaisee luottamusta Telegramin mahdollisuuksiin laajentaa krypton saatavuutta
Bisnes Uutisraportti Elektroniikka
Pantera Capital sijoittaa TON Blockchainiin, ilmaisee luottamusta Telegramin mahdollisuuksiin laajentaa krypton saatavuutta
Voi 2, 2024
Mitosis kerää 7 miljoonan dollarin rahoitusta Amber Groupilta ja Foresight Ventures -yhtiöiltä modulaarisen likviditeettiprotokollansa edistämiseksi
Bisnes Uutisraportti Elektroniikka
Mitosis kerää 7 miljoonan dollarin rahoitusta Amber Groupilta ja Foresight Ventures -yhtiöiltä modulaarisen likviditeettiprotokollansa edistämiseksi
Voi 2, 2024
Galxe tekee yhteistyötä Jambon kanssa laajentaakseen maailmanlaajuista saavutettavuutta Web3
Bisnes Uutisraportti Elektroniikka
Galxe tekee yhteistyötä Jambon kanssa laajentaakseen maailmanlaajuista saavutettavuutta Web3
Voi 2, 2024
Googlen Med-Gemini on valmis antamaan etumatkan GPT-4 Sen ylivoimainen suorituskyky terveydenhuollossa
AI Wiki Uutta Tuotteemme Elektroniikka
Googlen Med-Gemini on valmis antamaan etumatkan GPT-4 Sen ylivoimainen suorituskyky terveydenhuollossa
Voi 2, 2024
CRYPTOMERIA LABS PTE. OY.