Tudósítást Smw Technológia
May 30, 2023

SoundStorm: A Google bemutatja a félelmetes mesterséges intelligencia eszközt, amely képes valós idejű hangreplikációra

Röviden

A Google bemutatta a SoundStormot, a hatékony és nem autoregresszív hanggenerálás élvonalbeli modelljét.

Kétirányú figyelmet és bizalom alapú párhuzamos dekódolást alkalmaz, hogy kiváló minőségű hangot állítson elő, miközben jelentősen csökkenti a generálási időt.

Természetes párbeszédek szintetizálására is képes.

A Google bemutatta legújabb áttörését a mesterséges intelligencia technológia terén SoundStorm, egy élvonalbeli modell a hatékony és nem autoregresszív hanggeneráláshoz. Azzal a képességgel, hogy párbeszédeket szintetizálni különböző hangokkal a SoundStorm új lehetőségeket nyit meg olyan alkalmazások számára, mint például hangtartalom generálása írott szövegből és valósághű podcastok létrehozása.

SoundStorm: A Google bemutatja a félelmetes mesterséges intelligencia eszközt, amely képes valós idejű hangreplikációra
@Midjourney

Ellentétben az elődjével AudioLM, a SoundStorm egy újszerű architektúrát alkalmaz, amely 30 másodperces részletekben generálja a hangot, növelve a hatékonyságot. A kétirányú figyelem és a bizalom alapú párhuzamos dekódolás használatával a modell kiváló minőségű hangot állít elő, miközben jelentősen csökkenti a generálási időt. A Google TPU-v4 hardverén a SoundStorm mindössze 30 másodperc alatt képes 0.5 másodpercnyi hangot generálni, ami jelentős sebességnövekedést jelez.

A SoundStorm képzését 100,000 XNUMX órányi párbeszédből álló hatalmas adathalmaz segítségével végezték, biztosítva a beszélt nyelvi minták alapos megértését. A modell lenyűgöző összhangot ér el a hang- és akusztikai körülmények között, miközben megőrzi az AudioLM által elért hangminőséget. Ez az áttörés két nagyságrenddel gyorsabbá teszi a SoundStormot, mint elődje, bizonyítva a méretezhető hanggenerálás lehetőségeit.

A SoundStorm egyik kulcsfontosságú képessége a természetes párbeszédek szintetizálására való képessége a SPEAR-TTS szöveg-szemantikus modellezési szakaszának kihasználásával. A hangszórók fordulataival és rövid hangutasításokkal ellátott átiratokkal a felhasználók szabályozhatják az elhangzott tartalmat és a hangszórók hangját. A tesztelés során a SoundStorm bebizonyította, hogy képes 30 másodperces párbeszéd szegmenseket szintetizálni mindössze 2 másodperc alatt egyetlen TPU-v4-en, bemutatva a hatékonyságát és sokoldalúságát.

Hangos figyelmeztetés

Szintetizált párbeszéd

A szabványos alapvonalakhoz képest a SoundStorm által generált hang az AudioLM-mel egyenértékű minőségű, és kiváló konzisztenciát és akusztikus integritást mutat. Nevezetesen, ha beszédminta adására kérik, a modell elképesztő pontossággal megőrzi a beszélő hangját, ami jelentősen megnöveli a képességét, hogy élethű párbeszédet generáljon.

Bár a SoundStorm képességei kiemelkedőek, nagyon fontos felismerni és megoldani a lehetséges lehetőségeket etikai szempontok. Az algoritmus betanítási adatai torzításokat okozhatnak az ékezetekkel és a hangjellemzőkkel kapcsolatban. A hangutánzás képességével vissza lehet élni megszemélyesítés vagy a biometrikus azonosítás megkerülésére. A Google hangsúlyozza az ilyen visszaélések és visszaélések megelőzésére szolgáló védelem bevezetésének fontosságát a kimutathatóság biztosítása dedikált osztályozókon keresztül.

A Google etikai mesterségesintelligencia-elvei vezérlik a folyamatos erőfeszítéseket a lehetséges veszélyek és korlátok kezelésére. A szervezet felismeri, hogy alaposan tanulmányoznia kell a képzési adatokat és a modellkimenetekre gyakorolt ​​​​hatásokat. Azt is tervezik, hogy további megközelítéseket, például hangvízjelet vizsgálnak meg a szintetizált beszéd észlelésére, hogy etikusan használják fel ezt a technológiát.

  • A SoundStorm nagy előrelépést jelent a mesterséges intelligencia által vezérelt hanggyártásban, amely kiváló minőségű és hatékony neurális audiokodek-eredetű hangmegjelenítéseket biztosít. A Google arra számít, hogy a SoundStorm alacsonyabb memória- és feldolgozási igénye szélesebb közösség számára teszi elérhetőbbé a hanggenerálási kutatást. A Google továbbra is elkötelezett a felelős AI-gyakorlatok megőrzése és a SoundStorm biztonságos és felelősségteljes használatának biztosítása mellett, valamint a technológia fejlődésével a hasonló áttörések terén.
  • VÖLGY, a Microsoft legújabb text-to-speech (TTS) modellje, óriási előrelépést jelent ezen rendszerek hanggenerálásának javításában. A VALL-E egy TTS modell olyan transzformátorokon alapul, amelyek bármilyen hangon képesek beszédet generálni, miután csak egy három másodperces hangmintát hallanak. Ez nagy előrelépés a korábbi modellekhez képest, amelyek lényegesen hosszabb képzési időszakot igényeltek egy új hang kifejlesztéséhez.

Tudjon meg többet az AI-ról:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

Hot Stories
Csatlakozzon hírlevelünkhöz.
Legfrissebb hírek

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet

A Samourai Wallet alapítóit azzal vádolják, hogy 2 milliárd dollárt segítettek a Darknet ügyletekben

A Samourai Wallet alapítóinak aggodalma jelentős visszalépést jelent az iparág számára, aláhúzva a kitartó ...

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
A Pantera Capital befektet a TON blokkláncba, bizalmát fejezi ki a Telegram kripto-hozzáférhetőségének kiszélesítése iránt
üzleti Tudósítást Technológia
A Pantera Capital befektet a TON blokkláncba, bizalmát fejezi ki a Telegram kripto-hozzáférhetőségének kiszélesítése iránt
May 2, 2024
A Mitosis 7 millió dollár finanszírozást gyűjt az Amber Group és a Foresight Ventures moduláris likviditási protokollja fejlesztése érdekében
üzleti Tudósítást Technológia
A Mitosis 7 millió dollár finanszírozást gyűjt az Amber Group és a Foresight Ventures moduláris likviditási protokollja fejlesztése érdekében
May 2, 2024
A Galxe együttműködik a Jambóval a globális hozzáférhetőség kiterjesztése érdekében Web3
üzleti Tudósítást Technológia
A Galxe együttműködik a Jambóval a globális hozzáférhetőség kiterjesztése érdekében Web3
May 2, 2024
A Google Med-Gemini készen áll az előnyre GPT-4 Az egészségügyben nyújtott kiemelkedő teljesítményével
AI Wiki Hírek szoftver Technológia
A Google Med-Gemini készen áll az előnyre GPT-4 Az egészségügyben nyújtott kiemelkedő teljesítményével
May 2, 2024
CRYPTOMERIA LABS PTE. KFT.