SoundStorm: A Google bemutatja a félelmetes mesterséges intelligencia eszközt, amely képes valós idejű hangreplikációra
Röviden
A Google bemutatta a SoundStormot, a hatékony és nem autoregresszív hanggenerálás élvonalbeli modelljét.
Kétirányú figyelmet és bizalom alapú párhuzamos dekódolást alkalmaz, hogy kiváló minőségű hangot állítson elő, miközben jelentősen csökkenti a generálási időt.
Természetes párbeszédek szintetizálására is képes.
A Google bemutatta legújabb áttörését a mesterséges intelligencia technológia terén SoundStorm, egy élvonalbeli modell a hatékony és nem autoregresszív hanggeneráláshoz. Azzal a képességgel, hogy párbeszédeket szintetizálni különböző hangokkal a SoundStorm új lehetőségeket nyit meg olyan alkalmazások számára, mint például hangtartalom generálása írott szövegből és valósághű podcastok létrehozása.
Ellentétben az elődjével AudioLM, a SoundStorm egy újszerű architektúrát alkalmaz, amely 30 másodperces részletekben generálja a hangot, növelve a hatékonyságot. A kétirányú figyelem és a bizalom alapú párhuzamos dekódolás használatával a modell kiváló minőségű hangot állít elő, miközben jelentősen csökkenti a generálási időt. A Google TPU-v4 hardverén a SoundStorm mindössze 30 másodperc alatt képes 0.5 másodpercnyi hangot generálni, ami jelentős sebességnövekedést jelez.
A SoundStorm képzését 100,000 XNUMX órányi párbeszédből álló hatalmas adathalmaz segítségével végezték, biztosítva a beszélt nyelvi minták alapos megértését. A modell lenyűgöző összhangot ér el a hang- és akusztikai körülmények között, miközben megőrzi az AudioLM által elért hangminőséget. Ez az áttörés két nagyságrenddel gyorsabbá teszi a SoundStormot, mint elődje, bizonyítva a méretezhető hanggenerálás lehetőségeit.
A SoundStorm egyik kulcsfontosságú képessége a természetes párbeszédek szintetizálására való képessége a SPEAR-TTS szöveg-szemantikus modellezési szakaszának kihasználásával. A hangszórók fordulataival és rövid hangutasításokkal ellátott átiratokkal a felhasználók szabályozhatják az elhangzott tartalmat és a hangszórók hangját. A tesztelés során a SoundStorm bebizonyította, hogy képes 30 másodperces párbeszéd szegmenseket szintetizálni mindössze 2 másodperc alatt egyetlen TPU-v4-en, bemutatva a hatékonyságát és sokoldalúságát.
Hangos figyelmeztetés
Szintetizált párbeszéd
A szabványos alapvonalakhoz képest a SoundStorm által generált hang az AudioLM-mel egyenértékű minőségű, és kiváló konzisztenciát és akusztikus integritást mutat. Nevezetesen, ha beszédminta adására kérik, a modell elképesztő pontossággal megőrzi a beszélő hangját, ami jelentősen megnöveli a képességét, hogy élethű párbeszédet generáljon.
Bár a SoundStorm képességei kiemelkedőek, nagyon fontos felismerni és megoldani a lehetséges lehetőségeket etikai szempontok. Az algoritmus betanítási adatai torzításokat okozhatnak az ékezetekkel és a hangjellemzőkkel kapcsolatban. A hangutánzás képességével vissza lehet élni megszemélyesítés vagy a biometrikus azonosítás megkerülésére. A Google hangsúlyozza az ilyen visszaélések és visszaélések megelőzésére szolgáló védelem bevezetésének fontosságát a kimutathatóság biztosítása dedikált osztályozókon keresztül.
A Google etikai mesterségesintelligencia-elvei vezérlik a folyamatos erőfeszítéseket a lehetséges veszélyek és korlátok kezelésére. A szervezet felismeri, hogy alaposan tanulmányoznia kell a képzési adatokat és a modellkimenetekre gyakorolt hatásokat. Azt is tervezik, hogy további megközelítéseket, például hangvízjelet vizsgálnak meg a szintetizált beszéd észlelésére, hogy etikusan használják fel ezt a technológiát.
- A SoundStorm nagy előrelépést jelent a mesterséges intelligencia által vezérelt hanggyártásban, amely kiváló minőségű és hatékony neurális audiokodek-eredetű hangmegjelenítéseket biztosít. A Google arra számít, hogy a SoundStorm alacsonyabb memória- és feldolgozási igénye szélesebb közösség számára teszi elérhetőbbé a hanggenerálási kutatást. A Google továbbra is elkötelezett a felelős AI-gyakorlatok megőrzése és a SoundStorm biztonságos és felelősségteljes használatának biztosítása mellett, valamint a technológia fejlődésével a hasonló áttörések terén.
- VÖLGY, a Microsoft legújabb text-to-speech (TTS) modellje, óriási előrelépést jelent ezen rendszerek hanggenerálásának javításában. A VALL-E egy TTS modell olyan transzformátorokon alapul, amelyek bármilyen hangon képesek beszédet generálni, miután csak egy három másodperces hangmintát hallanak. Ez nagy előrelépés a korábbi modellekhez képest, amelyek lényegesen hosszabb képzési időszakot igényeltek egy új hang kifejlesztéséhez.
Tudjon meg többet az AI-ról:
A felelősség megtagadása
Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.
A szerzőről
Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.
További cikkekDamir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.