Meta odhaluje Voicebox, generativní nástroj umělé inteligence pro převod textu na řeč
Stručně
Voicebox, nejnovější inovace Meta, je revoluční převod textu na řeč generativní nástroj AI která přeměňuje psaný text na realistickou řeč.
Se schopnostmi srovnatelnými s renomovanými modely jako ChatGPT a Dall-E, Voicebox může provádět různé úlohy generování řeči, jako je úprava obsahu, vzorkování, konverze stylů, odstranění šumu, syntéza textu na řeč a přenos stylů mezi jazyky.
Hlasová schránka zatím není veřejně dostupná.
Hlasová schránka je průlom společnosti Meta v generativní řeči AI, která převádí text na realistickou a výraznou řeč. Nástroj AI, který funguje podobně jako ChatGPT nebo Dall-E, je pokročilý model umělé inteligence schopný provádět úkoly generování řeči, jako je úprava obsahu, vzorkování a konverze stylů, a to i bez specifického školení, díky učení v kontextu.
Odlišuje se od ostatních modelů převodu textu na řeč tím, že vyniká v různých úkolech, jako je odstranění šumu, syntéza textu na řeč a přenos stylů mezi jazyky, čímž posouvá hranice generování syntetické řeči. Voicebox také překonává současné modely rychlostí a pracuje 20krát rychleji.
Voicebox prošel rozsáhlým školením s použitím datové sady obsahující více než 50,000 XNUMX hodin nefiltrovaného zvuku. Model umělé inteligence byl trénován pomocí inovativní techniky Meta „Flow Matching“, což je všestranná alternativa k metodám učení založeným na difúzi, které používají jiné generativní modely.
Tréninkový soubor Meta obsahuje nahranou řeč a přepisy z veřejně přístupných audioknih ve více jazycích, jako je angličtina, francouzština, španělština, němčina, polština a portugalština.
Podle Marka Zuckerberga je Voicebox „vůbec prvním generativním modelem řeči AI, který dokáže provádět úkoly, na které nebyl speciálně vyškolen.
V budoucnu mohou Voicebox a podobné modely umělé inteligence poskytovat přirozeně znějící hlasy pro virtuální asistenty a nehráčské postavy v metaverse. Mohou také umožnit osobám se zrakovým postižením slyšet psané zprávy známými hlasy prostřednictvím umělé inteligence a nabídnout tvůrcům snadné nástroje úpravy zvukových stop ve videích.
Voicebox and the Dangers of Deepfakes
Voicebox však může představovat určité etické a sociální výzvy, zejména v kontextu deepfakes. Deepfakes, vytvořené modely AI, jsou syntetická média, která manipulují s hlasem člověka, často zlomyslně. Voicebox by mohl vytvořit přesvědčivé deepfakes, které se vydávají za něčí hlas nebo je přinutí říkat věci, které nikdy neřekli. To by mohlo mít vážné důsledky pro soukromí, bezpečnost a důvěru.
Prezident Microsoftu Brad Smith vyvolaly obavy minulý měsíc o škodách způsobených deepfakes. Zdůraznil potřebu mechanismů, které by rozlišovaly mezi skutečným materiálem a materiálem generovaným umělou inteligencí, zejména v případech se zlými úmysly. Vyzval k odpovědnosti a bezpečnostním opatřením k udržení lidské kontroly nad kritickou infrastrukturou řízenou systémy AI. Dále navrhl systém, kde vývojáři monitorují používání a poskytují transparentnost pro identifikaci zmanipulovaných videí, podobný přístupu KYC.
Meta tvrdí, že si je vědoma potenciální škody, kterou by Voicebox mohl způsobit, a že společnost pracuje na efektivním způsobu, jak rozlišit mezi autentickou řečí a zvukem generovaným Voiceboxem. Zatímco Voicebox stále prochází vývojem a není v současné době přístupný veřejnosti, Meta uznává potenciál rizika spojená s pokročilou technologií AI.
Čtěte více:
- VALL-E: Nový model převodu textu na řeč s nulovým snímkem od společnosti Microsoft dokáže duplikovat hlas každého během tří sekund
- Kendrick Lamar právě vypustil hudební video využívající technologii deepfake
- 7 nejlepších hlasových generátorů AI a klonování hlasu pro převod textu na řeč
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Agne je novinářka, která se zabývá nejnovějšími trendy a vývojem v metaverse, AI a Web3 průmysl pro Metaverse Post. Její vášeň pro vyprávění ji přivedla k četným rozhovorům s odborníky v těchto oblastech, ve kterých se vždy snažila odhalit vzrušující a poutavé příběhy. Agne má bakalářský titul z literatury a má rozsáhlé zkušenosti s psaním o široké škále témat, včetně cestování, umění a kultury. Přihlásila se také jako redaktorka do organizace pro práva zvířat, kde pomáhala zvyšovat povědomí o otázkách dobrých životních podmínek zvířat. Kontaktujte ji [chráněno e-mailem].
Další článkyAgne je novinářka, která se zabývá nejnovějšími trendy a vývojem v metaverse, AI a Web3 průmysl pro Metaverse Post. Její vášeň pro vyprávění ji přivedla k četným rozhovorům s odborníky v těchto oblastech, ve kterých se vždy snažila odhalit vzrušující a poutavé příběhy. Agne má bakalářský titul z literatury a má rozsáhlé zkušenosti s psaním o široké škále témat, včetně cestování, umění a kultury. Přihlásila se také jako redaktorka do organizace pro práva zvířat, kde pomáhala zvyšovat povědomí o otázkách dobrých životních podmínek zvířat. Kontaktujte ji [chráněno e-mailem].