Whisper V3 od OpenAI Jde o otevřený zdroj, rozšiřuje rozpoznávání hlasu napříč jazyky
Stručně
OpenAI oznámila vydání open source WHISPER V3, nejmodernějšího modelu pro rozpoznávání hlasu ve více jazycích.
Společnost zabývající se výzkumem umělé inteligence (AI). OpenAI, udělala významný skok v oblasti rozpoznávání řeči tím, že využívá opensourcing svého nejmodernějšího modelu Whisper large-v3, během jejich události Developer Day.
Tato nejnovější iterace modelu Whisper demonstruje pozoruhodnou schopnost porozumět a přepisovat hlas v mnoha jazycích, čímž rozšiřuje jeho použitelnost nad rámec anglických modelů minulosti.
Whisper large-v3 se daří v různých podmínkách a obratně zvládá různé jazykové vstupy. Podle OpenAI, zatímco modely zaměřené na anglické aplikace mají rády tiny.en
a base.en
ukázat špičkový výkon. Účinnost Whisper large-v3 však podléhá kolísání v závislosti na přepisovaném jazyce.
Původně se zaměřoval na angličtinu při svém uvedení v září loňského roku, ale v prosinci rozšířil své možnosti s verzí 2 o podporu řady jazyků, i když nespecifikoval, které z nich.
Whisper large-v3 je k dispozici pod licencí na GitHub, umožňuje uživatelům přepisovat různé formy obsahu s nejlepší přesností ve své třídě. Jeho jedinečná funkce časového razítka přidává významnou hodnotu a může způsobit revoluci v generování titulků na video platformách, jako je Youtube.
OpenAIPrůlom v rozpoznávání vícejazyčné řeči
Whisper large-v3 zpracovává zvuk tak, že jej nejprve rozdělí na 30sekundové klipy a poté jej spustí složitým systémem, který obsahuje kodér a dekodér pro generování výstupu.
Tyto komponenty spolupracují na předvídání textového přepisu mluvených slov. Jednou z technických předností Whisper large-v3 je funkce jazykové identifikace, která nejen přepisuje vícejazyčnou řeč, ale také ji překládá do angličtiny.
Zatímco původní plány navrhovaly integraci s populární ChatGPT pro usnadnění přímé hlasové interakce s chatbotem, OpenAI se rozhodla udělit veřejnosti přímý přístup k Whisper large-v3. Stojí za zmínku, že současnou cílovou skupinou pro Whisper jsou především výzkumníci, nikoli široká veřejnost.
OpenAIJejich odhodlání pokročit v robustním zpracování řeči je zřejmé z jejich rozhodnutí použít open-source Whisper large-v3. Organizace zdůrazňuje svůj cíl podporovat rozvoj praktických aplikací a další výzkum v této oblasti.
OpenAI vylepšila svůj nástroj AI o rozsáhlou datovou sadu obsahující 680,000 XNUMX hodin pečlivě monitorovaných dat shromážděných z internetu, včetně podstatného podílu neanglického zvuku. Tento krok má za cíl podpořit inovace a rozšířit pole působnosti technologie rozpoznávání hlasu po celém světě.
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Nik je uznávaným analytikem a spisovatelem ve společnosti Metaverse Post, specializující se na poskytování špičkových náhledů do rychle se rozvíjejícího světa technologií se zvláštním důrazem na AI/ML, XR, VR, on-chain analytiku a vývoj blockchainu. Jeho články zapojují a informují různorodé publikum a pomáhají mu udržet náskok před technologickou křivkou. Nik, který má magisterský titul v oboru ekonomie a management, dobře rozumí nuancím obchodního světa a jeho průniku se vznikajícími technologiemi.
Další článkyNik je uznávaným analytikem a spisovatelem ve společnosti Metaverse Post, specializující se na poskytování špičkových náhledů do rychle se rozvíjejícího světa technologií se zvláštním důrazem na AI/ML, XR, VR, on-chain analytiku a vývoj blockchainu. Jeho články zapojují a informují různorodé publikum a pomáhají mu udržet náskok před technologickou křivkou. Nik, který má magisterský titul v oboru ekonomie a management, dobře rozumí nuancím obchodního světa a jeho průniku se vznikajícími technologiemi.