Novinky Technika
Listopadu 07, 2023

Whisper V3 od OpenAI Jde o otevřený zdroj, rozšiřuje rozpoznávání hlasu napříč jazyky

Stručně

OpenAI oznámila vydání open source WHISPER V3, nejmodernějšího modelu pro rozpoznávání hlasu ve více jazycích.

OpenAI Odhaluje Whisper V3: Revoluční rozpoznávání hlasu napříč jazyky

Společnost zabývající se výzkumem umělé inteligence (AI). OpenAI, udělala významný skok v oblasti rozpoznávání řeči tím, že využívá opensourcing svého nejmodernějšího modelu Whisper large-v3, během jejich události Developer Day.

Tato nejnovější iterace modelu Whisper demonstruje pozoruhodnou schopnost porozumět a přepisovat hlas v mnoha jazycích, čímž rozšiřuje jeho použitelnost nad rámec anglických modelů minulosti.

Whisper large-v3 se daří v různých podmínkách a obratně zvládá různé jazykové vstupy. Podle OpenAI, zatímco modely zaměřené na anglické aplikace mají rády tiny.en a base.en ukázat špičkový výkon. Účinnost Whisper large-v3 však podléhá kolísání v závislosti na přepisovaném jazyce.

Původně se zaměřoval na angličtinu při svém uvedení v září loňského roku, ale v prosinci rozšířil své možnosti s verzí 2 o podporu řady jazyků, i když nespecifikoval, které z nich.

Whisper large-v3 je k dispozici pod licencí na GitHub, umožňuje uživatelům přepisovat různé formy obsahu s nejlepší přesností ve své třídě. Jeho jedinečná funkce časového razítka přidává významnou hodnotu a může způsobit revoluci v generování titulků na video platformách, jako je Youtube.

Zdroj: OpenAI

OpenAIPrůlom v rozpoznávání vícejazyčné řeči

Whisper large-v3 zpracovává zvuk tak, že jej nejprve rozdělí na 30sekundové klipy a poté jej spustí složitým systémem, který obsahuje kodér a dekodér pro generování výstupu.

Tyto komponenty spolupracují na předvídání textového přepisu mluvených slov. Jednou z technických předností Whisper large-v3 je funkce jazykové identifikace, která nejen přepisuje vícejazyčnou řeč, ale také ji překládá do angličtiny.

Zatímco původní plány navrhovaly integraci s populární ChatGPT pro usnadnění přímé hlasové interakce s chatbotem, OpenAI se rozhodla udělit veřejnosti přímý přístup k Whisper large-v3. Stojí za zmínku, že současnou cílovou skupinou pro Whisper jsou především výzkumníci, nikoli široká veřejnost.

OpenAIJejich odhodlání pokročit v robustním zpracování řeči je zřejmé z jejich rozhodnutí použít open-source Whisper large-v3. Organizace zdůrazňuje svůj cíl podporovat rozvoj praktických aplikací a další výzkum v této oblasti.

OpenAI vylepšila svůj nástroj AI o rozsáhlou datovou sadu obsahující 680,000 XNUMX hodin pečlivě monitorovaných dat shromážděných z internetu, včetně podstatného podílu neanglického zvuku. Tento krok má za cíl podpořit inovace a rozšířit pole působnosti technologie rozpoznávání hlasu po celém světě.

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Nik je uznávaným analytikem a spisovatelem ve společnosti Metaverse Post, specializující se na poskytování špičkových náhledů do rychle se rozvíjejícího světa technologií se zvláštním důrazem na AI/ML, XR, VR, on-chain analytiku a vývoj blockchainu. Jeho články zapojují a informují různorodé publikum a pomáhají mu udržet náskok před technologickou křivkou. Nik, který má magisterský titul v oboru ekonomie a management, dobře rozumí nuancím obchodního světa a jeho průniku se vznikajícími technologiemi.

Další články
Nik Asti
Nik Asti

Nik je uznávaným analytikem a spisovatelem ve společnosti Metaverse Post, specializující se na poskytování špičkových náhledů do rychle se rozvíjejícího světa technologií se zvláštním důrazem na AI/ML, XR, VR, on-chain analytiku a vývoj blockchainu. Jeho články zapojují a informují různorodé publikum a pomáhají mu udržet náskok před technologickou křivkou. Nik, který má magisterský titul v oboru ekonomie a management, dobře rozumí nuancím obchodního světa a jeho průniku se vznikajícími technologiemi.

Od zvlnění k velké zelené DAO: Jak kryptoměnové projekty přispívají k charitě

Pojďme prozkoumat iniciativy využívající potenciál digitálních měn pro charitativní účely.

Vědět více

AlphaFold 3, Med-Gemini a další: The Way AI Transforms Healthcare in 2024

Umělá inteligence se ve zdravotnictví projevuje různými způsoby, od odhalování nových genetických korelací až po posílení robotických chirurgických systémů...

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Nejlepší nabídky tohoto týdne, velké investice do AI, IT, Web3a kryptoměny (20-24.05)
Strávit Nejlepší seznamy Business Životní styl Trhy Vývoj Technika
Nejlepší nabídky tohoto týdne, velké investice do AI, IT, Web3a kryptoměny (20-24.05)
24
OKX ukončí podporu obchodování s krypto pro uživatele z Hongkongu od 31
Trhy Novinky Technika
OKX ukončí podporu obchodování s krypto pro uživatele z Hongkongu od 31
24
NEAR Protocol odhaluje ambiciózní iniciativu AI pro změnu vývoje dApp
Názor Vzdělání Trhy Vývoj Technika
NEAR Protocol odhaluje ambiciózní iniciativu AI pro změnu vývoje dApp
24
Websea otevře 25. května obchodní pár MEHG-USDT spolu s uvedením 100,000 XNUMX MEHG Giveaway
Trhy Novinky Technika
Websea otevře 25. května obchodní pár MEHG-USDT spolu s uvedením 100,000 XNUMX MEHG Giveaway
24
CRYPTOMERIA LABS PTE. LTD.