Whisper V3 от OpenAI Преминава към отворен код, разширявайки гласовото разпознаване на различни езици
Накратко
OpenAI обяви издаването с отворен код на WHISPER V3, най-съвременен модел за гласово разпознаване на множество езици.
Компания за изследване на изкуствения интелект (AI). OpenAI, направи значителен скок в областта на разпознаването на реч, като предостави своя най-съвременен модел с отворен код Шепот голям-v3, по време на тяхното събитие за Ден на програмиста.
Тази последна итерация на модела Whisper демонстрира забележителна способност за разбиране и транскрибиране на глас на множество езици, разширявайки неговата приложимост отвъд ориентираните към английски модели от миналото.
Whisper large-v3 процъфтява в различни условия, като умело се справя с въвеждане на различни езици. Според OpenAI, докато моделите, насочени към английски приложения като tiny.en
намлява base.en
показват превъзходно представяне. Въпреки това, ефективността на Whisper large-v3 е обект на колебания в зависимост от езика, който се транскрибира.
Първоначално фокусиран върху английски език при стартирането си миналия септември, моделът разшири възможностите си с версия 2 през декември, за да включи поддръжка за набор от езици, въпреки че не уточнява кои.
Whisper large-v3 се предлага под разрешителен лиценз на GitHub, позволява на потребителите да транскрибират различни форми на съдържание с най-добра в класа точност. Неговата уникална функция за клеймо за време добавя значителна стойност, потенциално революционизирайки генерирането на субтитри на видео платформи като YouTube.
OpenAIПробивът на многоезичното разпознаване на реч
Whisper large-v3 обработва аудиото, като първо го сегментира на 30-секундни клипове и след това го пуска през сложна система, която включва енкодер и декодер за генериране на изхода.
Тези компоненти работят в унисон, за да предвидят текстовата транскрипция на изговорените думи. Един от техническите акценти на Whisper large-v3 е неговата функция за езикова идентификация, която не само транскрибира многоезична реч, но и я превежда на английски.
Докато първоначалните планове предполагаха интеграция с популярните ChatGPT за улесняване на директно гласово взаимодействие с чатбота, OpenAI избра да предостави на обществеността директен достъп до Whisper large-v3. Струва си да се отбележи, че текущата целева аудитория за Whisper са предимно изследователи, а не широката публика.
OpenAIАнгажиментът на да усъвършенства стабилната обработка на речта е очевиден в решението им да използват Whisper large-v3 с отворен код. Организацията подчертава своята цел да насърчава развитието на практически приложения и по-нататъшни изследвания в тази област.
OpenAI усъвършенства своя AI инструмент с огромен набор от данни, включващ 680,000 XNUMX часа внимателно наблюдавани данни, събрани от интернет, включително значителен дял от неанглийски аудио. Тази стъпка има за цел да стимулира иновациите и да разшири обхвата на технологията за гласово разпознаване в световен мащаб.
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Ник е опитен анализатор и писател в Metaverse Post, специализирана в предоставянето на авангардни прозрения в забързания свят на технологиите, с особен акцент върху AI/ML, XR, VR, анализи във веригата и разработка на блокчейн. Неговите статии ангажират и информират разнообразна аудитория, като им помагат да изпреварят технологичната крива. Притежавайки магистърска степен по икономика и управление, Ник има солидна представа за нюансите на света на бизнеса и неговата пресечна точка с нововъзникващите технологии.
Още статииНик е опитен анализатор и писател в Metaverse Post, специализирана в предоставянето на авангардни прозрения в забързания свят на технологиите, с особен акцент върху AI/ML, XR, VR, анализи във веригата и разработка на блокчейн. Неговите статии ангажират и информират разнообразна аудитория, като им помагат да изпреварят технологичната крива. Притежавайки магистърска степен по икономика и управление, Ник има солидна представа за нюансите на света на бизнеса и неговата пресечна точка с нововъзникващите технологии.