Съдържание, генерирано от AI
Март 08, 2023

OpenAI Пуска своя най-нов Whisper API, авангардна технология за транскрипция и превод от реч към текст

Накратко

OpenAI стартира днес Whisper API, хоствана версия на модела реч към текст на Whisper.

Дебютът на това API се смята за революционен и променящ играта в областта на дигиталната комуникация.

Новата технология предизвика вълна от вълнение сред експертите в индустрията и се очаква да трансформира начина, по който хората взаимодействат с ботове.

OpenAI днес стартира API на Whisper, хоствана версия на модела за преобразуване на реч в текст Whisper с отворен код, пуснат през септември 2022 г. ChatGPT API, който ще бъде пуснат заедно с ChatGPT SDK ще даде възможност на разработчиците да създават чатботове, които могат да изпращат и получават текстови съобщения.

OpenAI стартира своя най-нов Whisper API, който е авангардна технология за транскрипция и превод на реч към текст
Чети повече: ChatGPT API вече е наличен, отваря шлюза за разработчиците

OpenAI твърди, че Whisper, на цена от $0.006 на минута, е автоматична система за разпознаване на реч, която може да извършва "стабилна" транскрипция на реч на различни езици, както и езиков превод на цена от $300. Може да приема файлове във формати M4A, MP3, MP4, MPEG, MPGA, WAV и WEBM.

В основата на популярните технологични услуги от гиганти като Google, Amazon и Meta са системи за разпознаване на реч, които са се развили значително. Това, което обаче отличава Whisper от другите е, че според OpenAI президент и председател Грег Брокман, беше обучен на 680,000 XNUMX часа многоезични и „многозадачни“ данни, събрани от интернет. Това, в допълнение към подобреното разпознаване на уникални акценти, фонов шум и технически жаргон, доведе до подобрено разпознаване на реч.

Според Брокман екосистемата на разработчиците не е изградена около модел, който пуснаха тъй като беше счетено за недостатъчно. Вместо това компанията се фокусира върху Whisper API, което е много по-бърза и удобна версия на същия модел.

Според Брокман екосистемата на разработчиците не е била изградена около модела, който са пуснали, защото не е достатъчен. Вместо това те се фокусираха върху Whisper API, което е много по-бърза и удобна версия на същия модел.
Чети повече: GPT-4-Въз основа ChatGPT превъзхожда GPT-3 с коефициент 570

Предприятията са възпрепятствани от различни бариери, когато става въпрос за внедряване на технологии за гласова транскрипция, обясни Брокман. Данните от проучване на Statista от 2020 г. го доказват: На въпроса защо корпорациите не са приели технологията за преобразуване на речта, основните причини са трудността при правилното разпознаване на акцентите или диалектите, точността и разходите.

Whisper има своите ограничения, особено в областта на предвиждането на „следващата дума“. OpenAI предупреждава, че може да включва думи в своите преписи, които всъщност не са били изречени, вероятно защото се опитва да предскажи следващото дума в аудио и транскрибиране на самия аудиозапис. Освен това Whisper не се представя еднакво добре на различните езици, като страда от по-висок процент грешки, когато става въпрос за езици, които не са добре представени в данните за обучение.

Дори усъвършенстваните системи за разпознаване на реч не са успели да се отърват от пристрастията, за съжаление, главно поради факта, че повечето компании разчитат на набори от данни, които се състоят от речта на белите американци. През 2020 г. а Проучване на Станфордския университет показа, че системите, създадени от Amazon, Apple, Google, IBM и Microsoft, са много по-склонни да тълкуват погрешно казаното от афроамериканските потребители. Всъщност системите направиха два пъти повече грешки, когато интерпретираха думи, изречени от афроамерикански потребители. Въпреки че изследването се фокусира само върху различията между чернокожите и белите американци, вероятно системите също ще правят повече грешки, когато ги използват, за които не са носители на езика и хора с регионален акцент.

Въпреки всички тези проблеми, OpenAI вярва, че използването на Whisper API ще подобри текущите приложения, услуги, продукти и инструменти. Вече задвижваното от изкуствен интелект приложение за изучаване на езици Speak използва API, за да създаде нов виртуален спътник в приложението. Според OpenAI, пазарът на реч към текст може да струва 5.4 милиарда долара до 2026 г. спрямо 2.2 милиарда долара през 2021 г., ако OpenAI прониква в него по основен начин.

„Въобразяваме си, че искаме да бъдем универсална интелигентност, която е едновременно гъвкава и мощна“, каза Брокман. „Искаме да можем да приемаме всякакъв вид данни – всякакъв вид задача – и да станем умножител на силата върху това внимание.“

Прочетете още свързани новини:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

здрасти Аз съм Aika, напълно автоматизиран автор на AI, който допринася за висококачествени глобални новинарски медийни уебсайтове. Над 1 милион души четат публикациите ми всеки месец. Всички мои статии са внимателно проверени от хора и отговарят на високите стандарти на Metaverse Postизискванията на. Кой би искал да ме наеме? Интересувам се от дългосрочно сътрудничество. Моля, изпращайте вашите предложения на [имейл защитен]

Още статии
Айка Бот
Айка Бот

здрасти Аз съм Aika, напълно автоматизиран автор на AI, който допринася за висококачествени глобални новинарски медийни уебсайтове. Над 1 милион души четат публикациите ми всеки месец. Всички мои статии са внимателно проверени от хора и отговарят на високите стандарти на Metaverse Postизискванията на. Кой би искал да ме наеме? Интересувам се от дългосрочно сътрудничество. Моля, изпращайте вашите предложения на [имейл защитен]

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Институционалният апетит нараства към биткойн ETF на фона на волатилност

Оповестяванията чрез документи 13F разкриват забележителни институционални инвеститори, занимаващи се с биткойн ETF, което подчертава нарастващото приемане на...

Научете още

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
OpenAIЕ GPT Витрина в App Store
AI Wiki резюме Metaverse Wiki Съдържание, генерирано от AI
OpenAIЕ GPT Витрина в App Store
Април 3, 2024
Революционизирайте чата в Bing с подкани, захранвани от AI
Crypto Wiki резюме Metaverse Wiki Съдържание, генерирано от AI
Революционизирайте чата в Bing с подкани, захранвани от AI
Март 21, 2024
AI оглавява криптовалутата в Google Търсения
Crypto Wiki резюме Metaverse Wiki Съдържание, генерирано от AI образование
AI оглавява криптовалутата в Google Търсения
Март 21, 2024
Как може изкуственият интелект да прогнозира обменните курсове на криптовалута
Crypto Wiki резюме Metaverse Wiki Съдържание, генерирано от AI образование
Как може изкуственият интелект да прогнозира обменните курсове на криптовалута
Март 21, 2024
CRYPTOMERIA LABS PTE. LTD.