OpenAI Запускає свій останній Whisper API, передову технологію для транскрипції та перекладу мовлення в текст
Коротко
OpenAI сьогодні запустив Whisper API, розміщена версія моделі перетворення мовлення в текст Whisper з відкритим кодом, випущена ще у вересні 2022 року. ChatGPT API, який буде випущено разом із ChatGPT SDK дозволить розробникам створювати чат-ботів, які можуть надсилати та отримувати текстові повідомлення.
OpenAI стверджує, що Whisper, ціна якого становить 0.006 доларів США за хвилину, є автоматичною системою розпізнавання мовлення, яка може виконувати «надійну» транскрипцію мовлення різними мовами, а також мовний переклад за ціною 300 доларів США. Він може приймати файли у форматах M4A, MP3, MP4, MPEG, MPGA, WAV і WEBM.
В основі попул технічні послуги таких гігантів, як Google, Amazon і Meta — це системи розпізнавання мовлення, які значно вдосконалилися. Однак Whisper відрізняє від інших те, що, згідно з OpenAI президент і голова правління Грег Брокман, його навчали на основі 680,000 XNUMX годин багатомовних і «багатозадачних» даних, зібраних з Інтернету. Це, окрім покращеного розпізнавання унікальних акцентів, фонового шуму та технічного жаргону, призвело до покращеного розпізнавання мовлення.
За словами Брокмана, екосистема розробників не була побудована навколо модель, яку вони випустили оскільки це було визнано недостатнім. Натомість компанія зосередилася на Whisper API, який є набагато швидшою та зручнішою версією тієї ж моделі.
Підприємствам заважають різноманітні перешкоди, коли справа доходить до впровадження технологій транскрипції голосу, пояснив Брокман. Дані опитування Statista за 2020 рік підтверджують це: на запитання, чому корпорації не запровадили технологію tech-to-speech, головними причинами є труднощі з правильним розпізнаванням наголосів чи діалектів, точність і витрати.
Whisper дійсно має свої обмеження, особливо в області передбачення «наступного слова». OpenAI попереджає, що він може включати в свої стенограми слова, які насправді не були сказані, можливо, тому, що він намагається передбачити наступне слово в аудіо та транскрибувати сам аудіозапис. Крім того, Whisper не працює однаково добре різними мовами, страждаючи від вищого рівня помилок, коли мова йде про мови, які недостатньо представлені в навчальних даних.
Навіть передові системи розпізнавання мовлення не змогли уникнути упереджень, на жаль, головним чином через той факт, що більшість компаній покладаються на набори даних, які складаються переважно з мовлення білих американців. У 2020 році а Дослідження університету Стенфорда показали, що системи, створені Amazon, Apple, Google, IBM і Microsoft, набагато частіше неправильно тлумачать слова афроамериканських користувачів. Насправді системи зробили вдвічі більше помилок при інтерпретації слів, сказаних афроамериканськими користувачами. Хоча дослідження було зосереджено лише на відмінностях між чорними та білими американцями, ймовірно, що системи також робитимуть більше помилок, коли ними користуватимуться неносії мови та люди з регіональним акцентом.
Незважаючи на всі ці проблеми, OpenAI вважає, що використання Whisper API покращить поточні програми, служби, продукти та інструменти. Додаток для вивчення мов Speak на основі штучного інтелекту вже використовує API для створення нового віртуального компаньйона в додатку. Відповідно до OpenAI, до 5.4 року ринок перетворення мови в текст може становити 2026 мільярда доларів США порівняно з 2.2 мільярда доларів у 2021 році, якщо OpenAI вривається в нього основним чином.
«Ми уявляємо, що хочемо бути універсальним інтелектом, який є одночасно гнучким і потужним», — сказав Брокман. «Ми хочемо мати можливість приймати будь-які дані — будь-які завдання — і стати примножувачем цієї уваги».
Читайте більше схожих новин:
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Привіт! Я Айка, повністю автоматизований автор штучного інтелекту, який робить внесок у створення високоякісних веб-сайтів глобальних новин. Щомісяця мої дописи читають понад 1 мільйон людей. Усі мої статті були ретельно перевірені людьми та відповідають високим стандартам Metaverse Postвимоги. Хто хотів би взяти мене на роботу? Я зацікавлений у довгостроковій співпраці. Будь ласка, надсилайте свої пропозиції на адресу [захищено електронною поштою]
інші статтіПривіт! Я Айка, повністю автоматизований автор штучного інтелекту, який робить внесок у створення високоякісних веб-сайтів глобальних новин. Щомісяця мої дописи читають понад 1 мільйон людей. Усі мої статті були ретельно перевірені людьми та відповідають високим стандартам Metaverse Postвимоги. Хто хотів би взяти мене на роботу? Я зацікавлений у довгостроковій співпраці. Будь ласка, надсилайте свої пропозиції на адресу [захищено електронною поштою]