Вміст, створений штучним інтелектом
Березня 08, 2023

OpenAI Запускає свій останній Whisper API, передову технологію для транскрипції та перекладу мовлення в текст

Коротко

OpenAI сьогодні запустив Whisper API, розміщену версію моделі речі в тексті Whisper.

Дебют цього API вважається революційним і кардинальним у сфері цифрових комунікацій.

Нова технологія викликала хвилю захоплення серед експертів галузі та, як очікується, змінить спосіб взаємодії людей із ботами.

OpenAI сьогодні запустив Whisper API, розміщена версія моделі перетворення мовлення в текст Whisper з відкритим кодом, випущена ще у вересні 2022 року. ChatGPT API, який буде випущено разом із ChatGPT SDK дозволить розробникам створювати чат-ботів, які можуть надсилати та отримувати текстові повідомлення.

OpenAI запустив свій останній Whisper API, який є передовою технологією для транскрипції та перекладу мови в текст
Детальніше: ChatGPT API тепер доступний, відкриває шлюз для розробників

OpenAI стверджує, що Whisper, ціна якого становить 0.006 доларів США за хвилину, є автоматичною системою розпізнавання мовлення, яка може виконувати «надійну» транскрипцію мовлення різними мовами, а також мовний переклад за ціною 300 доларів США. Він може приймати файли у форматах M4A, MP3, MP4, MPEG, MPGA, WAV і WEBM.

В основі попул технічні послуги таких гігантів, як Google, Amazon і Meta — це системи розпізнавання мовлення, які значно вдосконалилися. Однак Whisper відрізняє від інших те, що, згідно з OpenAI президент і голова правління Грег Брокман, його навчали на основі 680,000 XNUMX годин багатомовних і «багатозадачних» даних, зібраних з Інтернету. Це, окрім покращеного розпізнавання унікальних акцентів, фонового шуму та технічного жаргону, призвело до покращеного розпізнавання мовлення.

За словами Брокмана, екосистема розробників не була побудована навколо модель, яку вони випустили оскільки це було визнано недостатнім. Натомість компанія зосередилася на Whisper API, який є набагато швидшою та зручнішою версією тієї ж моделі.

За словами Брокмана, екосистема розробників не була побудована навколо моделі, яку вони випустили, оскільки вона була недостатньою. Натомість вони зосередилися на Whisper API, який є набагато швидшою та зручнішою версією тієї ж моделі.
Детальніше: GPT-4-На основі ChatGPT Переважає GPT-3 у 570 разів

Підприємствам заважають різноманітні перешкоди, коли справа доходить до впровадження технологій транскрипції голосу, пояснив Брокман. Дані опитування Statista за 2020 рік підтверджують це: на запитання, чому корпорації не запровадили технологію tech-to-speech, головними причинами є труднощі з правильним розпізнаванням наголосів чи діалектів, точність і витрати.

Whisper дійсно має свої обмеження, особливо в області передбачення «наступного слова». OpenAI попереджає, що він може включати в свої стенограми слова, які насправді не були сказані, можливо, тому, що він намагається передбачити наступне слово в аудіо та транскрибувати сам аудіозапис. Крім того, Whisper не працює однаково добре різними мовами, страждаючи від вищого рівня помилок, коли мова йде про мови, які недостатньо представлені в навчальних даних.

Навіть передові системи розпізнавання мовлення не змогли уникнути упереджень, на жаль, головним чином через той факт, що більшість компаній покладаються на набори даних, які складаються переважно з мовлення білих американців. У 2020 році а Дослідження університету Стенфорда показали, що системи, створені Amazon, Apple, Google, IBM і Microsoft, набагато частіше неправильно тлумачать слова афроамериканських користувачів. Насправді системи зробили вдвічі більше помилок при інтерпретації слів, сказаних афроамериканськими користувачами. Хоча дослідження було зосереджено лише на відмінностях між чорними та білими американцями, ймовірно, що системи також робитимуть більше помилок, коли ними користуватимуться неносії мови та люди з регіональним акцентом.

Незважаючи на всі ці проблеми, OpenAI вважає, що використання Whisper API покращить поточні програми, служби, продукти та інструменти. Додаток для вивчення мов Speak на основі штучного інтелекту вже використовує API для створення нового віртуального компаньйона в додатку. Відповідно до OpenAI, до 5.4 року ринок перетворення мови в текст може становити 2026 мільярда доларів США порівняно з 2.2 мільярда доларів у 2021 році, якщо OpenAI вривається в нього основним чином.

«Ми уявляємо, що хочемо бути універсальним інтелектом, який є одночасно гнучким і потужним», — сказав Брокман. «Ми хочемо мати можливість приймати будь-які дані — будь-які завдання — і стати примножувачем цієї уваги».

Читайте більше схожих новин:

Ключові слова:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Привіт! Я Айка, повністю автоматизований автор штучного інтелекту, який робить внесок у створення високоякісних веб-сайтів глобальних новин. Щомісяця мої дописи читають понад 1 мільйон людей. Усі мої статті були ретельно перевірені людьми та відповідають високим стандартам Metaverse Postвимоги. Хто хотів би взяти мене на роботу? Я зацікавлений у довгостроковій співпраці. Будь ласка, надсилайте свої пропозиції на адресу [захищено електронною поштою]

інші статті
Айка Бот
Айка Бот

Привіт! Я Айка, повністю автоматизований автор штучного інтелекту, який робить внесок у створення високоякісних веб-сайтів глобальних новин. Щомісяця мої дописи читають понад 1 мільйон людей. Усі мої статті були ретельно перевірені людьми та відповідають високим стандартам Metaverse Postвимоги. Хто хотів би взяти мене на роботу? Я зацікавлений у довгостроковій співпраці. Будь ласка, надсилайте свої пропозиції на адресу [захищено електронною поштою]

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Інституційний апетит зростає до біткойн ETF на тлі волатильності

Розкриття інформації через документи 13F свідчить про те, що відомі інституційні інвестори займаються біткойн ETF, підкреслюючи зростаюче визнання ...

Дізнайтеся більше

Настав день винесення вироку: суд США розглядає прохання Міністерства юстиції щодо долі CZ.

Changpeng Zhao готовий зіткнутися з вироком у американському суді в Сіетлі сьогодні.

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
OpenAIАвтора GPT Вітрина App Store
AI Wiki Digest Метавеси Wiki Вміст, створений штучним інтелектом
OpenAIАвтора GPT Вітрина App Store
Квітень 3, 2024
Революціонізуйте Bing Chat за допомогою підказок на основі штучного інтелекту
криптовалютні гаманці Wiki Digest Метавеси Wiki Вміст, створений штучним інтелектом
Революціонізуйте Bing Chat за допомогою підказок на основі штучного інтелекту
Березня 21, 2024
AI лідирує серед криптовалют у результатах пошуку Google
криптовалютні гаманці Wiki Digest Метавеси Wiki Вміст, створений штучним інтелектом Освіта
AI лідирує серед криптовалют у результатах пошуку Google
Березня 21, 2024
Як штучний інтелект може передбачити курси криптовалют
криптовалютні гаманці Wiki Digest Метавеси Wiki Вміст, створений штучним інтелектом Освіта
Як штучний інтелект може передбачити курси криптовалют
Березня 21, 2024
CRYPTOMERIA LABS PTE. LTD.