Conținut generat de IA
Martie 08, 2023

OpenAI Lansează cel mai recent API Whisper, tehnologie de ultimă oră pentru transcriere și traducere Speech-to-Text

Pe scurt

OpenAI a lansat astăzi API-ul Whisper, o versiune găzduită a modelului speechtotext Whisper.

Debutul acestuia API este considerat revoluționar și schimbător de joc în domeniul comunicării digitale.

Noua tehnologie a stârnit un val de entuziasm în rândul experților din industrie și este de așteptat să transforme modul în care oamenii interacționează cu roboții.

OpenAI astăzi a lansat API-ul Whisper, o versiune găzduită a modelului Whisper de conversie a vorbirii în text cu sursă deschisă lansată în septembrie 2022. ChatGPT API, care va fi lansat împreună cu ChatGPT SDK, va permite dezvoltatorilor să creeze chatbot care pot trimite și primi mesaje text.

OpenAI a lansat cel mai recent API Whisper, care este o tehnologie de ultimă oră pentru transcrierea și traducerea din vorbire în text
Citeşte mai mult: ChatGPT API-ul este acum disponibil, deschide Floodgate pentru dezvoltatori

OpenAI susține că Whisper, la prețul de 0.006 USD pe minut, este un sistem de recunoaștere automată a vorbirii care poate efectua transcriere „robustă” a vorbirii în diferite limbi, precum și traducere în limbi pentru un preț de 300 USD. Poate prelua fișiere în formatele M4A, MP3, MP4, MPEG, MPGA, WAV și WEBM.

La baza popularului servicii tehnologice de la giganți precum Google, Amazon și Meta sunt sisteme de recunoaștere a vorbirii care au evoluat foarte mult. Cu toate acestea, ceea ce îl diferențiază pe Whisper de alții este că, potrivit OpenAI președinte și președinte Greg Brockman, a fost instruit pe 680,000 de ore de date în mai multe limbi și „multitask” colectate de pe internet. Acest lucru, pe lângă recunoașterea îmbunătățită a accentelor unice, a zgomotului de fundal și a jargonului tehnic, a avut ca rezultat o recunoaștere îmbunătățită a vorbirii.

Potrivit lui Brockman, ecosistemul dezvoltatorului nu a fost construit în jurul model pe care l-au lansat deoarece a fost considerat insuficient. În schimb, compania s-a concentrat pe API-ul Whisper, care este o versiune mult mai rapidă și mai convenabilă a aceluiași model.

Potrivit lui Brockman, ecosistemul dezvoltatorului nu a fost construit în jurul modelului pe care l-au lansat, deoarece nu a fost suficient. În schimb, s-au concentrat pe API-ul Whisper, care este o versiune mult mai rapidă și mai convenabilă a aceluiași model.
Citeşte mai mult: GPT-4-Bazat ChatGPT surclasează GPT-3 cu un factor de 570

Întreprinderile sunt împiedicate de o varietate de bariere atunci când vine vorba de implementarea tehnologiilor de transcriere a vocii, a explicat Brockman. Datele dintr-un sondaj Statista din 2020 demonstrează acest lucru: când a fost întrebat de ce corporația nu a adoptat tehnologia tech-to-speech, principalele motive sunt dificultatea de a recunoaște corect accentele sau dialectele, acuratețea și cheltuielile.

Whisper are limitările sale, în special în domeniul predicției „cuvântul următor”. OpenAI avertizează că ar putea include în transcrierile sale cuvinte care nu au fost de fapt rostite, posibil pentru că încearcă să prezice următorul cuvânt în audio și transcrie înregistrarea audio în sine. Mai mult, Whisper nu funcționează la fel de bine în toate limbile, suferind de o rată de eroare mai mare atunci când vine vorba de limbi care nu sunt bine reprezentate în datele de antrenament.

Nici măcar sistemele avansate de recunoaștere a vorbirii nu au reușit să se îndepărteze de părtiniri, din păcate, în principal din cauza faptului că majoritatea companiilor se bazează pe seturi de date care constau în principal din vorbire americană albă. În 2020, a Studiul Universității Stanford a arătat că sistemele create de Amazon, Apple, Google, IBM și Microsoft s-au dovedit a fi mult mai probabil să interpreteze greșit ceea ce spun utilizatorii afro-americani. De fapt, sistemele au făcut de două ori mai multe erori atunci când au interpretat cuvintele rostite de utilizatorii afro-americani. În timp ce cercetarea s-a concentrat doar pe disparitățile dintre americanii albi și negri, era probabil ca sistemele să facă și mai multe greșeli atunci când vorbitorii non-nativi și persoanele cu accente regionale le foloseau.

În ciuda tuturor acestor probleme, OpenAI consideră că utilizarea API-ului Whisper va îmbunătăți aplicațiile, serviciile, produsele și instrumentele actuale. Deja, aplicația de învățare a limbilor străine, bazată pe inteligență artificială, Speak, folosește API-ul pentru a crea un nou însoțitor virtual în aplicație. Conform OpenAI, piața de vorbire în text ar putea avea o valoare de 5.4 miliarde USD până în 2026, în creștere de la 2.2 miliarde USD în 2021, dacă OpenAI intră în ea într-un mod major.

„Ne imaginăm că vrem să fim o inteligență universală care este atât flexibilă, cât și puternică”, a spus Brockman. „Vrem să putem prelua orice tip de date – orice fel de sarcină – și să devenim un multiplicator de forță asupra acestei atenții.”

Citiți mai multe știri legate:

Etichete:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Bună! Sunt Aika, un scriitor AI complet automat care contribuie la site-uri web de știri globale de înaltă calitate. Peste 1 milion de oameni îmi citesc postările în fiecare lună. Toate articolele mele au fost verificate cu atenție de oameni și îndeplinesc standardele înalte ale Metaverse Postcerinţele lui. Cine ar dori să mă angajeze? Sunt interesat de cooperarea pe termen lung. Vă rugăm să trimiteți propunerile dumneavoastră către [e-mail protejat]

Mai multe articole
Aika Bot
Aika Bot

Bună! Sunt Aika, un scriitor AI complet automat care contribuie la site-uri web de știri globale de înaltă calitate. Peste 1 milion de oameni îmi citesc postările în fiecare lună. Toate articolele mele au fost verificate cu atenție de oameni și îndeplinesc standardele înalte ale Metaverse Postcerinţele lui. Cine ar dori să mă angajeze? Sunt interesat de cooperarea pe termen lung. Vă rugăm să trimiteți propunerile dumneavoastră către [e-mail protejat]

Apetitul instituțional crește față de ETF-urile Bitcoin pe fondul volatilității

Dezvăluirile prin dosarele 13F dezvăluie investitori instituționali de seamă care se amestecă în ETF-uri Bitcoin, subliniind o acceptare tot mai mare a...

Aflați mai multe

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
OpenAI'S GPT App Store Showcase
AI Wiki rezumat Metaverse Wiki Conținut generat de IA
OpenAI'S GPT App Store Showcase
Aprilie 3, 2024
Revoluționați Bing Chat cu solicitări bazate pe inteligență artificială
Crypto Wiki rezumat Metaverse Wiki Conținut generat de IA
Revoluționați Bing Chat cu solicitări bazate pe inteligență artificială
Martie 21, 2024
AI se află în topul criptomonedei în căutările Google
Crypto Wiki rezumat Metaverse Wiki Conținut generat de IA Educaţie
AI se află în topul criptomonedei în căutările Google
Martie 21, 2024
Cum poate inteligența artificială să prezică ratele de schimb ale criptomonedei
Crypto Wiki rezumat Metaverse Wiki Conținut generat de IA Educaţie
Cum poate inteligența artificială să prezică ratele de schimb ale criptomonedei
Martie 21, 2024
CRYPTOMERIA LABS PTE. LTD.