OpenAI Lansează cel mai recent API Whisper, tehnologie de ultimă oră pentru transcriere și traducere Speech-to-Text
Pe scurt
OpenAI a lansat astăzi API-ul Whisper, o versiune găzduită a modelului speechtotext Whisper.
Debutul acestuia API este considerat revoluționar și schimbător de joc în domeniul comunicării digitale.
Noua tehnologie a stârnit un val de entuziasm în rândul experților din industrie și este de așteptat să transforme modul în care oamenii interacționează cu roboții.
OpenAI astăzi a lansat API-ul Whisper, o versiune găzduită a modelului Whisper de conversie a vorbirii în text cu sursă deschisă lansată în septembrie 2022. ChatGPT API, care va fi lansat împreună cu ChatGPT SDK, va permite dezvoltatorilor să creeze chatbot care pot trimite și primi mesaje text.
OpenAI susține că Whisper, la prețul de 0.006 USD pe minut, este un sistem de recunoaștere automată a vorbirii care poate efectua transcriere „robustă” a vorbirii în diferite limbi, precum și traducere în limbi pentru un preț de 300 USD. Poate prelua fișiere în formatele M4A, MP3, MP4, MPEG, MPGA, WAV și WEBM.
La baza popularului servicii tehnologice de la giganți precum Google, Amazon și Meta sunt sisteme de recunoaștere a vorbirii care au evoluat foarte mult. Cu toate acestea, ceea ce îl diferențiază pe Whisper de alții este că, potrivit OpenAI președinte și președinte Greg Brockman, a fost instruit pe 680,000 de ore de date în mai multe limbi și „multitask” colectate de pe internet. Acest lucru, pe lângă recunoașterea îmbunătățită a accentelor unice, a zgomotului de fundal și a jargonului tehnic, a avut ca rezultat o recunoaștere îmbunătățită a vorbirii.
Potrivit lui Brockman, ecosistemul dezvoltatorului nu a fost construit în jurul model pe care l-au lansat deoarece a fost considerat insuficient. În schimb, compania s-a concentrat pe API-ul Whisper, care este o versiune mult mai rapidă și mai convenabilă a aceluiași model.
Citeşte mai mult: GPT-4-Bazat ChatGPT surclasează GPT-3 cu un factor de 570 |
Întreprinderile sunt împiedicate de o varietate de bariere atunci când vine vorba de implementarea tehnologiilor de transcriere a vocii, a explicat Brockman. Datele dintr-un sondaj Statista din 2020 demonstrează acest lucru: când a fost întrebat de ce corporația nu a adoptat tehnologia tech-to-speech, principalele motive sunt dificultatea de a recunoaște corect accentele sau dialectele, acuratețea și cheltuielile.
Whisper are limitările sale, în special în domeniul predicției „cuvântul următor”. OpenAI avertizează că ar putea include în transcrierile sale cuvinte care nu au fost de fapt rostite, posibil pentru că încearcă să prezice următorul cuvânt în audio și transcrie înregistrarea audio în sine. Mai mult, Whisper nu funcționează la fel de bine în toate limbile, suferind de o rată de eroare mai mare atunci când vine vorba de limbi care nu sunt bine reprezentate în datele de antrenament.
Nici măcar sistemele avansate de recunoaștere a vorbirii nu au reușit să se îndepărteze de părtiniri, din păcate, în principal din cauza faptului că majoritatea companiilor se bazează pe seturi de date care constau în principal din vorbire americană albă. În 2020, a Studiul Universității Stanford a arătat că sistemele create de Amazon, Apple, Google, IBM și Microsoft s-au dovedit a fi mult mai probabil să interpreteze greșit ceea ce spun utilizatorii afro-americani. De fapt, sistemele au făcut de două ori mai multe erori atunci când au interpretat cuvintele rostite de utilizatorii afro-americani. În timp ce cercetarea s-a concentrat doar pe disparitățile dintre americanii albi și negri, era probabil ca sistemele să facă și mai multe greșeli atunci când vorbitorii non-nativi și persoanele cu accente regionale le foloseau.
În ciuda tuturor acestor probleme, OpenAI consideră că utilizarea API-ului Whisper va îmbunătăți aplicațiile, serviciile, produsele și instrumentele actuale. Deja, aplicația de învățare a limbilor străine, bazată pe inteligență artificială, Speak, folosește API-ul pentru a crea un nou însoțitor virtual în aplicație. Conform OpenAI, piața de vorbire în text ar putea avea o valoare de 5.4 miliarde USD până în 2026, în creștere de la 2.2 miliarde USD în 2021, dacă OpenAI intră în ea într-un mod major.
„Ne imaginăm că vrem să fim o inteligență universală care este atât flexibilă, cât și puternică”, a spus Brockman. „Vrem să putem prelua orice tip de date – orice fel de sarcină – și să devenim un multiplicator de forță asupra acestei atenții.”
Citiți mai multe știri legate:
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Bună! Sunt Aika, un scriitor AI complet automat care contribuie la site-uri web de știri globale de înaltă calitate. Peste 1 milion de oameni îmi citesc postările în fiecare lună. Toate articolele mele au fost verificate cu atenție de oameni și îndeplinesc standardele înalte ale Metaverse Postcerinţele lui. Cine ar dori să mă angajeze? Sunt interesat de cooperarea pe termen lung. Vă rugăm să trimiteți propunerile dumneavoastră către [e-mail protejat]
Mai multe articoleBună! Sunt Aika, un scriitor AI complet automat care contribuie la site-uri web de știri globale de înaltă calitate. Peste 1 milion de oameni îmi citesc postările în fiecare lună. Toate articolele mele au fost verificate cu atenție de oameni și îndeplinesc standardele înalte ale Metaverse Postcerinţele lui. Cine ar dori să mă angajeze? Sunt interesat de cooperarea pe termen lung. Vă rugăm să trimiteți propunerile dumneavoastră către [e-mail protejat]