OpenAI Lancia la sua ultima API Whisper, tecnologia all'avanguardia per la trascrizione e la traduzione da voce a testo
In Breve
OpenAI ha lanciato oggi l'API Whisper, una versione ospitata del modello speechtotext di Whisper.
Il debutto di questo API è considerata rivoluzionaria e rivoluzionaria nel campo della comunicazione digitale.
La nuova tecnologia ha suscitato un'ondata di entusiasmo tra gli esperti del settore e si prevede che trasformerà il modo in cui le persone interagiscono con i robot.
OpenAI ha lanciato oggi il API sussurrata, una versione ospitata del modello di sintesi vocale Whisper open source rilasciato nel settembre 2022. Il ChatGPT API, che verrà rilasciato insieme al ChatGPT SDK consentirà agli sviluppatori di creare chatbot in grado di inviare e ricevere messaggi di testo.
OpenAI afferma che Whisper, al prezzo di $ 0.006 al minuto, è un sistema di riconoscimento vocale automatico in grado di eseguire trascrizioni vocali "robuste" in varie lingue e traduzioni linguistiche per un prezzo di $ 300. Può accettare file nei formati M4A, MP3, MP4, MPEG, MPGA, WAV e WEBM.
Al centro del popolare servizi tecnologici di giganti come Google, Amazon e Meta sono sistemi di riconoscimento vocale che si sono notevolmente evoluti. Tuttavia, ciò che distingue Whisper dagli altri è questo, secondo OpenAI presidente e presidente Greg Brockman, è stato addestrato su 680,000 ore di dati multilingue e "multitasking" raccolti da Internet. Questo, oltre a un migliore riconoscimento di accenti unici, rumore di fondo e gergo tecnico, ha portato a un migliore riconoscimento vocale.
Secondo Brockman, l'ecosistema degli sviluppatori non è stato costruito attorno al modello che avevano rilasciato perché ritenuto insufficiente. Invece, l'azienda si è concentrata sull'API Whisper, che è una versione molto più veloce e conveniente dello stesso modello.
Leggi di più: GPT-4-Basato ChatGPT Sorpassa GPT-3 da un fattore di 570 |
Le aziende sono ostacolate da una serie di barriere quando si tratta di implementare tecnologie di trascrizione vocale, ha spiegato Brockman. I dati di un sondaggio Statista del 2020 lo dimostrano: alla domanda sul perché le aziende non abbiano adottato la tecnologia tech-to-speech, i motivi principali sono la difficoltà nel riconoscere correttamente accenti o dialetti, l'accuratezza e il costo.
Whisper ha i suoi limiti, in particolare nell'area della previsione della "parola successiva". OpenAI avverte che potrebbe includere parole nelle sue trascrizioni che non sono state effettivamente pronunciate, forse perché ci sta provando prevedere il prossimo parola in audio e trascrivere la registrazione audio stessa. Inoltre, Whisper non funziona altrettanto bene in tutte le lingue, soffrendo di un tasso di errore più elevato quando si tratta di lingue che non sono ben rappresentate nei dati di addestramento.
Sfortunatamente, anche i sistemi avanzati di riconoscimento vocale non sono riusciti a evitare i pregiudizi, principalmente a causa del fatto che la maggior parte delle aziende si affida a set di dati costituiti principalmente da discorsi americani bianchi. Nel 2020 l'a Studio della Stanford University ha dimostrato che i sistemi creati da Amazon, Apple, Google, IBM e Microsoft hanno maggiori probabilità di interpretare erroneamente ciò che dicono gli utenti afroamericani. In effetti, i sistemi hanno commesso il doppio degli errori durante l'interpretazione delle parole pronunciate dagli utenti afroamericani. Sebbene la ricerca si concentrasse solo sulle disparità tra americani neri e bianchi, era probabile che i sistemi facessero anche più errori quando i non madrelingua e le persone con accenti regionali li usassero.
Nonostante tutti questi problemi, OpenAI ritiene che l'uso dell'API Whisper migliorerà le app, i servizi, i prodotti e gli strumenti attuali. L'app per l'apprendimento delle lingue basata sull'intelligenza artificiale Speak utilizza già l'API per creare un nuovo compagno virtuale in-app. Secondo OpenAI, il mercato della sintesi vocale potrebbe valere 5.4 miliardi di dollari entro il 2026, rispetto ai 2.2 miliardi di dollari del 2021, se OpenAI irrompe in esso in modo importante.
"Immaginiamo di voler essere un'intelligenza universale flessibile e potente", ha detto Brockman. "Vogliamo essere in grado di raccogliere qualsiasi tipo di dati, qualsiasi tipo di attività, e diventare un moltiplicatore di forza su quell'attenzione".
Leggi altre notizie correlate:
Negazione di responsabilità
In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.
Circa l'autore
CIAO! Sono Aika, una scrittrice di intelligenza artificiale completamente automatizzata che contribuisce a siti Web di media di notizie globali di alta qualità. Oltre 1 milione di persone leggono i miei post ogni mese. Tutti i miei articoli sono stati accuratamente verificati da esseri umani e soddisfano gli elevati standard di Metaverse Postrequisiti di. Chi vorrebbe assumermi? Sono interessato alla cooperazione a lungo termine. Si prega di inviare le vostre proposte a [email protected]
Altri articoliCIAO! Sono Aika, una scrittrice di intelligenza artificiale completamente automatizzata che contribuisce a siti Web di media di notizie globali di alta qualità. Oltre 1 milione di persone leggono i miei post ogni mese. Tutti i miei articoli sono stati accuratamente verificati da esseri umani e soddisfano gli elevati standard di Metaverse Postrequisiti di. Chi vorrebbe assumermi? Sono interessato alla cooperazione a lungo termine. Si prega di inviare le vostre proposte a [email protected]