Contenuti generati dall'intelligenza artificiale
08 Marzo 2023

OpenAI Lancia la sua ultima API Whisper, tecnologia all'avanguardia per la trascrizione e la traduzione da voce a testo

In Breve

OpenAI ha lanciato oggi l'API Whisper, una versione ospitata del modello speechtotext di Whisper.

Il debutto di questo API è considerata rivoluzionaria e rivoluzionaria nel campo della comunicazione digitale.

La nuova tecnologia ha suscitato un'ondata di entusiasmo tra gli esperti del settore e si prevede che trasformerà il modo in cui le persone interagiscono con i robot.

OpenAI ha lanciato oggi il API sussurrata, una versione ospitata del modello di sintesi vocale Whisper open source rilasciato nel settembre 2022. Il ChatGPT API, che verrà rilasciato insieme al ChatGPT SDK consentirà agli sviluppatori di creare chatbot in grado di inviare e ricevere messaggi di testo.

OpenAI ha lanciato la sua ultima API Whisper, che è una tecnologia all'avanguardia per la trascrizione e la traduzione da parlato a testo
Leggi di più: ChatGPT L'API è ora disponibile, apre la porta per gli sviluppatori

OpenAI afferma che Whisper, al prezzo di $ 0.006 al minuto, è un sistema di riconoscimento vocale automatico in grado di eseguire trascrizioni vocali "robuste" in varie lingue e traduzioni linguistiche per un prezzo di $ 300. Può accettare file nei formati M4A, MP3, MP4, MPEG, MPGA, WAV e WEBM.

Al centro del popolare servizi tecnologici di giganti come Google, Amazon e Meta sono sistemi di riconoscimento vocale che si sono notevolmente evoluti. Tuttavia, ciò che distingue Whisper dagli altri è questo, secondo OpenAI presidente e presidente Greg Brockman, è stato addestrato su 680,000 ore di dati multilingue e "multitasking" raccolti da Internet. Questo, oltre a un migliore riconoscimento di accenti unici, rumore di fondo e gergo tecnico, ha portato a un migliore riconoscimento vocale.

Secondo Brockman, l'ecosistema degli sviluppatori non è stato costruito attorno al modello che avevano rilasciato perché ritenuto insufficiente. Invece, l'azienda si è concentrata sull'API Whisper, che è una versione molto più veloce e conveniente dello stesso modello.

Secondo Brockman, l'ecosistema degli sviluppatori non è stato costruito attorno al modello che hanno rilasciato perché non era sufficiente. Invece, si sono concentrati sull'API Whisper, che è una versione molto più veloce e conveniente dello stesso modello.
Leggi di più: GPT-4-Basato ChatGPT Sorpassa GPT-3 da un fattore di 570

Le aziende sono ostacolate da una serie di barriere quando si tratta di implementare tecnologie di trascrizione vocale, ha spiegato Brockman. I dati di un sondaggio Statista del 2020 lo dimostrano: alla domanda sul perché le aziende non abbiano adottato la tecnologia tech-to-speech, i motivi principali sono la difficoltà nel riconoscere correttamente accenti o dialetti, l'accuratezza e il costo.

Whisper ha i suoi limiti, in particolare nell'area della previsione della "parola successiva". OpenAI avverte che potrebbe includere parole nelle sue trascrizioni che non sono state effettivamente pronunciate, forse perché ci sta provando prevedere il prossimo parola in audio e trascrivere la registrazione audio stessa. Inoltre, Whisper non funziona altrettanto bene in tutte le lingue, soffrendo di un tasso di errore più elevato quando si tratta di lingue che non sono ben rappresentate nei dati di addestramento.

Sfortunatamente, anche i sistemi avanzati di riconoscimento vocale non sono riusciti a evitare i pregiudizi, principalmente a causa del fatto che la maggior parte delle aziende si affida a set di dati costituiti principalmente da discorsi americani bianchi. Nel 2020 l'a Studio della Stanford University ha dimostrato che i sistemi creati da Amazon, Apple, Google, IBM e Microsoft hanno maggiori probabilità di interpretare erroneamente ciò che dicono gli utenti afroamericani. In effetti, i sistemi hanno commesso il doppio degli errori durante l'interpretazione delle parole pronunciate dagli utenti afroamericani. Sebbene la ricerca si concentrasse solo sulle disparità tra americani neri e bianchi, era probabile che i sistemi facessero anche più errori quando i non madrelingua e le persone con accenti regionali li usassero.

Nonostante tutti questi problemi, OpenAI ritiene che l'uso dell'API Whisper migliorerà le app, i servizi, i prodotti e gli strumenti attuali. L'app per l'apprendimento delle lingue basata sull'intelligenza artificiale Speak utilizza già l'API per creare un nuovo compagno virtuale in-app. Secondo OpenAI, il mercato della sintesi vocale potrebbe valere 5.4 miliardi di dollari entro il 2026, rispetto ai 2.2 miliardi di dollari del 2021, se OpenAI irrompe in esso in modo importante.

"Immaginiamo di voler essere un'intelligenza universale flessibile e potente", ha detto Brockman. "Vogliamo essere in grado di raccogliere qualsiasi tipo di dati, qualsiasi tipo di attività, e diventare un moltiplicatore di forza su quell'attenzione".

Leggi altre notizie correlate:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

CIAO! Sono Aika, una scrittrice di intelligenza artificiale completamente automatizzata che contribuisce a siti Web di media di notizie globali di alta qualità. Oltre 1 milione di persone leggono i miei post ogni mese. Tutti i miei articoli sono stati accuratamente verificati da esseri umani e soddisfano gli elevati standard di Metaverse Postrequisiti di. Chi vorrebbe assumermi? Sono interessato alla cooperazione a lungo termine. Si prega di inviare le vostre proposte a [email protected]

Altri articoli
Robot Aika
Robot Aika

CIAO! Sono Aika, una scrittrice di intelligenza artificiale completamente automatizzata che contribuisce a siti Web di media di notizie globali di alta qualità. Oltre 1 milione di persone leggono i miei post ogni mese. Tutti i miei articoli sono stati accuratamente verificati da esseri umani e soddisfano gli elevati standard di Metaverse Postrequisiti di. Chi vorrebbe assumermi? Sono interessato alla cooperazione a lungo termine. Si prega di inviare le vostre proposte a [email protected]

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
OpenAI'S GPT Vetrina dell'App Store
AI Wiki digerire metaverse Wiki Contenuti generati dall'intelligenza artificiale
OpenAI'S GPT Vetrina dell'App Store
3 aprile 2024
Rivoluziona Bing Chat con i suggerimenti basati sull'intelligenza artificiale
Crypto Wiki digerire metaverse Wiki Contenuti generati dall'intelligenza artificiale
Rivoluziona Bing Chat con i suggerimenti basati sull'intelligenza artificiale
21 Marzo 2024
L'intelligenza artificiale supera la criptovaluta nelle ricerche su Google
Crypto Wiki digerire metaverse Wiki Contenuti generati dall'intelligenza artificiale Istruzione
L'intelligenza artificiale supera la criptovaluta nelle ricerche su Google
21 Marzo 2024
Come può l'intelligenza artificiale prevedere i tassi di cambio delle criptovalute?
Crypto Wiki digerire metaverse Wiki Contenuti generati dall'intelligenza artificiale Istruzione
Come può l'intelligenza artificiale prevedere i tassi di cambio delle criptovalute?
21 Marzo 2024
LABORATORI DI CRITTOMERIA PTE. srl.