Desembre 26, 2023

Model d'IA de text a veu

Publicat: 26 de desembre de 2023 a les 10:57 Actualitzat: 26 de desembre de 2023 a les 10:57

Què és el model d'IA de text a veu?

El text a veu (TTS) que produeix veu natural i d'alta qualitat a partir de text amb una latència baixa ha estat un problema durant molts anys. Originalment, va ser dissenyat per fer audible el text escrit per a aquells que tenen discapacitats lectores o tenen problemes per llegir. La tecnologia de text a veu s'està utilitzant en moltes situacions diferents on la lectura no és pràctica o on abans es necessitaven operadors humans. Aquests inclouen operar assistents virtuals, xatejar amb consumidors en un centre de contacte i donar instruccions de conducció. Els sistemes més populars empraven el muntatge en temps real de segments de veu pregravats. Les xarxes neuronals s'han utilitzat més recentment per produir un discurs totalment generat per màquina que soni natural.

connex: Els 7 millors generadors de veu d'IA i clonació de veu per a text a veu

Comprensió del model d'IA de text a veu

Gairebé tots els dispositius digitals personals, com ara ordinadors, telèfons mòbils i tauletes, són compatibles amb TTS. És possible llegir en veu alta qualsevol tipus de fitxer de text, inclosos documents de Word i Pages. Les pàgines web fins i tot es poden llegir en veu alta en línia. TTS llegeix en veu alta mitjançant un ordinador i permet al lector triar la velocitat a la qual llegeix. Tot i que les veus varien en qualitat, algunes tenen un to humà. Fins i tot els sons produïts per ordinadors poden imitar la parla dels nens petits.

Una característica de diverses tecnologies TTS és el reconeixement òptic de caràcters (OCR). Els programes TTS poden llegir en veu alta el text de les fotos gràcies a l'OCR. Un nen pot, per exemple, fer una foto d'un senyal de carrer i fer que el text es transcrigui a veu.

Tipus d'eines de text a veu

Text a veu incorporat: molts gadgets vénen amb eines TTS preinstal·lades. Això inclou Chrome, tauletes digitals, telèfons intel·ligents i ordinadors de sobretaula i portàtils.
Aplicacions de text a veu: Les aplicacions TTS també es poden descarregar en tauletes digitals i telèfons intel·ligents. Aquests programes solen incloure capacitats úniques com ara OCR i ressaltat de text multicolor. Claro ScanPen, Voice Dream Reader i Office Lens en són alguns exemples.
Eines de Chrome: Una plataforma relativament recent amb diverses eines TTS és Chrome. Read&Write per a Google Chrome i Snap&Read Universal són dos d'ells. Aquestes eines són compatibles amb Chromebook i qualsevol altre ordinador amb Chrome.

El text a veu està fent una incursió constant en àrees d'IA conversacionals com la traducció d'idiomes, que inclouen el reconeixement automàtic de la veu (ASR) i el processament del llenguatge natural (NLP). La tecnologia de reconeixement de veu està trobant una aplicació creixent en l'atenció al client, on pot entendre preguntes difícils, buscar respostes en una base de dades i proporcionar respostes de text a veu. En aquests dies, els telemàrquetings utilitzen aquests sistemes per canviar les persones que trucen per robots de conversa, que són capaços de tenir converses realistes en la mesura que no es requereix un operador.

connex: Els 10 millors generadors de podcasts d'IA que us ajudaran a destacar entre la multitud

Últimes notícies sobre el model d'IA de text a veu

La caixa de veu de Meta és una eina d'IA generativa de veu que pot transformar el text en un discurs realista i expressiu. Destaca en tasques com l'eliminació de sorolls, la síntesi de text a veu i la transferència d'estils multilingües. El model d'IA funciona a un ritme 20 vegades més ràpid i s'ha sotmès a un ampli entrenament mitjançant un conjunt de dades de més de 50,000 hores d'àudio sense filtrar. Tanmateix, Voicebox planteja reptes ètics i socials, especialment en el context de les falsificacions profundes.
El VALL-E de Microsoft és un model TTS basat en transformadors que pot generar veu en qualsevol veu després d'escoltar una mostra de tres segons, una millora significativa respecte als models anteriors. Aquest model basat en transformadors té el potencial de canviar la manera com interactuem amb els mitjans digitals i fer que els sistemes TTS sonin més naturals. El model, que té un aspecte de Dale-1, s'ha llançat amb cert escepticisme a causa de la seva manca de codi i una possible naturalesa d'estafa.
ElevenLabs ha llançat un programa de subvencions per a empreses B2C i B2B en fase inicial per integrar veus d'IA semblants a les humanes als seus projectes. El programa concedeix 4,000 subvencions, desbloquejant 33 milions de caràcters de text durant tres mesos. L'objectiu és oferir més de 100 milions de text a veu i personatges d'IA de doblatge a plataformes emergents sense cap cost.

Vaig convertir els locutors d'IA de THE FINALS en text a veu per al meu flux i els resultats són horripilants. pic.twitter.com/ZGuVosJmxH
— Blurbs (@Blurbstv) Desembre 22, 2023

🎬 Un mar d'inspiració sense fi

Avui en dia, @runwayml va llançar el text a veu per a tothom! Vaig crear un curtmetratge ràpid amb GEN-2 i la nova funció de parla!

Òbviament, sona! 🔊 pic.twitter.com/RyCQF9zGjC
— Nicolas Neubert (@iamneubert) Desembre 19, 2023

Tots els bons projectes d'IA de codi obert per a la conversió de text a veu i de veu a veu els fan Weebs xinesos
— yifei e/λ (@yifever) Desembre 20, 2023

« Tornar a l'índex del glossari

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Viktoriia és escriptora sobre diversos temes tecnològics, com ara Web3.0, IA i criptomonedes. La seva àmplia experiència li permet escriure articles per a un públic més ampli.

més articles

Viktoria Palchik

Viktoriia és escriptora sobre diversos temes tecnològics, com ara Web3.0, IA i criptomonedes. La seva àmplia experiència li permet escriure articles per a un públic més ampli.