Gruodis 26, 2023

Teksto į kalbą AI modelis

Paskelbta: 26 m. gruodžio 2023 d., 10 val. Atnaujinta: 57 m. gruodžio 26 d., 2023 val.

Kas yra teksto į kalbą AI modelis?

Tekstas į kalbą (TTS), leidžiantis sukurti natūraliai skambantį aukštos kokybės balsą iš teksto su mažu delsimu, buvo problema daugelį metų. Iš pradžių jis buvo sukurtas taip, kad rašytinis tekstas būtų girdimas tiems, kurie turi skaitymo sutrikimų arba turi skaitymo problemų. Teksto į kalbą technologija naudojama daugelyje skirtingų situacijų, kai skaityti nepraktiška arba kai anksčiau reikėjo žmonių. Tai apima virtualių asistentų valdymą, pokalbį su vartotojais kontaktų centre ir vairavimo instrukcijų davimą. Populiariausiose sistemose buvo realaus laiko surinkti iš anksto įrašyti balso segmentai. Neuroniniai tinklai pastaruoju metu buvo naudojami gaminant visiškai mašinų sukurtą kalbą, kuri skamba natūraliai.

Susijęs: 7 populiariausi AI balso generatoriai ir balso klonavimas, skirtas teksto į kalbą funkcijai

Teksto į kalbą AI modelio supratimas

Beveik visi asmeniniai skaitmeniniai įrenginiai, tokie kaip kompiuteriai, mobilieji telefonai ir planšetiniai kompiuteriai, yra suderinami su TTS. Galima garsiai skaityti bet kokio tipo tekstinius failus, įskaitant Word ir Pages dokumentus. Interneto puslapius galima net garsiai skaityti internete. TTS garsiai skaito kompiuteriu ir leidžia skaitytojui pasirinkti skaitymo greitį. Nors balsų kokybė skiriasi, kai kurie iš jų turi žmogišką toną. Net kompiuterių skleidžiami garsai gali imituoti mažų vaikų kalbą.

Kai kurių TTS technologijų ypatybė yra optinis simbolių atpažinimas (OCR). OCR dėka TTS programos gali garsiai perskaityti tekstą iš nuotraukų. Pavyzdžiui, vaikas gali nufotografuoti gatvės ženklą ir perrašyti tekstą balsu.

Teksto į kalbą įrankių tipai

Integruotas tekstas į kalbą: Daugelyje programėlių yra iš anksto įdiegti TTS įrankiai. Tai apima „Chrome“, skaitmeninius planšetinius kompiuterius, išmaniuosius telefonus ir stalinius bei nešiojamuosius kompiuterius.
Teksto į kalbą programos: TTS programas taip pat galima atsisiųsti skaitmeniniuose planšetiniuose kompiuteriuose ir išmaniuosiuose telefonuose. Šios programos dažnai turi unikalių funkcijų, tokių kaip OCR ir įvairiaspalvio teksto paryškinimas. „Claro ScanPen“, „Voice Dream Reader“ ir „Office Lens“ yra keli pavyzdžiai.
„Chrome“ įrankiai: Palyginti neseniai sukurta platforma su keliais TTS įrankiais yra „Chrome“. „Google Chrome“ skaitymas ir rašymas ir „Snap&Read Universal“ yra du iš jų. Šie įrankiai suderinami su „Chromebook“ ir bet kuriuo kitu kompiuteriu, kuriame veikia „Chrome“.

Tekstas į kalbą nuolat žengia į pokalbio AI sritis, tokias kaip kalbos vertimas, kuris apima automatinį kalbos atpažinimą (ASR) ir natūralios kalbos apdorojimą (NLP). Kalbos atpažinimo technologija vis labiau pritaikoma klientų aptarnavimo srityje, kur ji gali suprasti sudėtingus klausimus, ieškoti atsakymų duomenų bazėje ir pateikti teksto į kalbą atsakymus. Šiomis dienomis telerinkodaros specialistai naudoja šias sistemas, kad iškeistų skambinančius žmones į pokalbio robotus, kurie gali palaikyti realistiškus pokalbius tiek, kiek nereikia operatoriaus.

Susijęs: 10 geriausių AI podcast generatorių, kurie padės išsiskirti iš minios

Paskutinės naujienos apie teksto į kalbą AI modelį

„Meta's Voicebox“ yra generatyvus kalbos AI įrankis, galintis paversti tekstą tikroviška ir išraiškinga kalba. Jis puikiai tinka tokioms užduotims kaip triukšmo šalinimas, teksto į kalbą sintezė ir kelių kalbų stiliaus perkėlimas. Dirbtinio intelekto modelis veikia 20 kartų greičiau ir buvo kruopščiai apmokytas naudojant daugiau nei 50,000 XNUMX valandų nefiltruoto garso duomenų rinkinį. Tačiau „Voicebox“ kelia etinių ir socialinių iššūkių, ypač gilių klastotės kontekste.
„Microsoft“ VALL-E yra transformatoriumi pagrįstas TTS modelis, kuris gali generuoti kalbą bet kokiu balsu, išgirdęs trijų sekundžių pavyzdį, o tai yra reikšmingas patobulinimas, palyginti su ankstesniais modeliais. Šis transformatoriumi pagrįstas modelis gali pakeisti mūsų sąveiką su skaitmenine laikmena ir padaryti TTS sistemas natūraliau. Modelis, turintis „Dale-1“ išvaizdą, buvo išleistas skeptiškai dėl kodo trūkumo ir galimo sukčiavimo pobūdžio.
ElevenLabs pradėjo Grants programą, skirtą ankstyvosios stadijos B2C ir B2B įmonėms, kad į savo projektus integruotų į žmones panašius AI balsus. Programa suteikia 4,000 dotacijų, atrakinant 33 milijonus teksto simbolių trims mėnesiams. Tikslas yra nemokamai pateikti daugiau nei 100 milijardų teksto į kalbą ir AI dubliavimo simbolių naujoms platformoms.

Paverčiau DI pranešėjus iš FINALŲ į tekstą į kalbą savo sraute, o rezultatai yra siaubingi. pic.twitter.com/ZGuVosJmxH
– Blurbs (@Blurbstv) Gruodis 22, 2023

🎬 Begalinė įkvėpimo jūra

šiandien @runwayml Išleista teksto į kalbą funkcija visiems! Sukūriau greitą trumpą filmą naudodamas GEN-2 ir naują kalbos funkciją!

Aišku, garsas! 🔊 pic.twitter.com/RyCQF9zGjC
- Nicolas Neubert (@iamneubert) Gruodis 19, 2023

Visus gerus atvirojo kodo AI projektus, skirtus teksto į kalbą ir kalbos pakeitimui į kalbą, atlieka kinų tinklalapiai.
— yifei e/λ (@yifever) Gruodis 20, 2023

«Grįžti į žodynėlio rodyklę

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Viktoriia yra rašytoja įvairiomis technologijų temomis, įskaitant Web3.0, AI ir kriptovaliutos. Didelė patirtis leidžia jai rašyti įžvalgius straipsnius platesnei auditorijai.

Daugiau straipsnių

Viktorija Palčik

Viktoriia yra rašytoja įvairiomis technologijų temomis, įskaitant Web3.0, AI ir kriptovaliutos. Didelė patirtis leidžia jai rašyti įžvalgius straipsnius platesnei auditorijai.