Raport aktualności Technologia
08 stycznia 2023 r.

VALL-E: nowy model zamiany tekstu na mowę firmy Microsoft, który może zduplikować głos każdego w trzy sekundy

W skrócie

Z zaledwie trzysekundową próbką dowolnego głosu, model TTS oparty na transformatorze VALL-E potrafi wytworzyć mowę każdym głosem.

To znaczący postęp w kierunku bardziej naturalnie brzmiących systemów TTS.

Microsoft dostarczył jednak kilka próbek używanego modelu i jest oczywiste, że stanowi to znaczący postęp w technologii TTS.

Od czasu wypuszczenia pierwszego modelu zamiany tekstu na mowę (TTS) naukowcy szukali sposobów na udoskonalenie sposobu generowania mowy przez te systemy. Najnowszy model firmy Microsoft, DOLINA, jest znaczącym krokiem naprzód w tym zakresie.

VALL-E to oparty na transformatorze model TTS, który może generować mowę dowolnym głosem po wysłuchaniu zaledwie trzysekundowej próbki tego głosu. Jest to znacząca poprawa w stosunku do poprzednich modeli, które wymagały znacznie dłuższego okresu szkolenia w celu wygenerowania nowego głosu.

VALL-E: nowy model zamiany tekstu na mowę firmy Microsoft, który może zduplikować głos każdego w trzy sekundy
VALL-E to niesamowite osiągnięcie technologiczne, które może zmienić sposób, w jaki współdziałamy z mediami cyfrowymi.
Podobne artykuły: Firma Microsoft wydała model rozpowszechniania, który umożliwia zbudowanie awatara 3D z pojedynczego zdjęcia osoby

Ponadto intonacja, charyzma i styl głosu pozostają nienaruszone w generowanej mowie. Jest to ważny krok naprzód w uczynieniu systemów TTS brzmiącymi bardziej naturalnie.

VALL-E: nowy model zamiany tekstu na mowę firmy Microsoft, który może zduplikować głos każdego w trzy sekundy

Ten model jest oparty na transformatorze i ma wygląd Dale-1. Nie mylić z opartym na dyfuzji Dalle-2. Nadal brakuje kodu. A użytkownicy mają pewien sceptycyzm, czy go opublikują.

Podobne artykuły: VALL-E firmy Microsoft wydaje się być najbardziej niebezpiecznym oprogramowaniem oszustwa, jakie kiedykolwiek powstało

Jednak Microsoft udostępnił kilka przykładów modelu w akcji i jasne jest, że jest to duży postęp w technologii TTS.

Przykład # 1:

Przykład #2:

Przykład # 3:

Przeczytaj więcej o sztucznej inteligencji:

Zastrzeżenie

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Hot Stories
Dołącz do naszego newslettera.
Najnowsze wiadomości

Cisza przed sztormem Solana: co mówią teraz wykresy, wieloryby i sygnały łańcuchowe

Solana wykazała się solidnymi wynikami, na co wpływ miał rosnący popyt, zainteresowanie instytucji i kluczowe partnerstwa, mimo iż musiała stawić czoła potencjalnym...

Dowiedz się więcej

Krypto w kwietniu 2025: Kluczowe trendy, zmiany i co dalej

W kwietniu 2025 r. przestrzeń kryptowalutowa skupiła się na wzmocnieniu podstawowej infrastruktury, a Ethereum przygotowywało się na Pectra ...

Dowiedz się więcej
Czytaj więcej
Przeczytaj więcej
Leading AI Firms Agree To Fund Electricity And Infrastructure Under White House ‘Ratepayer Protection’ Initiative
Business Raport aktualności Technologia
Leading AI Firms Agree To Fund Electricity And Infrastructure Under White House ‘Ratepayer Protection’ Initiative
5 marca 2026 r.
Zdecentralizowana inteligencja: jak agenci AI i Web3 Zmieniają kształt Internetu
Sezony hackowania Opinia Styl życia Technologia
Zdecentralizowana inteligencja: jak agenci AI i Web3 Zmieniają kształt Internetu
5 marca 2026 r.
Alexander Linton o przyszłości komunikacji DePIN: Dlaczego rzeczywiste wykorzystanie będzie Define Sukces
Wywiad Technologia
Alexander Linton o przyszłości komunikacji DePIN: Dlaczego rzeczywiste wykorzystanie będzie Define Sukces
5 marca 2026 r.
Chainlink umożliwia regulowanie rozliczeń transgranicznych dla Visa, ANZ, Fidelity i China AMC w ramach programu HKMA e-HKD
Business Raport aktualności Technologia
Chainlink umożliwia regulowanie rozliczeń transgranicznych dla Visa, ANZ, Fidelity i China AMC w ramach programu HKMA e-HKD
5 marca 2026 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.