Raport aktualności Technologia
08 stycznia 2023 r.

VALL-E: nowy model zamiany tekstu na mowę firmy Microsoft, który może zduplikować głos każdego w trzy sekundy

W skrócie

Z zaledwie trzysekundową próbką dowolnego głosu, model TTS oparty na transformatorze VALL-E potrafi wytworzyć mowę każdym głosem.

To znaczący postęp w kierunku bardziej naturalnie brzmiących systemów TTS.

Microsoft dostarczył jednak kilka próbek używanego modelu i jest oczywiste, że stanowi to znaczący postęp w technologii TTS.

Od czasu wypuszczenia pierwszego modelu zamiany tekstu na mowę (TTS) naukowcy szukali sposobów na udoskonalenie sposobu generowania mowy przez te systemy. Najnowszy model firmy Microsoft, DOLINA, jest znaczącym krokiem naprzód w tym zakresie.

VALL-E to oparty na transformatorze model TTS, który może generować mowę dowolnym głosem po wysłuchaniu zaledwie trzysekundowej próbki tego głosu. Jest to znacząca poprawa w stosunku do poprzednich modeli, które wymagały znacznie dłuższego okresu szkolenia w celu wygenerowania nowego głosu.

VALL-E to niesamowite osiągnięcie technologiczne, które może zmienić sposób, w jaki wchodzimy w interakcje z mediami cyfrowymi.
Podobne artykuły: Firma Microsoft wydała model rozpowszechniania, który umożliwia zbudowanie awatara 3D z pojedynczego zdjęcia osoby

Ponadto intonacja, charyzma i styl głosu pozostają nienaruszone w generowanej mowie. Jest to ważny krok naprzód w uczynieniu systemów TTS brzmiącymi bardziej naturalnie.

Ten model jest oparty na transformatorze i ma wygląd Dale-1. Nie mylić z opartym na dyfuzji Dalle-2. Nadal brakuje kodu. A użytkownicy mają pewien sceptycyzm, czy go opublikują.

Podobne artykuły: VALL-E firmy Microsoft wydaje się być najbardziej niebezpiecznym oprogramowaniem oszustwa, jakie kiedykolwiek powstało

Jednak Microsoft udostępnił kilka przykładów modelu w akcji i jasne jest, że jest to duży postęp w technologii TTS.

Przykład # 1:

Przykład #2:

Przykład # 3:

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
Biznes Raport aktualności Technologia
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
3 maja 2024 r.
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
rynki Raport aktualności Technologia
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
3 maja 2024 r.
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
rynki Raport aktualności Technologia
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
3 maja 2024 r.
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
Biznes Raport aktualności Technologia
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
3 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.