VALL-E: nowy model zamiany tekstu na mowę firmy Microsoft, który może zduplikować głos każdego w trzy sekundy
W skrócie
Z zaledwie trzysekundową próbką dowolnego głosu, model TTS oparty na transformatorze VALL-E potrafi wytworzyć mowę każdym głosem.
To znaczący postęp w kierunku bardziej naturalnie brzmiących systemów TTS.
Microsoft dostarczył jednak kilka próbek używanego modelu i jest oczywiste, że stanowi to znaczący postęp w technologii TTS.
Od czasu wypuszczenia pierwszego modelu zamiany tekstu na mowę (TTS) naukowcy szukali sposobów na udoskonalenie sposobu generowania mowy przez te systemy. Najnowszy model firmy Microsoft, DOLINA, jest znaczącym krokiem naprzód w tym zakresie.
VALL-E to oparty na transformatorze model TTS, który może generować mowę dowolnym głosem po wysłuchaniu zaledwie trzysekundowej próbki tego głosu. Jest to znacząca poprawa w stosunku do poprzednich modeli, które wymagały znacznie dłuższego okresu szkolenia w celu wygenerowania nowego głosu.
Podobne artykuły: Firma Microsoft wydała model rozpowszechniania, który umożliwia zbudowanie awatara 3D z pojedynczego zdjęcia osoby |
Ponadto intonacja, charyzma i styl głosu pozostają nienaruszone w generowanej mowie. Jest to ważny krok naprzód w uczynieniu systemów TTS brzmiącymi bardziej naturalnie.
Ten model jest oparty na transformatorze i ma wygląd Dale-1. Nie mylić z opartym na dyfuzji Dalle-2. Nadal brakuje kodu. A użytkownicy mają pewien sceptycyzm, czy go opublikują.
Podobne artykuły: VALL-E firmy Microsoft wydaje się być najbardziej niebezpiecznym oprogramowaniem oszustwa, jakie kiedykolwiek powstało |
Jednak Microsoft udostępnił kilka przykładów modelu w akcji i jasne jest, że jest to duży postęp w technologii TTS.
Przykład # 1:
Przykład #2:
Przykład # 3:
Przeczytaj więcej o sztucznej inteligencji:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.