Raport aktualności Technologia
08 stycznia 2023 r.

VALL-E: nowy model zamiany tekstu na mowę firmy Microsoft, który może zduplikować głos każdego w trzy sekundy

W skrócie

Z zaledwie trzysekundową próbką dowolnego głosu, model TTS oparty na transformatorze VALL-E potrafi wytworzyć mowę każdym głosem.

To znaczący postęp w kierunku bardziej naturalnie brzmiących systemów TTS.

Microsoft dostarczył jednak kilka próbek używanego modelu i jest oczywiste, że stanowi to znaczący postęp w technologii TTS.

Od czasu wypuszczenia pierwszego modelu zamiany tekstu na mowę (TTS) naukowcy szukali sposobów na udoskonalenie sposobu generowania mowy przez te systemy. Najnowszy model firmy Microsoft, DOLINA, jest znaczącym krokiem naprzód w tym zakresie.

VALL-E to oparty na transformatorze model TTS, który może generować mowę dowolnym głosem po wysłuchaniu zaledwie trzysekundowej próbki tego głosu. Jest to znacząca poprawa w stosunku do poprzednich modeli, które wymagały znacznie dłuższego okresu szkolenia w celu wygenerowania nowego głosu.

VALL-E to niesamowite osiągnięcie technologiczne, które może zmienić sposób, w jaki wchodzimy w interakcje z mediami cyfrowymi.
Podobne artykuły: Firma Microsoft wydała model rozpowszechniania, który umożliwia zbudowanie awatara 3D z pojedynczego zdjęcia osoby

Ponadto intonacja, charyzma i styl głosu pozostają nienaruszone w generowanej mowie. Jest to ważny krok naprzód w uczynieniu systemów TTS brzmiącymi bardziej naturalnie.

Ten model jest oparty na transformatorze i ma wygląd Dale-1. Nie mylić z opartym na dyfuzji Dalle-2. Nadal brakuje kodu. A użytkownicy mają pewien sceptycyzm, czy go opublikują.

Podobne artykuły: VALL-E firmy Microsoft wydaje się być najbardziej niebezpiecznym oprogramowaniem oszustwa, jakie kiedykolwiek powstało

Jednak Microsoft udostępnił kilka przykładów modelu w akcji i jasne jest, że jest to duży postęp w technologii TTS.

Przykład # 1:

Przykład #2:

Przykład # 3:

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej

Założyciele portfela Samourai oskarżeni o ułatwianie transakcji o wartości 2 miliardów dolarów w Darknet

Zaniepokojenie założycieli Samourai Wallet stanowi wyraźną porażkę dla branży, podkreślając utrzymujące się...

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Med-Gemini firmy Google gotowy dać przewagę GPT-4 Dzięki doskonałej wydajności w opiece zdrowotnej
AI Wiki Aktualności Tworzenie Technologia
Med-Gemini firmy Google gotowy dać przewagę GPT-4 Dzięki doskonałej wydajności w opiece zdrowotnej
2 maja 2024 r.
Członek Rady Legislacyjnej Hongkongu Wu Jiezhuang sygnalizuje pozew cywilny przeciwko giełdzie kryptowalut JPEX
Biznes Raport aktualności Technologia
Członek Rady Legislacyjnej Hongkongu Wu Jiezhuang sygnalizuje pozew cywilny przeciwko giełdzie kryptowalut JPEX
2 maja 2024 r.
AltLayer wchodzi w drugą fazę swojej inicjatywy stakingowej, wprowadza token realALT
rynki Raport aktualności Technologia
AltLayer wchodzi w drugą fazę swojej inicjatywy stakingowej, wprowadza token realALT
2 maja 2024 r.
Sieć BNB publikuje raport za pierwszy kwartał 1 r., w którym podkreśla redukcję utraty wartości o 2024%, podczas gdy BSC TVL rośnie o 55.8%
rynki Raport aktualności Technologia
Sieć BNB publikuje raport za pierwszy kwartał 1 r., w którym podkreśla redukcję utraty wartości o 2024%, podczas gdy BSC TVL rośnie o 55.8%
2 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.