Raport aktualności Technologia
03 stycznia 2024 r.

AI Startup MyShell udostępnia algorytm OpenVoice do precyzyjnego klonowania głosu

W skrócie

Kanadyjski startup MyShell zajmujący się sztuczną inteligencją ogłosił, że udostępnił na zasadach open source swój algorytm OpenVoice do natychmiastowego klonowania głosu.

AI Startup MyShell udostępnia algorytm OpenVoice do precyzyjnego klonowania głosu

Respeecher, Voicemod i Jedenaście laboratoriów – wszystkie trzy startupy łączy jedno – wszystkie dostarczają algorytmy i oprogramowanie AI do tworzenia klonów głosu. Teraz nowy gracz, kanadyjski startup AI Mój Shell ogłosił, że udostępnił swój algorytm OpenVoice na zasadach open source do natychmiastowego klonowania głosu.

MyShell udostępnił aktualizację w dniu platforma mediów społecznościowych X i powiedział: „Klonuj głosy z niezrównaną precyzją, ze szczegółową kontrolą tonu, od emocji po akcent, rytm, pauzy i intonację, za pomocą zaledwie małego klipu audio”.

W ramach współpracy naukowcy z MIT, MyShell.ai i Uniwersytetu Tsinghua zaprezentowali OpenVoice, który może replikować głos mówiącego i generować mowę w wiele języków, używając jedynie krótkiego fragmentu audio z oryginalnego źródła. Oddaje także unikalny ton i kolor głosu mówiącego.

Według firmy algorytm dodaje kluczowe elementy stylistyczne, takie jak emocje, akcent, rytm, pauzy i intonacja. Elementy te są kluczowe dla nadania mowy realności i tworzenia ciekawych rozmów. Pomaga uniknąć nudnego dźwięku, który często pojawia się w przypadku zwykłego zamiany tekstu na mowę.

Jak działa model AI klonujący głos

W Referat naukowy, OpenVoice podzielił się metodologią stojącą za sztuczną inteligencją do klonowania głosu. OpenVoice składa się z dwóch odrębnych Modele AI: model zamiany tekstu na mowę (TTS) i „konwerter tonów”.

Modelka potrafi zarządzać parametrami stylu i językami, przeszła „szkolenie z wykorzystaniem 30,000 XNUMX zdań” z języka angielskiego (z akcentami amerykańskimi i brytyjskimi), chińskiego i japońskiego. Szkolenie polegało na etykietowaniu próbek na podstawie wyrażanych emocji, a modelka uczyła się intonacji, rytmu i pauz z tych klipów audio.

Z drugiej strony model konwertera tonów został przeszkolony na ogromnym zbiorze danych obejmującym ponad 300,000 20,000 próbek audio z ponad XNUMX XNUMX różnych głośników. W obu przypadkach dźwięk mowy ludzkiej został przekształcony w fonemy – specyficzne dźwięki odróżniające słowa – i przedstawiony za pomocą osadzania wektorów.

Model TTS wykorzystujący „głośnik podstawowy” łączy się z dźwiękiem uzyskanym z dźwięku nagranego przez użytkownika w procesie szkolenia. Razem te dwa modele mogą odwzorowywać głos użytkownika i modyfikować kolor tonu – ekspresję emocjonalną przekazywaną w mówionym tekście.

Startup powstał w 2023 roku. W zeszłym roku MyShell pod przewodnictwem INCE Capital zebrał 5.6 miliona dolarów w ramach finansowania zalążkowego, a w projekcie uczestniczyli między innymi wybitni inwestorzy, tacy jak Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC i OP Crypto.

Według spółki dofinansowanie pomoże w rozwoju własności Modele AI, utworzenie Studia twórców dostosowanego do aplikacji natywnych AI oraz utworzenie tętniącego życiem ekosystemu twórców w dziedzinie technologii blockchain.

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Kumar jest doświadczonym dziennikarzem technicznym ze specjalizacją w dynamicznych skrzyżowaniach AI/ML, technologii marketingowej i nowych dziedzin, takich jak kryptowaluty, blockchain i NFTS. Dzięki ponad 3-letniemu doświadczeniu w branży Kumar zdobył udokumentowane doświadczenie w tworzeniu fascynujących narracji, przeprowadzaniu wnikliwych wywiadów i dostarczaniu kompleksowych spostrzeżeń. Doświadczenie Kumara polega na tworzeniu treści o dużym wpływie, w tym artykułów, raportów i publikacji badawczych dla czołowych platform branżowych. Dzięki unikalnemu zestawowi umiejętności, który łączy wiedzę techniczną i opowiadanie historii, Kumar przoduje w przekazywaniu złożonych koncepcji technologicznych różnym odbiorcom w jasny i wciągający sposób.

Więcej artykułów
Kumara Gandharva
Kumara Gandharva

Kumar jest doświadczonym dziennikarzem technicznym ze specjalizacją w dynamicznych skrzyżowaniach AI/ML, technologii marketingowej i nowych dziedzin, takich jak kryptowaluty, blockchain i NFTS. Dzięki ponad 3-letniemu doświadczeniu w branży Kumar zdobył udokumentowane doświadczenie w tworzeniu fascynujących narracji, przeprowadzaniu wnikliwych wywiadów i dostarczaniu kompleksowych spostrzeżeń. Doświadczenie Kumara polega na tworzeniu treści o dużym wpływie, w tym artykułów, raportów i publikacji badawczych dla czołowych platform branżowych. Dzięki unikalnemu zestawowi umiejętności, który łączy wiedzę techniczną i opowiadanie historii, Kumar przoduje w przekazywaniu złożonych koncepcji technologicznych różnym odbiorcom w jasny i wciągający sposób.

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
NuLink uruchamia się na Bybit Web3 Platforma IDO. Faza subskrypcji trwa do 13 maja
rynki Raport aktualności Technologia
NuLink uruchamia się na Bybit Web3 Platforma IDO. Faza subskrypcji trwa do 13 maja
9 maja 2024 r.
UXLINK i Binance współpracują przy nowej kampanii, oferując użytkownikom 20 milionów punktów UXUY i Airdrop Nagrody
rynki Raport aktualności Technologia
UXLINK i Binance współpracują przy nowej kampanii, oferując użytkownikom 20 milionów punktów UXUY i Airdrop Nagrody
9 maja 2024 r.
Side Protocol uruchamia motywacyjną sieć testową i wprowadza system punktów Insider, umożliwiający użytkownikom zdobywanie punktów SIDE
rynki Raport aktualności Technologia
Side Protocol uruchamia motywacyjną sieć testową i wprowadza system punktów Insider, umożliwiający użytkownikom zdobywanie punktów SIDE
9 maja 2024 r.
Web3 i Crypto Events w maju 2024 r.: Odkrywanie nowych technologii i pojawiających się trendów w Blockchain i DeFi
Digest Biznes rynki Technologia
Web3 i Crypto Events w maju 2024 r.: Odkrywanie nowych technologii i pojawiających się trendów w Blockchain i DeFi
9 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.