AI Startup MyShell udostępnia algorytm OpenVoice do precyzyjnego klonowania głosu
W skrócie
Kanadyjski startup MyShell zajmujący się sztuczną inteligencją ogłosił, że udostępnił na zasadach open source swój algorytm OpenVoice do natychmiastowego klonowania głosu.
Respeecher, Voicemod i Jedenaście laboratoriów – wszystkie trzy startupy łączy jedno – wszystkie dostarczają algorytmy i oprogramowanie AI do tworzenia klonów głosu. Teraz nowy gracz, kanadyjski startup AI Mój Shell ogłosił, że udostępnił swój algorytm OpenVoice na zasadach open source do natychmiastowego klonowania głosu.
MyShell udostępnił aktualizację w dniu platforma mediów społecznościowych X i powiedział: „Klonuj głosy z niezrównaną precyzją, ze szczegółową kontrolą tonu, od emocji po akcent, rytm, pauzy i intonację, za pomocą zaledwie małego klipu audio”.
W ramach współpracy naukowcy z MIT, MyShell.ai i Uniwersytetu Tsinghua zaprezentowali OpenVoice, który może replikować głos mówiącego i generować mowę w wiele języków, używając jedynie krótkiego fragmentu audio z oryginalnego źródła. Oddaje także unikalny ton i kolor głosu mówiącego.
Według firmy algorytm dodaje kluczowe elementy stylistyczne, takie jak emocje, akcent, rytm, pauzy i intonacja. Elementy te są kluczowe dla nadania mowy realności i tworzenia ciekawych rozmów. Pomaga uniknąć nudnego dźwięku, który często pojawia się w przypadku zwykłego zamiany tekstu na mowę.
Jak działa model AI klonujący głos
W Referat naukowy, OpenVoice podzielił się metodologią stojącą za sztuczną inteligencją do klonowania głosu. OpenVoice składa się z dwóch odrębnych Modele AI: model zamiany tekstu na mowę (TTS) i „konwerter tonów”.
Modelka potrafi zarządzać parametrami stylu i językami, przeszła „szkolenie z wykorzystaniem 30,000 XNUMX zdań” z języka angielskiego (z akcentami amerykańskimi i brytyjskimi), chińskiego i japońskiego. Szkolenie polegało na etykietowaniu próbek na podstawie wyrażanych emocji, a modelka uczyła się intonacji, rytmu i pauz z tych klipów audio.
Z drugiej strony model konwertera tonów został przeszkolony na ogromnym zbiorze danych obejmującym ponad 300,000 20,000 próbek audio z ponad XNUMX XNUMX różnych głośników. W obu przypadkach dźwięk mowy ludzkiej został przekształcony w fonemy – specyficzne dźwięki odróżniające słowa – i przedstawiony za pomocą osadzania wektorów.
Model TTS wykorzystujący „głośnik podstawowy” łączy się z dźwiękiem uzyskanym z dźwięku nagranego przez użytkownika w procesie szkolenia. Razem te dwa modele mogą odwzorowywać głos użytkownika i modyfikować kolor tonu – ekspresję emocjonalną przekazywaną w mówionym tekście.
Startup powstał w 2023 roku. W zeszłym roku MyShell pod przewodnictwem INCE Capital zebrał 5.6 miliona dolarów w ramach finansowania zalążkowego, a w projekcie uczestniczyli między innymi wybitni inwestorzy, tacy jak Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC i OP Crypto.
Według spółki dofinansowanie pomoże w rozwoju własności Modele AI, utworzenie Studia twórców dostosowanego do aplikacji natywnych AI oraz utworzenie tętniącego życiem ekosystemu twórców w dziedzinie technologii blockchain.
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Kumar jest doświadczonym dziennikarzem technicznym ze specjalizacją w dynamicznych skrzyżowaniach AI/ML, technologii marketingowej i nowych dziedzin, takich jak kryptowaluty, blockchain i NFTS. Dzięki ponad 3-letniemu doświadczeniu w branży Kumar zdobył udokumentowane doświadczenie w tworzeniu fascynujących narracji, przeprowadzaniu wnikliwych wywiadów i dostarczaniu kompleksowych spostrzeżeń. Doświadczenie Kumara polega na tworzeniu treści o dużym wpływie, w tym artykułów, raportów i publikacji badawczych dla czołowych platform branżowych. Dzięki unikalnemu zestawowi umiejętności, który łączy wiedzę techniczną i opowiadanie historii, Kumar przoduje w przekazywaniu złożonych koncepcji technologicznych różnym odbiorcom w jasny i wciągający sposób.
Więcej artykułówKumar jest doświadczonym dziennikarzem technicznym ze specjalizacją w dynamicznych skrzyżowaniach AI/ML, technologii marketingowej i nowych dziedzin, takich jak kryptowaluty, blockchain i NFTS. Dzięki ponad 3-letniemu doświadczeniu w branży Kumar zdobył udokumentowane doświadczenie w tworzeniu fascynujących narracji, przeprowadzaniu wnikliwych wywiadów i dostarczaniu kompleksowych spostrzeżeń. Doświadczenie Kumara polega na tworzeniu treści o dużym wpływie, w tym artykułów, raportów i publikacji badawczych dla czołowych platform branżowych. Dzięki unikalnemu zestawowi umiejętności, który łączy wiedzę techniczną i opowiadanie historii, Kumar przoduje w przekazywaniu złożonych koncepcji technologicznych różnym odbiorcom w jasny i wciągający sposób.