Raport aktualności SMW Technologia
30 maja 2023 r.

SoundStorm: Google ujawnia przerażające narzędzie AI zdolne do replikacji głosu w czasie rzeczywistym

W skrócie

Firma Google wprowadziła SoundStorm, najnowocześniejszy model wydajnego i nieautoregresyjnego generowania dźwięku.

Wykorzystuje dwukierunkową uwagę i dekodowanie równoległe oparte na pewności, aby generować dźwięk wysokiej jakości, jednocześnie znacznie skracając czas generowania.

Ma również zdolność do syntezy naturalnych dialogów.

Google przedstawił swój najnowszy przełom w technologii sztucznej inteligencji Sound Storm, najnowocześniejszy model wydajnego i nieautoregresyjnego generowania dźwięku. Ze zdolnością do syntezować dialogi z różnymi głosami, SoundStorm otwiera nowe możliwości dla aplikacji, takich jak generowanie treści audio z tekstu pisanego i tworzenie realistycznych podcastów.

SoundStorm: Google ujawnia przerażające narzędzie AI zdolne do replikacji głosu w czasie rzeczywistym
@Midjourney

W przeciwieństwie do swojego poprzednika AudioLM, SoundStorm wykorzystuje nowatorską architekturę, która generuje dźwięk w 30-sekundowych fragmentach, zwiększając wydajność. Wykorzystując dwukierunkową uwagę i oparte na pewności dekodowanie równoległe, model wytwarza dźwięk wysokiej jakości, znacznie skracając czas generowania. Na sprzęcie Google TPU-v4 SoundStorm może wygenerować 30 sekund dźwięku w zaledwie 0.5 sekundy, co oznacza znaczną poprawę szybkości.

Szkolenie SoundStorm zostało przeprowadzone przy użyciu ogromnego zestawu danych obejmującego 100,000 XNUMX godzin dialogów, co zapewniło solidne zrozumienie wzorców języka mówionego. Model osiąga imponującą spójność głosu i warunków akustycznych przy zachowaniu jakości dźwięku osiągniętej przez AudioLM. Ten przełom sprawia, że ​​SoundStorm jest o dwa rzędy wielkości szybszy niż jego poprzednik, demonstrując jego potencjał w zakresie skalowalnego generowania dźwięku.

Jedną z kluczowych możliwości SoundStorm jest jego zdolność do syntezy naturalnych dialogów poprzez wykorzystanie etapu modelowania tekstu na semantykę SPEAR-TTS. Zapewniając transkrypcje z obrotami mówcy i krótkimi wskazówkami głosowymi, użytkownicy mogą kontrolować treść mówioną i głosy mówców. Podczas testów SoundStorm zademonstrował zdolność syntezy 30-sekundowych segmentów dialogowych w zaledwie 2 sekundy na pojedynczym TPU-v4, prezentując swoją wydajność i wszechstronność.

Monit

Zsyntetyzowany Dialog

W porównaniu ze standardowymi liniami bazowymi dźwięk generowany przez SoundStorm ma taką samą jakość jak AudioLM i wykazuje doskonałą spójność i integralność akustyczną. Warto zauważyć, że po wyświetleniu monitu o podanie próbki mowy model zachowuje głos mówiącego z niezwykłą dokładnością, znacznie zwiększając jego zdolność do generowania realistycznych dialogów.

Chociaż możliwości SoundStorm są wyjątkowe, niezwykle ważne jest rozpoznanie i rozwiązanie możliwych problemów obawy etyczne. Dane szkoleniowe algorytmu mogą wprowadzić błędy związane z akcentami i cechami głosu. Zdolność do naśladowania głosów może zostać nadużyta podszywanie się lub w celu obejścia identyfikacji biometrycznej. Google podkreśla znaczenie wprowadzenia zabezpieczeń zapobiegających takim nadużyciom i zapewniając wykrywalność tworzonego dźwięku za pomocą dedykowanych klasyfikatorów.

Etyczne zasady Google związane z sztuczną inteligencją kierują naszymi nieustannymi wysiłkami na rzecz eliminowania potencjalnych zagrożeń i ograniczeń. Organizacja zdaje sobie sprawę z potrzeby przeprowadzenia dokładnej analizy danych szkoleniowych i implikacji dla wyników modelu. Planują również zbadać dodatkowe metody, takie jak dźwiękowe znaki wodne, do wykrywania syntetyzowanej mowy, aby etycznie wykorzystać tę technologię.

  • SoundStorm to duży krok naprzód w produkcji audio opartej na sztucznej inteligencji, zapewniając wysokiej jakości i wydajne reprezentacje audio oparte na neuronowych kodekach audio. Google spodziewa się, że mniejsze potrzeby pamięci i przetwarzania SoundStorm sprawią, że badania nad generacją dźwięku będą bardziej dostępne dla szerszej społeczności. Google pozostaje zaangażowany w zachowanie odpowiedzialnych praktyk sztucznej inteligencji oraz zapewnienie bezpiecznego i odpowiedzialnego korzystania z SoundStorm i porównywalnych przełomowych rozwiązań w tej dziedzinie w miarę rozwoju technologii.
  • DOLINA, najnowszy model zamiany tekstu na mowę (TTS) firmy Microsoft, to ogromny krok naprzód w ulepszaniu sposobu generowania głosu przez te systemy. VALL-E jest Model TTS oparty na transformatorach, które mogą generować mowę dowolnym głosem po wysłuchaniu zaledwie trzysekundowej próbki tego głosu. Jest to duży postęp w stosunku do wcześniejszych modeli, które wymagały znacznie dłuższego okresu szkolenia, aby wypracować nowy głos.

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Hot Stories
Dołącz do naszego newslettera.
Najnowsze wieści

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej

Założyciele portfela Samourai oskarżeni o ułatwianie transakcji o wartości 2 miliardów dolarów w Darknet

Zaniepokojenie założycieli Samourai Wallet stanowi wyraźną porażkę dla branży, podkreślając utrzymujące się...

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Pantera Capital inwestuje w TON Blockchain i wyraża zaufanie w potencjał Telegramu w zakresie zwiększania dostępności kryptowalut
Biznes Raport aktualności Technologia
Pantera Capital inwestuje w TON Blockchain i wyraża zaufanie w potencjał Telegramu w zakresie zwiększania dostępności kryptowalut
2 maja 2024 r.
Mitosis pozyskuje fundusze o wartości 7 mln dolarów od Amber Group i przedsięwzięć Foresight w celu udoskonalenia swojego modułowego protokołu płynności
Biznes Raport aktualności Technologia
Mitosis pozyskuje fundusze o wartości 7 mln dolarów od Amber Group i przedsięwzięć Foresight w celu udoskonalenia swojego modułowego protokołu płynności
2 maja 2024 r.
Galxe współpracuje z Jambo, aby rozszerzyć globalną dostępność Web3
Biznes Raport aktualności Technologia
Galxe współpracuje z Jambo, aby rozszerzyć globalną dostępność Web3
2 maja 2024 r.
Med-Gemini firmy Google gotowy dać przewagę GPT-4 Dzięki doskonałej wydajności w opiece zdrowotnej
AI Wiki Aktualności Tworzenie Technologia
Med-Gemini firmy Google gotowy dać przewagę GPT-4 Dzięki doskonałej wydajności w opiece zdrowotnej
2 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.