Raport aktualności Technologia
26 czerwca 2023 r.

Google przedstawia AudioPaLM, potężny model języka AI do generowania mowy

W skrócie

AudioPaLM to potężny model językowy opracowany przez Google który łączy modele tekstowe i oparte na mowie w celu płynnego przetwarzania mowy i tekstu.

Zachowuje informacje parajęzykowe i przewyższa istniejące systemy w zadaniach związanych z tłumaczeniem mowy.

AudioPaLM może tłumaczyć języki akcentowane i wykonywać transfery głosowe w celu tłumaczenia mowy na mowę.

Google zaprezentował model językowy o nazwie AudioPaLM, który łączy modele językowe oparte na tekście i mowie, aby bezproblemowo przetwarzać i generować mowę i tekst. Łącząc możliwości PaLM-2 i AudioLM, AudioPaLM oferuje zunifikowaną multimodalną architekturę, która otwiera szeroki zakres aplikacji, w tym rozpoznawanie mowy i tłumaczenie mowy na mowę.

Google przedstawia AudioPaLM, potężny model językowy do generowania mowy
kredyt: Metaverse Post (mpostio)

Jedną z godnych uwagi cech AudioPaLM jest jego zdolność do zachowania informacji parajęzykowych, takich jak tożsamość mówcy i intonacja, dzięki wpływowi AudioLM. Jednocześnie wykorzystuje wiedzę lingwistyczną zawartą w tekstowych modelach językowych, takich jak PaLM-2. Dzięki inicjalizacji AudioPaLM z wagami dużego modelu językowego składającego się tylko z tekstu, model ten doskonale radzi sobie z przetwarzaniem mowy, wykorzystując obszerne dane uczące tekstu używane we wstępnym szkoleniu.

Niezwykłe możliwości AudioPaLM zostały wykazane w różnych eksperymentach. Przewyższył istniejące systemy w zadaniach związanych z tłumaczeniem mowy i wykazuje zdolność do wykonywania zadań zerowych tłumaczenie mowy na tekst dla języków niespotykanych podczas szkolenia.

Dodatkowo AudioPaLM wykazuje cechy modele języka audio poprzez przesyłanie głosów między językami na podstawie krótkich komunikatów głosowych.

Google dokonał przykłady możliwości AudioPaLM dostępne do eksploracji. Zdolność modelu do tłumaczenia języków z wyraźnymi akcentami, takich jak włoski i niemiecki, zaintrygowała zarówno badaczy, jak i użytkowników. Co więcej, jego biegłość w wykonywaniu transferów głosowych w celu tłumaczenia mowy na mowę odróżnia go od istniejących linii bazowych, co potwierdzają zarówno automatyczne wskaźniki, jak i osoby oceniające.

Model bardzo dobrze tłumaczy język z audio na audio w innym języku, zachowując głos i emocje osoby. Co ciekawe, podczas tłumaczenia niektórych języków, takich jak włoski i niemiecki, model ma zauważalny akcent, a podczas tłumaczenia innych, na przykład francuskiego, mówi z doskonałym amerykańskim akcentem.

Model AudioPaLM z przykładami tłumaczenia mowy na mowę i automatycznego rozpoznawania mowy.

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Protokół infrastrukturalny oparty na ZKP ZKBase przedstawia plan działania, planuje uruchomienie sieci Testnet w maju
Raport aktualności Technologia
Protokół infrastrukturalny oparty na ZKP ZKBase przedstawia plan działania, planuje uruchomienie sieci Testnet w maju
9 maja 2024 r.
BLOCKCHANCE i CONF3RENCE łączą siły na rzecz największego w Niemczech Web3 Konferencja w Dortmundzie
Biznes rynki Tworzenie Historie i recenzje Technologia
BLOCKCHANCE i CONF3RENCE łączą siły na rzecz największego w Niemczech Web3 Konferencja w Dortmundzie
9 maja 2024 r.
NuLink uruchamia się na Bybit Web3 Platforma IDO. Faza subskrypcji trwa do 13 maja
rynki Raport aktualności Technologia
NuLink uruchamia się na Bybit Web3 Platforma IDO. Faza subskrypcji trwa do 13 maja
9 maja 2024 r.
UXLINK i Binance współpracują przy nowej kampanii, oferując użytkownikom 20 milionów punktów UXUY i Airdrop Nagrody
rynki Raport aktualności Technologia
UXLINK i Binance współpracują przy nowej kampanii, oferując użytkownikom 20 milionów punktów UXUY i Airdrop Nagrody
9 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.