Google представя AudioPaLM, мощен AI езиков модел за генериране на реч
Накратко
AudioPaLM е мощен езиков модел, разработен от Google който съчетава базирани на текст и базирани на реч модели за безпроблемна обработка на реч и текст.
Той запазва паралингвистичната информация и превъзхожда съществуващите системи в задачите за превод на реч.
AudioPaLM може да превежда езици с акценти и да извършва гласови трансфери за превод от реч към реч.
Google представи езиков модел, наречен AudioPaLM, който съчетава базирани на текст и базирани на реч езикови модели за обработка и генериране на реч и текст безпроблемно. Чрез обединяване на възможностите на PaLM-2 намлява AudioLM, AudioPaLM предлага унифицирана мултимодална архитектура, която отваря широка гама от приложения, включително разпознаване на реч и превод от реч към реч.
Една забележителна характеристика на AudioPaLM е способността му да запазва паралингвистична информация като идентичност на говорещия и интонация, благодарение на влиянието на AudioLM. В същото време той използва лингвистичните знания, открити в текстови езикови модели като PaLM-2. Чрез инициализиране на AudioPaLM с теглата на голям езиков модел само с текст, моделът превъзхожда обработката на реч, като се възползва от обширните данни за текстово обучение, използвани в предварителното обучение.
Забележителните възможности на AudioPaLM са демонстрирани чрез различни експерименти. Той надмина съществуващите системи в задачите за превод на реч и демонстрира способността за извършване на нулев удар превод от реч към текст за езици, които не са срещани по време на обучението.
Освен това AudioPaLM показва функции на аудио езикови модели чрез прехвърляне на гласове между езици въз основа на кратки устни подкани.
Google направи примери за възможностите на AudioPaLM на разположение за изследване. Способността на модела да превежда езици с различни акценти, като италиански и немски, заинтригува както изследователите, така и потребителите. Освен това неговата компетентност в извършването на гласови трансфери за превод от реч към реч го отличава от съществуващите базови линии, както е потвърдено както от автоматични показатели, така и от човешки оценители.
Моделът е много добър в превода на език от аудио към аудио на друг език, запазвайки гласа и емоциите на човек. Интересното е, че когато превежда някои езици като италиански и немски, моделът има осезаем акцент, а когато превежда други, например френски, говори с перфектен американски акцент.
Прочетете повече за AI:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.