گزارش خبری پیشرفته
ژوئن 26، 2023

گوگل AudioPaLM، یک مدل زبان هوش مصنوعی قدرتمند برای تولید گفتار را معرفی می کند

به طور خلاصه

AudioPaLM یک مدل زبان قدرتمند است که توسط گوگل که مدل های مبتنی بر متن و گفتار را برای پردازش یکپارچه گفتار و متن ترکیب می کند.

این اطلاعات فرازبانی را حفظ می کند و از سیستم های موجود در وظایف ترجمه گفتار بهتر عمل می کند.

AudioPaLM می‌تواند زبان‌های تاکیدی را ترجمه کند و انتقال صدا را برای ترجمه گفتار به گفتار انجام دهد.

گوگل از مدل زبانی به نام رونمایی کرده است AudioPaLM، که مدل های زبان مبتنی بر متن و گفتار را برای پردازش و تولید گفتار و متن یکپارچه ترکیب می کند. با ادغام قابلیت های پالم-2 و AudioLM، AudioPaLM یک معماری چندوجهی یکپارچه ارائه می دهد که طیف گسترده ای از برنامه ها را باز می کند، از جمله تشخیص گفتار و ترجمه گفتار به گفتار.

گوگل AudioPaLM، یک مدل زبان قدرتمند برای تولید گفتار را معرفی می کند
اعتبار: Metaverse Post (mpost.io)

یکی از ویژگی های قابل توجه AudioPaLM توانایی آن در حفظ اطلاعات شبه زبانی مانند هویت و صدای گوینده، به لطف تأثیر AudioLM است. در عین حال، از دانش زبانی موجود در مدل‌های زبان مبتنی بر متن مانند PaLM-2 استفاده می‌کند. با مقداردهی اولیه AudioPaLM با وزن‌های یک مدل زبان بزرگ فقط متنی، این مدل در پردازش گفتار برتری می‌یابد و از داده‌های آموزشی متنی گسترده مورد استفاده در پیش‌آموزش بهره می‌برد.

قابلیت های قابل توجه AudioPaLM از طریق آزمایش های مختلف نشان داده شده است. در کارهای ترجمه گفتار از سیستم های موجود بهتر عمل کرده است و توانایی انجام شات صفر را به نمایش می گذارد ترجمه گفتار به متن برای زبان هایی که در طول آموزش با آنها برخورد نمی شود.

علاوه بر این، AudioPaLM ویژگی هایی را نشان می دهد مدل های زبان صوتی با انتقال صداها بین زبان ها بر اساس اعلان های گفتاری کوتاه.

گوگل ساخته است نمونه هایی از قابلیت های AudioPaLM در دسترس برای اکتشاف توانایی این مدل برای ترجمه زبان هایی با لهجه های متمایز، مانند ایتالیایی و آلمانی، محققان و کاربران را به یک اندازه مجذوب خود کرده است. علاوه بر این، مهارت آن در انجام انتقال صدا برای ترجمه گفتار به گفتار، آن را از خطوط پایه موجود متمایز می کند، همانطور که توسط معیارهای خودکار و ارزیابی کنندگان انسانی تأیید شده است.

این مدل در ترجمه یک زبان از صوتی به صوتی به زبان دیگر بسیار خوب است و صدا و احساسات یک فرد را حفظ می کند. جالب اینجاست که هنگام ترجمه برخی از زبان‌ها مانند ایتالیایی و آلمانی، مدل دارای لهجه قابل‌توجهی است و هنگام ترجمه سایر زبان‌ها، به عنوان مثال، فرانسوی، با لهجه آمریکایی کامل صحبت می‌کند.

مدل AudioPaLM با نمونه هایی از ترجمه گفتار به گفتار و تشخیص خودکار گفتار.

درباره هوش مصنوعی بیشتر بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

در میان نوسانات، اشتهای سازمانی به سمت ETF های بیت کوین رشد می کند

افشاگری از طریق پرونده های 13F نشان می دهد که سرمایه گذاران نهادی قابل توجهی در ETF های بیت کوین مشغول هستند و بر پذیرش فزاینده ...

بیشتر بدانید

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
Espresso Systems با Polygon Labs برای توسعه AggLayer برای افزایش قابلیت همکاری Rollup همکاری می کند.
کسب و کار گزارش خبری پیشرفته
Espresso Systems با Polygon Labs برای توسعه AggLayer برای افزایش قابلیت همکاری Rollup همکاری می کند.
ممکن است 9، 2024
پروتکل زیرساختی مبتنی بر ZKP ZKBase نقشه راه را رونمایی کرد، برنامه تست نت را در ماه مه راه اندازی کرد
گزارش خبری پیشرفته
پروتکل زیرساختی مبتنی بر ZKP ZKBase نقشه راه را رونمایی کرد، برنامه تست نت را در ماه مه راه اندازی کرد
ممکن است 9، 2024
BLOCKCHANCE و CONF3RENCE برای بزرگترین آلمان متحد می شوند Web3 کنفرانس دورتموند
کسب و کار بازارها نرم افزار داستان ها و نقدها پیشرفته
BLOCKCHANCE و CONF3RENCE برای بزرگترین آلمان متحد می شوند Web3 کنفرانس دورتموند
ممکن است 9، 2024
NuLink در Bybit راه اندازی می شود Web3 پلتفرم IDO. مرحله اشتراک تا 13 اردیبهشت تمدید شد
بازارها گزارش خبری پیشرفته
NuLink در Bybit راه اندازی می شود Web3 پلتفرم IDO. مرحله اشتراک تا 13 اردیبهشت تمدید شد
ممکن است 9، 2024
CRYPTOMERIA LABS PTE. محدود