گزارش خبری SMW پیشرفته
ممکن است 30، 2023

SoundStorm: گوگل از ابزار وحشتناک هوش مصنوعی با قابلیت تکرار صدا در زمان واقعی رونمایی کرد

به طور خلاصه

گوگل SoundStorm را معرفی کرده است، مدلی پیشرفته برای تولید صوت کارآمد و بدون رگرسیون.

از توجه دو طرفه و رمزگشایی موازی مبتنی بر اطمینان برای تولید صدای با کیفیت بالا و در عین حال کاهش قابل توجه زمان تولید استفاده می کند.

همچنین توانایی ترکیب دیالوگ های طبیعی را دارد.

گوگل آخرین پیشرفت خود را در زمینه فناوری هوش مصنوعی معرفی کرده است طوفان صوتی، یک مدل پیشرفته برای تولید صوت کارآمد و بدون رگرسیون. با قابلیت دیالوگ ها را ترکیب کنید SoundStorm با صداهای مختلف، امکانات جدیدی را برای برنامه هایی مانند تولید محتوای صوتی از متن نوشته شده و ایجاد پادکست های واقعی باز می کند.

SoundStorm: گوگل از ابزار وحشتناک هوش مصنوعی با قابلیت تکرار صدا در زمان واقعی رونمایی کرد
@Midjourney

برخلاف سلف خود AudioLMSoundStorm از معماری جدیدی استفاده می کند که صدا را در تکه های 30 ثانیه تولید می کند و کارایی را افزایش می دهد. با استفاده از توجه دو طرفه و رمزگشایی موازی مبتنی بر اطمینان، این مدل صدای با کیفیت بالا تولید می‌کند و در عین حال زمان تولید را به میزان قابل توجهی کاهش می‌دهد. در سخت‌افزار TPU-v4 Google، SoundStorm می‌تواند 30 ثانیه صدا را تنها در 0.5 ثانیه تولید کند که نشانگر بهبود قابل توجهی در سرعت است.

آموزش SoundStorm با استفاده از مجموعه داده عظیمی از 100,000 ساعت گفتگو انجام شد و درک قوی از الگوهای زبان گفتاری را تضمین کرد. این مدل به ثبات چشمگیر در شرایط صدا و آکوستیک دست می یابد و در عین حال کیفیت صوتی به دست آمده توسط AudioLM را حفظ می کند. این پیشرفت باعث می شود SoundStorm دو مرتبه سریعتر از نسخه قبلی خود باشد و پتانسیل آن را برای تولید صدای مقیاس پذیر نشان می دهد.

یکی از قابلیت های کلیدی SoundStorm توانایی آن در ترکیب دیالوگ های طبیعی با استفاده از مرحله مدل سازی متن به معنایی SPEAR-TTS است. با ارائه رونوشت با نوبت های بلندگو و اعلان های صوتی کوتاه، کاربران می توانند محتوای گفتاری و صدای گویندگان را کنترل کنند. در طول آزمایش، SoundStorm توانایی ترکیب بخش‌های دیالوگ 30 ثانیه‌ای را تنها در 2 ثانیه بر روی یک TPU-v4 نشان داد و کارایی و تطبیق‌پذیری آن را به نمایش گذاشت.

صدای سریع

گفت و گوی ترکیبی

در مقایسه با خطوط پایه استاندارد، صدای تولید شده توسط SoundStorm کیفیتی معادل AudioLM دارد و ثبات و یکپارچگی صوتی برتر را نشان می دهد. قابل‌توجه است که وقتی از مدل خواسته می‌شود یک نمونه گفتار ارائه دهد، صدای گوینده را با دقت شگفت‌انگیزی حفظ می‌کند و ظرفیت آن را برای ایجاد گفتگوی واقعی به میزان زیادی افزایش می‌دهد.

در حالی که قابلیت های SoundStorm برجسته است، تشخیص و حل آن بسیار مهم است نگرانی های اخلاقی. داده های آموزشی برای الگوریتم ممکن است سوگیری های مربوط به لهجه ها و ویژگی های صوتی را معرفی کند. از ظرفیت تقلید صداها می توان سوء استفاده کرد جعل هویت یا برای دور زدن شناسایی بیومتریک. Google بر اهمیت قرار دادن محافظت‌هایی برای جلوگیری از چنین سوءاستفاده‌هایی تاکید می‌کند اطمینان از قابلیت تشخیص صدای ایجاد شده از طریق طبقه بندی کننده های اختصاصی.

اصول اخلاقی هوش مصنوعی گوگل، تلاش های مستمر آن را برای رسیدگی به خطرات و محدودیت های احتمالی هدایت می کند. سازمان نیاز به مطالعه کامل داده های آموزشی و پیامدهای آن را برای خروجی های مدل درک می کند. آنها همچنین قصد دارند رویکردهای اضافی مانند واترمارک صوتی را برای تشخیص گفتار سنتز شده برای استفاده اخلاقی از این فناوری بررسی کنند.

  • SoundStorm یک گام بزرگ رو به جلو در تولید صوتی مبتنی بر هوش مصنوعی است که نمایش‌های صوتی مبتنی بر کدک صوتی عصبی با کیفیت بالا و کارآمد را ارائه می‌دهد. گوگل انتظار دارد که نیازهای پردازشی و حافظه کمتر SoundStorm، تحقیقات تولید صدا را برای جامعه وسیع تری در دسترس قرار دهد. گوگل همچنان به حفظ شیوه‌های هوش مصنوعی مسئول و اطمینان از استفاده ایمن و مسئولانه از SoundStorm و پیشرفت‌های قابل مقایسه در این زمینه با پیشرفت فناوری متعهد است.
  • درهآخرین مدل تبدیل متن به گفتار (TTS) مایکروسافت، یک گام بزرگ رو به جلو در بهبود نحوه تولید صدا توسط این سیستم ها است. VALL-E یک است مدل TTS بر اساس ترانسفورماتورهایی که می توانند گفتار را در هر صدایی تنها پس از شنیدن یک نمونه سه ثانیه ای از آن صدا تولید کنند. این یک پیشرفت بزرگ نسبت به مدل‌های قبلی است که به دوره آموزشی بسیار طولانی‌تری برای ایجاد صدای جدید نیاز داشت.

درباره هوش مصنوعی بیشتر بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید

بنیانگذاران کیف پول سامورایی متهم به تسهیل 2 میلیارد دلار در معاملات Darknet شدند

دلهره از بنیانگذاران کیف پول سامورای نشان دهنده یک شکست قابل توجه برای صنعت است که تاکیدی بر ادامه دار بودن ...

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
Pantera Capital در بلاک چین TON سرمایه گذاری می کند و به پتانسیل تلگرام برای گسترش دسترسی به رمزنگاری اعتماد دارد
کسب و کار گزارش خبری پیشرفته
Pantera Capital در بلاک چین TON سرمایه گذاری می کند و به پتانسیل تلگرام برای گسترش دسترسی به رمزنگاری اعتماد دارد
ممکن است 2، 2024
میتوز 7 میلیون دلار از Amber Group و Foresight Ventures برای پیشبرد پروتکل نقدینگی مدولار خود جمع آوری می کند.
کسب و کار گزارش خبری پیشرفته
میتوز 7 میلیون دلار از Amber Group و Foresight Ventures برای پیشبرد پروتکل نقدینگی مدولار خود جمع آوری می کند.
ممکن است 2، 2024
Galxe با Jambo همکاری می کند تا دسترسی جهانی را گسترش دهد Web3
کسب و کار گزارش خبری پیشرفته
Galxe با Jambo همکاری می کند تا دسترسی جهانی را گسترش دهد Web3
ممکن است 2، 2024
Google's Med-Gemini آماده است تا شروعی به کار کند GPT-4 با عملکرد برتر آن در مراقبت های بهداشتی
AI Wiki رسانه نرم افزار پیشرفته
Google's Med-Gemini آماده است تا شروعی به کار کند GPT-4 با عملکرد برتر آن در مراقبت های بهداشتی
ممکن است 2، 2024
CRYPTOMERIA LABS PTE. محدود