تقرير الأخبار SMW تكنولوجيا
30 مايو 2023

SoundStorm: تكشف Google عن أداة AI المرعبة القادرة على تكرار الصوت في الوقت الفعلي

في سطور

قدمت Google نظام SoundStorm ، وهو نموذج متطور لتوليد الصوت الفعال وغير الانحدار التلقائي.

إنها توظف الاهتمام ثنائي الاتجاه وفك التشفير المتوازي القائم على الثقة لتوليد صوت عالي الجودة مع تقليل وقت التوليد بشكل كبير.

كما أن لديها القدرة على تجميع الحوارات الطبيعية.

أدخلت Google أحدث اختراقاتها في تقنية الذكاء الاصطناعي مع عاصفة صوتية، نموذج متطور لتوليد الصوت الفعال وغير الانحدار التلقائي. مع القدرة على تجميع الحوارات بأصوات مختلفة ، يفتح SoundStorm إمكانيات جديدة للتطبيقات مثل إنشاء محتوى صوتي من نص مكتوب وإنشاء ملفات بودكاست واقعية.

SoundStorm: تكشف Google عن أداة AI المرعبة القادرة على تكرار الصوت في الوقت الفعلي
@Midjourney

على عكس سابقتها AudioLM، تستخدم SoundStorm بنية جديدة تولد الصوت في أجزاء مدتها 30 ثانية ، مما يعزز الكفاءة. من خلال الاستفادة من الاهتمام ثنائي الاتجاه وفك التشفير المتوازي المستند إلى الثقة ، ينتج النموذج صوتًا عالي الجودة مع تقليل وقت التوليد بشكل كبير. على أجهزة TPU-v4 من Google ، يمكن لـ SoundStorm توليد 30 ثانية من الصوت في 0.5 ثانية فقط ، مما يمثل تحسنًا كبيرًا في السرعة.

تم إجراء تدريب SoundStorm باستخدام مجموعة بيانات ضخمة من 100,000 ساعة من الحوار ، مما يضمن فهمًا قويًا لأنماط اللغة المنطوقة. يحقق النموذج تناسقًا مثيرًا للإعجاب في ظروف الصوت والصوت مع الحفاظ على جودة الصوت التي حققتها AudioLM. هذا الاختراق يجعل SoundStorm أسرع بمرتين من سابقتها ، مما يدل على قدرتها على توليد صوت قابل للتطوير.

تتمثل إحدى الإمكانات الرئيسية لبرنامج SoundStorm في قدرته على تجميع الحوارات الطبيعية من خلال الاستفادة من مرحلة نمذجة النص إلى الدلالي لـ SPEAR-TTS. من خلال توفير النصوص مع أدوار المتحدث والمطالبات الصوتية القصيرة ، يمكن للمستخدمين التحكم في المحتوى المنطوق وأصوات مكبرات الصوت. أثناء الاختبار ، أظهر SoundStorm القدرة على تجميع مقاطع حوار مدتها 30 ثانية في ثانيتين فقط على TPU-v2 واحد ، مما يعرض كفاءته وتعدد استخداماته.

صوت موجه

حوار مركب

عند مقارنتها بخطوط الأساس القياسية ، يكون الصوت الذي تم إنشاؤه بواسطة SoundStorm بجودة مكافئة لـ AudioLM ويظهر اتساقًا فائقًا وتكاملًا صوتيًا. والجدير بالذكر أنه عندما يُطلب منك إعطاء عينة من الكلام ، فإن النموذج يحافظ على صوت المتحدث بدقة مذهلة ، مما يعزز بشكل كبير قدرته على إنشاء حوار نابض بالحياة.

على الرغم من أن قدرات SoundStorm رائعة، إلا أنه من المهم التعرف على ما هو ممكن وحله مخاوف أخلاقية. قد تقدم بيانات التدريب الخاصة بالخوارزمية تحيزات تتعلق باللهجات والميزات الصوتية. من الممكن إساءة استخدام القدرة على تقليد الأصوات التمثيل أو للتحايل على تحديد الهوية البيومترية. تؤكد Google على أهمية وضع إجراءات الحماية لمنع مثل هذه الإساءات و ضمان قابلية الكشف من الصوت الذي تم إنشاؤه من خلال المصنفات المخصصة.

تقود مبادئ الذكاء الاصطناعي الأخلاقية لشركة Google جهودها المستمرة لمعالجة المخاطر والقيود المحتملة. تدرك المنظمة الحاجة إلى إجراء دراسة شاملة لبيانات التدريب والآثار المترتبة على مخرجات النموذج. كما يخططون أيضًا للتحقيق في طرق إضافية ، مثل العلامات المائية الصوتية ، لاكتشاف الكلام المركب للاستفادة الأخلاقية من هذه التكنولوجيا.

  • تعد SoundStorm خطوة كبيرة إلى الأمام في إنتاج الصوت المدعوم بالذكاء الاصطناعي ، حيث توفر تمثيلات صوتية مشتقة من برنامج ترميز الصوت العصبي عالية الجودة وفعالة. تتوقع Google أن الذاكرة المنخفضة واحتياجات المعالجة في SoundStorm ستجعل أبحاث إنشاء الصوت أكثر سهولة لمجتمع أوسع. تظل Google مكرسة للحفاظ على ممارسات الذكاء الاصطناعي المسؤولة وضمان الاستخدام الآمن والمسؤول لـ SoundStorm والاختراقات المماثلة في هذا المجال مع تطور التكنولوجيا.
  • فال- إييعد أحدث نموذج لتحويل النص إلى كلام من Microsoft (TTS) خطوة كبيرة إلى الأمام في تحسين كيفية توليد هذه الأنظمة للصوت. VALL-E هو ملف نموذج TTS استنادًا إلى محولات يمكنها توليد الكلام بأي صوت بعد سماع عينة مدتها ثلاث ثوانٍ فقط من ذلك الصوت. يعد هذا تقدمًا كبيرًا مقارنة بالنماذج السابقة ، مما تطلب فترة تدريب أطول بشكل ملحوظ لتطوير صوت جديد.

اقرأ المزيد عن الذكاء الاصطناعي:

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

أعرف المزيد

مؤسسو Samourai Wallet متهمون بتسهيل صفقات بقيمة 2 مليار دولار في Darknet

يمثل إلقاء القبض على مؤسسي Samourai Wallet انتكاسة ملحوظة لهذه الصناعة، مما يؤكد استمرار ...

أعرف المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
تستثمر Pantera Capital في TON Blockchain، وتعرب عن ثقتها في قدرة Telegram على توسيع إمكانية الوصول إلى العملات المشفرة
باقة الأعمال تقرير الأخبار تكنولوجيا
تستثمر Pantera Capital في TON Blockchain، وتعرب عن ثقتها في قدرة Telegram على توسيع إمكانية الوصول إلى العملات المشفرة
2 مايو 2024
تجمع شركة Mitosis تمويلًا بقيمة 7 ملايين دولار من Amber Group وForesight Ventures لتطوير بروتوكول السيولة المعياري الخاص بها
باقة الأعمال تقرير الأخبار تكنولوجيا
تجمع شركة Mitosis تمويلًا بقيمة 7 ملايين دولار من Amber Group وForesight Ventures لتطوير بروتوكول السيولة المعياري الخاص بها
2 مايو 2024
تتعاون شركة Galxe مع Jambo لتوسيع إمكانية الوصول العالمية إلى Web3
باقة الأعمال تقرير الأخبار تكنولوجيا
تتعاون شركة Galxe مع Jambo لتوسيع إمكانية الوصول العالمية إلى Web3
2 مايو 2024
Google Med-Gemini يستعد لإعطاء السبق لـ GPT-4 مع أدائها المتفوق في مجال الرعاية الصحية
AI Wiki الأخبار تطبيقات الكمبيوتر تكنولوجيا
Google Med-Gemini يستعد لإعطاء السبق لـ GPT-4 مع أدائها المتفوق في مجال الرعاية الصحية
2 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.