شركة AI Startup MyShell تطلق خوارزمية OpenVoice لاستنساخ الصوت الدقيق
في سطور
أعلنت شركة MyShell الكندية الناشئة في مجال الذكاء الاصطناعي أنها فتحت المصدر المفتوح لخوارزمية OpenVoice الخاصة بها لاستنساخ الصوت الفوري.
المتحدث، Voicemod و أحد عشر مختبرات – تشترك الشركات الناشئة الثلاث في شيء واحد – حيث توفر جميعها الخوارزميات وبرامج الذكاء الاصطناعي لاستنساخ الصوت. الآن، لاعب جديد، شركة ذكاء اصطناعي كندية ناشئة مايشيل أعلنت أنها فتحت المصدر المفتوح لخوارزمية OpenVoice الخاصة بها لاستنساخ الصوت الفوري.
شارك MyShell التحديث على منصة التواصل الاجتماعي X وقال: "استنساخ الأصوات بدقة لا مثيل لها، مع التحكم الدقيق في النغمات، من العاطفة إلى اللهجة والإيقاع والتوقفات والتنغيم، وذلك باستخدام مقطع صوتي صغير فقط."
وفي إطار التعاون، كشف باحثون من معهد ماساتشوستس للتكنولوجيا وMyShell.ai وجامعة تسينغهوا عن OpenVoice، الذي يمكنه تكرار صوت المتحدث وإنشاء الكلام في لغات متعددة، باستخدام مقتطف صوتي مختصر فقط من المصدر الأصلي. كما أنه يلتقط النغمة واللون الفريدين لصوت المتحدث.
وفقًا للشركة، تضيف الخوارزمية عناصر أسلوبية مهمة مثل العاطفة واللهجة والإيقاع والتوقف المؤقت والتنغيم. تعتبر هذه العناصر ضرورية لجعل الكلام يبدو حقيقيًا وإنشاء محادثات مثيرة للاهتمام. فهو يساعد على تجنب الصوت الممل الذي تحصل عليه غالبًا من خلال تحويل النص إلى كلام عادي.
كيف يعمل نموذج الذكاء الاصطناعي لاستنساخ الصوت
في باقة ورقة بحثية، شاركت OpenVoice المنهجية وراء الذكاء الاصطناعي لاستنساخ الصوت. يتكون OpenVoice من قسمين متميزين نماذج الذكاء الاصطناعى: نموذج تحويل النص إلى كلام (TTS) و"محول النغمات".
يستطيع النموذج إدارة معلمات الأسلوب واللغات، وقد خضع "للتدريب باستخدام 30,000 ألف جملة" من المتحدثين باللغة الإنجليزية (باللكنتين الأمريكية والبريطانية)، والصينية واليابانية. تضمن التدريب تصنيف العينات بناءً على المشاعر المعبر عنها، وتعلم النموذج التجويد والإيقاع والتوقفات من هذه المقاطع الصوتية.
ومن ناحية أخرى، تم تدريب نموذج محول النغمات على مجموعة بيانات واسعة تضم أكثر من 300,000 عينة صوتية من أكثر من 20,000 مكبر صوت مختلف. في كلتا الحالتين، تم تحويل صوت الكلام البشري إلى صوتيات - أصوات محددة تميز الكلمات - وتم تمثيلها باستخدام تضمينات المتجهات.
يدمج نموذج TTS، الذي يستخدم "مكبر صوت أساسي"، مع النغمة المستمدة من الصوت المسجل للمستخدم في عملية التدريب. يمكن لهذين النموذجين معًا محاكاة صوت المستخدم وتعديل لون النغمة - التعبير العاطفي المنقول في النص المنطوق.
تأسست الشركة الناشئة في عام 2023. وفي العام الماضي، جمعت MyShell تمويلًا أوليًا بقيمة 5.6 مليون دولار، بقيادة INCE Capital، وشهدت مشاركة مستثمرين بارزين مثل Folius Ventures، وHashkey Capital، وSevenX Ventures، وTSVC، وOP Crypto، وغيرهم.
ووفقا للشركة، فإن التمويل سيساعد في النهوض بالملكية نماذج الذكاء الاصطناعىوإنشاء استوديو منشئي المحتوى مصمم خصيصًا لتطبيقات الذكاء الاصطناعي الأصلية، وإنشاء نظام بيئي نابض بالحياة للمبدعين في عالم تقنية blockchain.
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
كومار هو صحفي تقني ذو خبرة ومتخصص في التقاطعات الديناميكية للذكاء الاصطناعي/التعلم الآلي، وتكنولوجيا التسويق، والمجالات الناشئة مثل العملات المشفرة، وسلسلة الكتل، NFTس. مع أكثر من 3 سنوات من الخبرة في الصناعة، أنشأ كومار سجلاً حافلًا في صياغة روايات مقنعة، وإجراء مقابلات ثاقبة، وتقديم رؤى شاملة. تكمن خبرة كومار في إنتاج محتوى عالي التأثير، بما في ذلك المقالات والتقارير والمنشورات البحثية لمنصات الصناعة البارزة. بفضل مجموعة المهارات الفريدة التي تجمع بين المعرفة التقنية وسرد القصص، يتفوق كومار في توصيل المفاهيم التكنولوجية المعقدة إلى جماهير متنوعة بطريقة واضحة وجذابة.
المزيد من المقالاتكومار هو صحفي تقني ذو خبرة ومتخصص في التقاطعات الديناميكية للذكاء الاصطناعي/التعلم الآلي، وتكنولوجيا التسويق، والمجالات الناشئة مثل العملات المشفرة، وسلسلة الكتل، NFTس. مع أكثر من 3 سنوات من الخبرة في الصناعة، أنشأ كومار سجلاً حافلًا في صياغة روايات مقنعة، وإجراء مقابلات ثاقبة، وتقديم رؤى شاملة. تكمن خبرة كومار في إنتاج محتوى عالي التأثير، بما في ذلك المقالات والتقارير والمنشورات البحثية لمنصات الصناعة البارزة. بفضل مجموعة المهارات الفريدة التي تجمع بين المعرفة التقنية وسرد القصص، يتفوق كومار في توصيل المفاهيم التكنولوجية المعقدة إلى جماهير متنوعة بطريقة واضحة وجذابة.