تقرير الأخبار تكنولوجيا
٣ فبراير ٢٠٢٤

شركة AI Startup MyShell تطلق خوارزمية OpenVoice لاستنساخ الصوت الدقيق

في سطور

أعلنت شركة MyShell الكندية الناشئة في مجال الذكاء الاصطناعي أنها فتحت المصدر المفتوح لخوارزمية OpenVoice الخاصة بها لاستنساخ الصوت الفوري.

شركة AI Startup MyShell تطلق خوارزمية OpenVoice لاستنساخ الصوت الدقيق

المتحدث، Voicemod و أحد عشر مختبرات – تشترك الشركات الناشئة الثلاث في شيء واحد – حيث توفر جميعها الخوارزميات وبرامج الذكاء الاصطناعي لاستنساخ الصوت. الآن، لاعب جديد، شركة ذكاء اصطناعي كندية ناشئة مايشيل أعلنت أنها فتحت المصدر المفتوح لخوارزمية OpenVoice الخاصة بها لاستنساخ الصوت الفوري.

شارك MyShell التحديث على منصة التواصل الاجتماعي X وقال: "استنساخ الأصوات بدقة لا مثيل لها، مع التحكم الدقيق في النغمات، من العاطفة إلى اللهجة والإيقاع والتوقفات والتنغيم، وذلك باستخدام مقطع صوتي صغير فقط."

وفي إطار التعاون، كشف باحثون من معهد ماساتشوستس للتكنولوجيا وMyShell.ai وجامعة تسينغهوا عن OpenVoice، الذي يمكنه تكرار صوت المتحدث وإنشاء الكلام في لغات متعددة، باستخدام مقتطف صوتي مختصر فقط من المصدر الأصلي. كما أنه يلتقط النغمة واللون الفريدين لصوت المتحدث.

وفقًا للشركة، تضيف الخوارزمية عناصر أسلوبية مهمة مثل العاطفة واللهجة والإيقاع والتوقف المؤقت والتنغيم. تعتبر هذه العناصر ضرورية لجعل الكلام يبدو حقيقيًا وإنشاء محادثات مثيرة للاهتمام. فهو يساعد على تجنب الصوت الممل الذي تحصل عليه غالبًا من خلال تحويل النص إلى كلام عادي.

كيف يعمل نموذج الذكاء الاصطناعي لاستنساخ الصوت

في باقة ورقة بحثية، شاركت OpenVoice المنهجية وراء الذكاء الاصطناعي لاستنساخ الصوت. يتكون OpenVoice من قسمين متميزين نماذج الذكاء الاصطناعى: نموذج تحويل النص إلى كلام (TTS) و"محول النغمات".

يستطيع النموذج إدارة معلمات الأسلوب واللغات، وقد خضع "للتدريب باستخدام 30,000 ألف جملة" من المتحدثين باللغة الإنجليزية (باللكنتين الأمريكية والبريطانية)، والصينية واليابانية. تضمن التدريب تصنيف العينات بناءً على المشاعر المعبر عنها، وتعلم النموذج التجويد والإيقاع والتوقفات من هذه المقاطع الصوتية.

ومن ناحية أخرى، تم تدريب نموذج محول النغمات على مجموعة بيانات واسعة تضم أكثر من 300,000 عينة صوتية من أكثر من 20,000 مكبر صوت مختلف. في كلتا الحالتين، تم تحويل صوت الكلام البشري إلى صوتيات - أصوات محددة تميز الكلمات - وتم تمثيلها باستخدام تضمينات المتجهات.

يدمج نموذج TTS، الذي يستخدم "مكبر صوت أساسي"، مع النغمة المستمدة من الصوت المسجل للمستخدم في عملية التدريب. يمكن لهذين النموذجين معًا محاكاة صوت المستخدم وتعديل لون النغمة - التعبير العاطفي المنقول في النص المنطوق.

تأسست الشركة الناشئة في عام 2023. وفي العام الماضي، جمعت MyShell تمويلًا أوليًا بقيمة 5.6 مليون دولار، بقيادة INCE Capital، وشهدت مشاركة مستثمرين بارزين مثل Folius Ventures، وHashkey Capital، وSevenX Ventures، وTSVC، وOP Crypto، وغيرهم.

ووفقا للشركة، فإن التمويل سيساعد في النهوض بالملكية نماذج الذكاء الاصطناعىوإنشاء استوديو منشئي المحتوى مصمم خصيصًا لتطبيقات الذكاء الاصطناعي الأصلية، وإنشاء نظام بيئي نابض بالحياة للمبدعين في عالم تقنية blockchain.

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

كومار هو صحفي تقني ذو خبرة ومتخصص في التقاطعات الديناميكية للذكاء الاصطناعي/التعلم الآلي، وتكنولوجيا التسويق، والمجالات الناشئة مثل العملات المشفرة، وسلسلة الكتل، NFTس. مع أكثر من 3 سنوات من الخبرة في الصناعة، أنشأ كومار سجلاً حافلًا في صياغة روايات مقنعة، وإجراء مقابلات ثاقبة، وتقديم رؤى شاملة. تكمن خبرة كومار في إنتاج محتوى عالي التأثير، بما في ذلك المقالات والتقارير والمنشورات البحثية لمنصات الصناعة البارزة. بفضل مجموعة المهارات الفريدة التي تجمع بين المعرفة التقنية وسرد القصص، يتفوق كومار في توصيل المفاهيم التكنولوجية المعقدة إلى جماهير متنوعة بطريقة واضحة وجذابة.

المزيد من المقالات
كومار غاندهارف
كومار غاندهارف

كومار هو صحفي تقني ذو خبرة ومتخصص في التقاطعات الديناميكية للذكاء الاصطناعي/التعلم الآلي، وتكنولوجيا التسويق، والمجالات الناشئة مثل العملات المشفرة، وسلسلة الكتل، NFTس. مع أكثر من 3 سنوات من الخبرة في الصناعة، أنشأ كومار سجلاً حافلًا في صياغة روايات مقنعة، وإجراء مقابلات ثاقبة، وتقديم رؤى شاملة. تكمن خبرة كومار في إنتاج محتوى عالي التأثير، بما في ذلك المقالات والتقارير والمنشورات البحثية لمنصات الصناعة البارزة. بفضل مجموعة المهارات الفريدة التي تجمع بين المعرفة التقنية وسرد القصص، يتفوق كومار في توصيل المفاهيم التكنولوجية المعقدة إلى جماهير متنوعة بطريقة واضحة وجذابة.

Hot Stories
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

تنمو الشهية المؤسسية تجاه صناديق الاستثمار المتداولة في البيتكوين وسط التقلبات

تكشف الإفصاحات من خلال ملفات 13F عن مستثمرين مؤسسيين بارزين يشتغلون بصناديق الاستثمار المتداولة في البيتكوين، مما يؤكد القبول المتزايد لـ ...

لمعرفة المزيد

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

لمعرفة المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
تتعاون Espresso Systems مع Polygon Labs لتطوير طبقة AggLayer لتحسين إمكانية التشغيل البيني المجمع
باقة الأعمال تقرير الأخبار تكنولوجيا
تتعاون Espresso Systems مع Polygon Labs لتطوير طبقة AggLayer لتحسين إمكانية التشغيل البيني المجمع
9 مايو 2024
بروتوكول البنية التحتية المدعوم من ZKP ZKBase يكشف عن خارطة الطريق ويخطط لإطلاق Testnet في مايو
تقرير الأخبار تكنولوجيا
بروتوكول البنية التحتية المدعوم من ZKP ZKBase يكشف عن خارطة الطريق ويخطط لإطلاق Testnet في مايو
9 مايو 2024
BLOCKCHANCE وCONF3RENCE يتحدان من أجل أكبر حدث في ألمانيا Web3 مؤتمر في دورتموند
باقة الأعمال الأسواق تطبيقات الكمبيوتر قصص ومراجعات تكنولوجيا
BLOCKCHANCE وCONF3RENCE يتحدان من أجل أكبر حدث في ألمانيا Web3 مؤتمر في دورتموند
9 مايو 2024
يتم إطلاق NuLink على Bybit Web3 منصة ايدو. تمتد مرحلة الاشتراك حتى 13 مايو
الأسواق تقرير الأخبار تكنولوجيا
يتم إطلاق NuLink على Bybit Web3 منصة ايدو. تمتد مرحلة الاشتراك حتى 13 مايو
9 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.