VALL-E: نموذج Microsoft الجديد لتحويل النص إلى كلام بدون لقطة يمكنه تكرار صوت الجميع في ثلاث ثوانٍ
في سطور
مع عينة مدتها ثلاث ثوانٍ فقط من أي صوت، نموذج تحويل النص إلى كلام (TTS) القائم على المحولات يمكن لـ VALL-E إنتاج الكلام بكل صوت.
هذا تقدم كبير في اتجاه أنظمة تحويل النص إلى كلام ذات صوت طبيعي أكثر.
ومع ذلك ، قدمت Microsoft بعض العينات من النموذج المستخدم ، ومن الواضح أن هذا يمثل تطورًا مهمًا في تقنية تحويل النص إلى كلام.
منذ إصدار أول نموذج لتحويل النص إلى كلام (TTS) ، كان الباحثون يبحثون عن طرق لتحسين الطريقة التي تولد بها هذه الأنظمة الكلام. أحدث طراز من Microsoft ، فال- إي، هي خطوة مهمة إلى الأمام في هذا الصدد.
VALL-E هو نموذج TTS قائم على المحولات يمكنه توليد الكلام بأي صوت بعد سماع عينة مدتها ثلاث ثوانٍ فقط من ذلك الصوت. يعد هذا تحسينًا كبيرًا مقارنة بالنماذج السابقة ، الأمر الذي تطلب فترة تدريب أطول بكثير لتوليد صوت جديد.
بالإضافة إلى ذلك ، يتم الحفاظ على نغمة الصوت والكاريزما وأسلوبه كما هي في الخطاب الذي تم إنشاؤه. هذه خطوة مهمة إلى الأمام في جعل أنظمة تحويل النص إلى كلام تبدو طبيعية أكثر.
هذا النموذج يعتمد على المحولات وله مظهر Dale-1. لا ينبغي الخلط بينه وبين Dalle-2 القائم على الانتشار. لا يزال القانون غير موجود. ويشكك المستخدمون في أنهم سينشرونها.
ومع ذلك ، أصدرت Microsoft بعض الأمثلة للنموذج قيد التشغيل ، ومن الواضح أن هذا يعد تقدمًا كبيرًا في تقنية تحويل النص إلى كلام.
مثال #1:
مثال #2:
مثال #3:
اقرأ المزيد عن الذكاء الاصطناعي:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.