أعلنت Google AI عن أول برنامج لتحويل النص إلى موسيقى AudioLM
في سطور
يمكن لـ AudioLM إنتاج الموسيقى بمجرد الاستماع إلى الأصوات
Mubert AI لمواصلة الكلام البشري وموسيقى البيانو
بدافع GPT-3 وآخرون، فإن فكرة الذكاء الاصطناعي التوليدي لديها فرصة جيدة للمضي قدمًا. اكتشفنا أيضًا مفاهيم الرسم الداخلي والرسم الخارجي؛ يكمل الذكاء الاصطناعي الصور بمهارة مع الحفاظ على الموضوع والأسلوب. ماذا عن الموسيقى؟
ومرة أخرى! نظرًا لأن كل هذا يعتمد على نماذج لغة AI التي تحتفظ بالمعنى ، فقد كانت مجرد مسألة وقت قبل أن يتم تطبيق هذه التكنولوجيا على الموسيقى. والآن حان الوقت.
وفقًا لأبحاث Google الحديثة ، يمكن تدريس إطار عمل جديد لإنتاج الصوت يسمى AudioLM لإنشاء كلام واقعي وموسيقى بيانو ببساطة عن طريق الاستماع إلى الأصوات. نظرًا لاتساقها طويل المدى ودقتها الممتازة ، تتفوق AudioLM على الأنظمة السابقة وتقدم إنشاء الصوت مع تطبيقات في تركيب الصوت والموسيقى بمساعدة الكمبيوتر.
AudioLM من Google AI يمكن أن يوسع ممرًا صوتيًا مع الحفاظ على "النية". اعتبارًا من الآن ، تم تدريبه لمواصلة الكلام البشري وموسيقى البيانو ، بناءً على عينة محدودة من بيانات الإدخال. تحقق من العينة أدناه.
كانت معايير الكلام واضحة: طُلب من المستمعين تقييم ما إذا كانت الاستمرارية تبدو وكأنها كلام بشري. مع الموسيقى ، تم اكتشاف أن "استمرار" القسم المزود للإدخال أعلى بكثير من حيث الجودة من جميع مولدات الموسيقى الحالية من البداية ، مثل خزانة فونوغراف آلي. مع اقتراح عند الإدخال ، يواصل الذكاء الاصطناعي الموسيقى بشكل أفضل.
استمع المقيمون البشريون إلى عينات صوتية لتأكيد النتائج. حددوا ما إذا كانوا يسمعون استمرارًا حقيقيًا لصوت بشري تم تسجيله أو صوتًا اصطناعيًا تم إنتاجه بواسطة AudioLM. تشير بياناتهم إلى معدل نجاح 51.2٪. نتيجة لذلك ، سيكون من الصعب على المستمع العادي التمييز بين الكلام الذي تنتجه AudioLM والكلام البشري الفعلي.
هل تعمل تقنية تحويل النص إلى موسيقى على تغيير أعمال الموسيقى؟
منشئ تحويل النص إلى موسيقى يعتمد على ملف موبيرت API تم الإعلان عنه مؤخرًا بواسطة نموذج آخر للذكاء الاصطناعي، Mubert. يقوم Mubert بإنشاء مجموعة مختلفة من الأصوات لكل طلب ترسله. احتمال التكرار ضئيل حقًا. يتم إنشاء الموسيقى عند تقديم الطلب؛ لا يتم سحبه من قاعدة بيانات الألحان النهائية. كيف حقا توليد هذه الموسيقى هو سؤال شائع.
يتم اختيار الأصوات قبل إنشائها. يتم ترميز كل من موجه الإدخال وعلامات Mubert API إلى ناقل الفضاء الكامن للشبكة العصبية للمحولات. ثم يتم اختيار أقرب متجه للعلامات لكل استعلام ، ويتم نقل العلامات المصاحبة إلى واجهة برمجة التطبيقات الخاصة بنا لإنشاء الموسيقى. لم يتم استخدام أي شبكة عصبية لإنشاء أي من الأصوات (حلقات منفصلة للباس ، والخيوط ، وما إلى ذلك) ؛ تم إنتاج جميع الأصوات بواسطة موسيقيين ومصممي صوت.
تتمثل الخطوة المهمة التالية لموبيرت في أخذ عناصر من العالم الحالي ، مثل الصور والأفلام والسيناريوهات والعروض التقديمية ، وإنشاء موسيقى العالم من حولك.
إليك ما يمكنك الحصول عليه من خلال وضع رسائل نصية بتهور في فم موسيقي Mubert AI:
هذه هي المرحلة الأولى في عملية بناء خوارزمية توليد أكثر تعقيدًا ودقة ، لكن هذا سيستغرق وقتًا ومالًا.
ومع ذلك ، فإن تقنية تحويل النص إلى موسيقى متاحة بالفعل ، لذا يمكنك إنشاء ألبومات مجمعة عن طريق تبديل "موجه الإدخال" إلى "كتابة نص موجه عشوائي". يبدو أن الفنانين لم يعد مطلوبًا.
اقرأ المزيد من الأخبار ذات الصلة:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.