फ़रवरी 15, 2023

SingSong: Google AI शोधकर्ता इनपुट वोकल्स के साथ संगीत उत्पन्न करने का एक तरीका खोजते हैं

प्रकाशित: फ़रवरी 15, 2023 दोपहर 4:00 बजे अद्यतन: फ़रवरी 15, 2023 दोपहर 2:50 बजे

संक्षेप में

सिंगसॉन्ग नामक नई प्रणाली गहराई का उपयोग करती है लर्निंग मॉडल ऐसा संगीत उत्पन्न करना जो मौजूदा प्रणालियों की तुलना में गायन के साथ अधिक मेल खाता हो।

शोधकर्ताओं का कहना है कि पेशेवर गायकों के लिए कराओके ट्रैक बनाने या शौकिया गायकों को उनकी आवाज से मेल खाने वाली संगत खोजने में मदद करने के लिए सिस्टम का इस्तेमाल किया जा सकता है।

Google के शोधकर्ताओं ने गायन के अनुकूल संगीत उत्पन्न करने के लिए कृत्रिम बुद्धिमत्ता का उपयोग करने का एक तरीका खोजा है। नई प्रणाली, जिसे सिंगसॉन्ग कहा जाता है, संगत बनाने के लिए एक गहन शिक्षण मॉडल का उपयोग करती है जो अन्य मौजूदा प्रणालियों की तुलना में गायन के साथ अधिक तालमेल बिठाती है। शोधकर्ताओं का कहना है कि इस प्रणाली का इस्तेमाल पेशेवर गायकों के लिए कराओके ट्रैक बनाने के लिए या शौकिया गायकों को उनकी आवाज़ के अनुकूल संगत खोजने में मदद करने के लिए किया जा सकता है।

कराओके उल्टा: एआई शोधकर्ताओं ने गायन के लिए संगीत उत्पन्न करने का एक तरीका खोजा — संगत बनाने के लिए पिछली प्रणालियाँ एल्गोरिदम पर निर्भर करती हैं जो गायन के समय और पिच से मेल खाने की कोशिश करती हैं।

गीत गाओ Google द्वारा विकसित एक प्रणाली है जो इनपुट वोकल्स के साथ वाद्य संगीत बनाती है। यह संगीतकारों और गैर-संगीतकारों दोनों को संगीत बनाने के लिए एक सरल नया दृष्टिकोण प्रदान कर सकता है जो उनकी अपनी आवाज़ों को प्रदर्शित करता है। डेवलपर्स इसे प्राप्त करने के लिए संगीत स्रोत पृथक्करण और ऑडियो उत्पादन में हालिया प्रगति पर निर्माण करते हैं। डेवलपर्स विशेष रूप से संगीत रिकॉर्डिंग के एक विशाल कोष से संरेखित स्वर और वाद्य स्रोत जोड़े बनाने के लिए एक अत्याधुनिक स्रोत पृथक्करण विधि का उपयोग करते हैं। फिर, डेवलपर्स संशोधित करते हैं ऑडियो एलएम, बिना शर्त ऑडियो उत्पादन के लिए एक अत्याधुनिक विधि, ताकि इसे सशर्त "ऑडियो-टू-ऑडियो" जनरेशन कार्यों के लिए स्रोत-पृथक (मुखर, वाद्य) जोड़े पर प्रशिक्षित किया जा सके।

अनुशंसित पोस्ट: शीर्ष 5 एआई संगीत और ऑडियो जेनरेटर रॉयल्टी मुक्त ट्रैक बनाने के लिए

एआई शोधकर्ता वोकल इनपुट के विभिन्न विशेषताकरण की जांच करते हैं, जिनमें से सबसे अच्छा स्रोत-पृथक प्रशिक्षण डेटा से सिस्टम के सामान्यीकरण में सुधार करने के लिए डिफ़ॉल्ट ऑडियोएलएम फीचराइजेशन की तुलना में पृथक वोकल्स पर 53% तक मात्रात्मक प्रदर्शन को बढ़ाता है (जहां वोकल्स में आर्टिफैक्ट्स होते हैं। इंस्ट्रूमेंटल) अलग-अलग वोकल्स के लिए डेवलपर्स उपयोगकर्ताओं से उम्मीद कर सकते हैं। श्रोताओं ने सिंगसॉन्ग द्वारा निर्मित वाद्ययंत्रों के लिए एक ही आवाज इनपुट के साथ जोड़ीदार तुलना में एक मजबूत पुनर्प्राप्ति आधार रेखा से उन उपकरणों के लिए पर्याप्त वरीयता प्रदर्शित की।

इसके विपरीत, नई प्रणाली, का उपयोग करती है गहन शिक्षण मॉडल जिसे संगीत के एक बड़े डेटासेट पर प्रशिक्षित किया गया है। यह सिस्टम को ऐसी संगत उत्पन्न करने की अनुमति देता है जो गायक की आवाज़ और समय के अनुरूप होती है।

अध्ययन के लिए, श्रोताओं को दो 10-सेकंड के स्वर-वाद्य मैशअप दिए जाते हैं जिनमें आवाजें (MUSDB18-परीक्षण से ली गई) समान होती हैं जबकि वाद्य यंत्र भिन्न होते हैं और विभिन्न स्रोतों से आते हैं (जमीनी सच्चाई, गूगल मॉडल, या आधारभूत)। प्रश्न श्रोताओं से यह चुनने के लिए कहता है कि दोनों में से कौन सा संयोजन उन्हें लगता है कि वाद्ययंत्र स्वरों को संगीत की दृष्टि से अधिक उपयुक्त बनाता है।

अनुशंसित पोस्ट: टेक्स्ट-टू-स्पीच के लिए शीर्ष 7 एआई वॉयस जेनरेटर और वॉयस क्लोनिंग

सिंगसॉन्ग के ताजा उदाहरण

गहरे तंत्रिका नेटवर्क की एक श्रृंखला का उपयोग करके और जेनेरिक मॉडल, डेवलपर्स लंबे खंडों के लिए बिना किसी विलंबता के हार्मोनिक संगत का उत्पादन करने में सक्षम हैं।

MUSDB18 डेटासेट की पेशेवर आवाज़ों का उपयोग पिछले उदाहरणों में किया गया था। हम सिंगसॉन्ग की किसी को भी अपनी आवाज से संगीत तैयार करने में मदद करने और सक्षम करने की क्षमता से भी प्रभावित हैं। यहां, हम वोकाडिटो डेटासेट से मुखर नमूनों का उपयोग करके इसकी जांच करते हैं, जिसमें उपभोक्ता इलेक्ट्रॉनिक्स पर शौकिया गायकों की रिकॉर्डिंग शामिल है।

प्रणाली अभी भी विकास के प्रारंभिक चरण में है। जबकि शोधकर्ताओं का कहना है कि इसे व्यावसायिक रूप से उपयोग करने से पहले इसमें सुधार करने की आवश्यकता होगी, उनका मानना है कि इसमें कराओके उद्योग में क्रांति लाने की क्षमता है और शौकिया गायकों को संगत खोजने में मदद मिलती है जो उनके लिए अच्छा काम करता है।

अधिक संबंधित लेख पढ़ें:

टैग:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।

और अधिक लेख

दामिर यालालोव