Google AI ने सबसे पहले टेक्स्ट-टू-म्यूजिक जेनरेटर AudioLM की घोषणा की
संक्षेप में
AudioLM केवल ध्वनियाँ सुनकर संगीत उत्पन्न कर सकता है
Mubert AI मानव भाषण और पियानो संगीत जारी रखने के लिए
- GPT-3 और अन्य, जेनेरिक एआई के विचार के आगे बढ़ने की अच्छी संभावना है। हमने इनपेंटिंग और आउटपेंटिंग की अवधारणाओं की भी खोज की; एआई थीम और शैली को बनाए रखते हुए छवियों को कुशलतापूर्वक पूरा करता है। संगीत के बारे में क्या?
और फिर भी! चूंकि यह सब एआई भाषा मॉडल पर आधारित है जो अर्थ बनाए रखता है, यह तकनीक संगीत पर लागू होने से पहले की बात थी। और अब समय आ गया है।
हाल के Google शोध के अनुसार, ऑडियो उत्पादन के लिए एक नया ढांचा जिसे ऑडियो एलएम कहा जाता है, केवल ध्वनियों को सुनकर यथार्थवादी भाषण और पियानो संगीत बनाना सिखाया जा सकता है। इसकी दीर्घकालिक स्थिरता और उत्कृष्ट विश्वस्तता के कारण, AudioLM पहले के सिस्टम से आगे निकल गया है और ध्वनि संश्लेषण और कंप्यूटर-सहायता प्राप्त संगीत में अनुप्रयोगों के साथ ऑडियो निर्माण को आगे बढ़ाता है।
ऑडियो एलएम Google AI "इरादा" रखते हुए एक ध्वनिक मार्ग का विस्तार कर सकता है। अब तक, इसे इनपुट डेटा के सीमित नमूने के आधार पर मानव भाषण और पियानो संगीत जारी रखने के लिए प्रशिक्षित किया गया है। नीचे दिए गए नमूने की जाँच करें।
भाषण के मानदंड सीधे थे: श्रोताओं को यह आकलन करने के लिए कहा गया था कि क्या निरंतरता मानव भाषण की तरह लगती है। संगीत के साथ, यह पता चला कि इनपुट के लिए आपूर्ति किए गए अनुभाग की "निरंतरता" सभी मौजूदा संगीत जनरेटर की तुलना में गुणवत्ता में कहीं बेहतर है, जैसे कि ज्यूकबॉक्स. इनपुट पर एक सुझाव के साथ, एआई संगीत को काफी बेहतर तरीके से जारी रखता है।
मानव रेटर ने परिणामों की पुष्टि करने के लिए ऑडियो नमूनों को सुना। उन्होंने निर्धारित किया कि क्या वे रिकॉर्ड की गई मानव आवाज की वास्तविक निरंतरता सुन रहे थे या ऑडियोएलएम द्वारा निर्मित एक कृत्रिम आवाज। उनका डेटा 51.2% सफलता दर दर्शाता है। नतीजतन, औसत श्रोता के लिए ऑडियोएलएम द्वारा उत्पादित भाषण और वास्तविक मानव भाषण के बीच अंतर करना चुनौतीपूर्ण होगा।
क्या टेक्स्ट-टू-म्यूजिक तकनीक संगीत व्यवसाय को बदल देती है?
टेक्स्ट-टू-म्यूजिक जेनरेटर पर आधारित है मुबर्ट एपीआई हाल ही में एक अन्य एआई मॉडल, मुबर्ट द्वारा घोषणा की गई थी। मुबर्ट आपके द्वारा भेजे जाने वाले प्रत्येक अनुरोध के लिए ध्वनियों का एक अलग सेट बनाता है। दोबारा होने की संभावना वास्तव में बहुत कम है। जब अनुरोध किया जाता है तो संगीत बनता है; इसे तैयार धुनों के डेटाबेस से नहीं निकाला गया है। कितना सच में इस संगीत को उत्पन्न करें यह एक सामान्य प्रश्न है.
ध्वनियाँ बनने से पहले चुनी जाती हैं। दोनों इनपुट प्रॉम्प्ट और मबर्ट एपीआई टैग ट्रांसफॉर्मर न्यूरल नेटवर्क के लेटेंट स्पेस वेक्टर के लिए एन्कोड किए गए हैं। प्रत्येक क्वेरी के लिए निकटतम टैग वेक्टर तब चुना जाता है, और संगीत बनाने के लिए संबंधित टैग हमारे एपीआई को प्रेषित किए जाते हैं। किसी भी ध्वनि के निर्माण के लिए किसी तंत्रिका नेटवर्क का उपयोग नहीं किया गया था (बास, लीड, आदि के लिए अलग लूप); सभी ध्वनियाँ संगीतकारों और ध्वनि डिजाइनरों द्वारा निर्मित की गई थीं।
मुबर्ट का अगला महत्वपूर्ण कदम वर्तमान दुनिया से आइटम लेना है, जैसे फोटो, फिल्में, परिदृश्य और प्रस्तुतियां, और अपने आसपास की दुनिया का संगीत बनाना।
म्यूजिकल Mubert AI के मुहाने पर लापरवाही से टेक्स्ट प्रॉम्प्ट डालने से आप क्या प्राप्त कर सकते हैं:
यह अधिक परिष्कृत और सटीक जनरेटिंग एल्गोरिथम बनाने की प्रक्रिया का प्रारंभिक चरण है, लेकिन इसमें समय और पैसा लगेगा।
हालाँकि, टेक्स्ट-टू-म्यूजिक तकनीक पहले से ही उपलब्ध है, इसलिए आप "रैंडम प्रॉम्प्ट स्क्रिप्ट लिखें" के लिए "इनपुट प्रॉम्प्ट" को स्विच करके बल्क में एल्बम बना सकते हैं। लगता है कलाकारों की अब जरूरत नहीं है।
पढ़ें इससे जुड़ी और खबरें:
Disclaimer
साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।
के बारे में लेखक
दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।
और अधिक लेखदामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।