अक्टूबर 21

Google AI ने सबसे पहले टेक्स्ट-टू-म्यूजिक जेनरेटर AudioLM की घोषणा की

प्रकाशित: 21 अक्टूबर, 2022 दोपहर 12:09 बजे अद्यतन: 21 अक्टूबर, 2022 दोपहर 12:10 बजे

संक्षेप में

AudioLM केवल ध्वनियाँ सुनकर संगीत उत्पन्न कर सकता है

Mubert AI मानव भाषण और पियानो संगीत जारी रखने के लिए

- GPT-3 और अन्य, जेनेरिक एआई के विचार के आगे बढ़ने की अच्छी संभावना है। हमने इनपेंटिंग और आउटपेंटिंग की अवधारणाओं की भी खोज की; एआई थीम और शैली को बनाए रखते हुए छवियों को कुशलतापूर्वक पूरा करता है। संगीत के बारे में क्या?

और फिर भी! चूंकि यह सब एआई भाषा मॉडल पर आधारित है जो अर्थ बनाए रखता है, यह तकनीक संगीत पर लागू होने से पहले की बात थी। और अब समय आ गया है।

Google AI ने अब तक के पहले टेक्स्ट-टू-म्यूजिक जेनरेटर AudioLM की घोषणा की

हाल के Google शोध के अनुसार, ऑडियो उत्पादन के लिए एक नया ढांचा जिसे ऑडियो एलएम कहा जाता है, केवल ध्वनियों को सुनकर यथार्थवादी भाषण और पियानो संगीत बनाना सिखाया जा सकता है। इसकी दीर्घकालिक स्थिरता और उत्कृष्ट विश्वस्तता के कारण, AudioLM पहले के सिस्टम से आगे निकल गया है और ध्वनि संश्लेषण और कंप्यूटर-सहायता प्राप्त संगीत में अनुप्रयोगों के साथ ऑडियो निर्माण को आगे बढ़ाता है।

हमने उन्हीं AI अवधारणाओं का उपयोग करके AudioLM-निर्मित सिंथेटिक ध्वनियों को पहचानने के लिए एक प्रणाली विकसित की है जो हमारे पिछले मॉडलों के निर्माण को रेखांकित करती हैं।

ऑडियो एलएम Google AI "इरादा" रखते हुए एक ध्वनिक मार्ग का विस्तार कर सकता है। अब तक, इसे इनपुट डेटा के सीमित नमूने के आधार पर मानव भाषण और पियानो संगीत जारी रखने के लिए प्रशिक्षित किया गया है। नीचे दिए गए नमूने की जाँच करें।

भाषण के मानदंड सीधे थे: श्रोताओं को यह आकलन करने के लिए कहा गया था कि क्या निरंतरता मानव भाषण की तरह लगती है। संगीत के साथ, यह पता चला कि इनपुट के लिए आपूर्ति किए गए अनुभाग की "निरंतरता" सभी मौजूदा संगीत जनरेटर की तुलना में गुणवत्ता में कहीं बेहतर है, जैसे कि ज्यूकबॉक्स. इनपुट पर एक सुझाव के साथ, एआई संगीत को काफी बेहतर तरीके से जारी रखता है।

मानव रेटर ने परिणामों की पुष्टि करने के लिए ऑडियो नमूनों को सुना। उन्होंने निर्धारित किया कि क्या वे रिकॉर्ड की गई मानव आवाज की वास्तविक निरंतरता सुन रहे थे या ऑडियोएलएम द्वारा निर्मित एक कृत्रिम आवाज। उनका डेटा 51.2% सफलता दर दर्शाता है। नतीजतन, औसत श्रोता के लिए ऑडियोएलएम द्वारा उत्पादित भाषण और वास्तविक मानव भाषण के बीच अंतर करना चुनौतीपूर्ण होगा।

क्या टेक्स्ट-टू-म्यूजिक तकनीक संगीत व्यवसाय को बदल देती है?

टेक्स्ट-टू-म्यूजिक जेनरेटर पर आधारित है मुबर्ट एपीआई हाल ही में एक अन्य एआई मॉडल, मुबर्ट द्वारा घोषणा की गई थी। मुबर्ट आपके द्वारा भेजे जाने वाले प्रत्येक अनुरोध के लिए ध्वनियों का एक अलग सेट बनाता है। दोबारा होने की संभावना वास्तव में बहुत कम है। जब अनुरोध किया जाता है तो संगीत बनता है; इसे तैयार धुनों के डेटाबेस से नहीं निकाला गया है। कितना सच में इस संगीत को उत्पन्न करें यह एक सामान्य प्रश्न है.

ध्वनियाँ बनने से पहले चुनी जाती हैं। दोनों इनपुट प्रॉम्प्ट और मबर्ट एपीआई टैग ट्रांसफॉर्मर न्यूरल नेटवर्क के लेटेंट स्पेस वेक्टर के लिए एन्कोड किए गए हैं। प्रत्येक क्वेरी के लिए निकटतम टैग वेक्टर तब चुना जाता है, और संगीत बनाने के लिए संबंधित टैग हमारे एपीआई को प्रेषित किए जाते हैं। किसी भी ध्वनि के निर्माण के लिए किसी तंत्रिका नेटवर्क का उपयोग नहीं किया गया था (बास, लीड, आदि के लिए अलग लूप); सभी ध्वनियाँ संगीतकारों और ध्वनि डिजाइनरों द्वारा निर्मित की गई थीं।

मुबर्ट का अगला महत्वपूर्ण कदम वर्तमान दुनिया से आइटम लेना है, जैसे फोटो, फिल्में, परिदृश्य और प्रस्तुतियां, और अपने आसपास की दुनिया का संगीत बनाना।

म्यूजिकल Mubert AI के मुहाने पर लापरवाही से टेक्स्ट प्रॉम्प्ट डालने से आप क्या प्राप्त कर सकते हैं:

यह अधिक परिष्कृत और सटीक जनरेटिंग एल्गोरिथम बनाने की प्रक्रिया का प्रारंभिक चरण है, लेकिन इसमें समय और पैसा लगेगा।

हालाँकि, टेक्स्ट-टू-म्यूजिक तकनीक पहले से ही उपलब्ध है, इसलिए आप "रैंडम प्रॉम्प्ट स्क्रिप्ट लिखें" के लिए "इनपुट प्रॉम्प्ट" को स्विच करके बल्क में एल्बम बना सकते हैं। लगता है कलाकारों की अब जरूरत नहीं है।

पढ़ें इससे जुड़ी और खबरें:

टैग:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।

और अधिक लेख

दामिर यालालोव