VALL-E: माइक्रोसॉफ्ट का नया जीरो-शॉट टेक्स्ट-टू-स्पीच मॉडल तीन सेकंड में हर किसी की आवाज की नकल कर सकता है
संक्षेप में
किसी भी आवाज के सिर्फ तीन सेकंड के नमूने के साथ, ट्रांसफार्मर-आधारित टीटीएस मॉडल VALL-E हर आवाज में भाषण उत्पन्न कर सकता है.
यह अधिक प्राकृतिक लगने वाले टीटीएस सिस्टम की दिशा में एक महत्वपूर्ण प्रगति है।
हालाँकि, Microsoft ने उपयोग में मॉडल के कुछ नमूने प्रदान किए हैं, और यह स्पष्ट है कि यह TTS तकनीक में एक महत्वपूर्ण विकास का प्रतिनिधित्व करता है।
पहले टेक्स्ट-टू-स्पीच (टीटीएस) मॉडल के जारी होने के बाद से, शोधकर्ता इन प्रणालियों के भाषण उत्पन्न करने के तरीके में सुधार के तरीकों की तलाश कर रहे हैं। माइक्रोसॉफ्ट से नवीनतम मॉडल, घाटी, इस दिशा में एक महत्वपूर्ण कदम है।
VALL-E एक ट्रांसफ़ॉर्मर-आधारित TTS मॉडल है जो किसी भी आवाज़ में उस आवाज़ के केवल तीन सेकंड के नमूने को सुनने के बाद भाषण उत्पन्न कर सकता है। यह पिछले मॉडलों की तुलना में एक महत्वपूर्ण सुधार है, जिसमें एक नई आवाज उत्पन्न करने के लिए अधिक लंबी प्रशिक्षण अवधि की आवश्यकता होती है।
संबंधित लेख: Microsoft ने एक प्रसार मॉडल जारी किया है जो किसी व्यक्ति की एक तस्वीर से 3D अवतार बना सकता है |
इसके अतिरिक्त, स्वर-शैली, करिश्मा और आवाज की शैली सभी को उत्पन्न भाषण में बरकरार रखा जाता है। टीटीएस सिस्टम को अधिक स्वाभाविक बनाने की दिशा में यह एक महत्वपूर्ण कदम है।
यह मॉडल ट्रांसफार्मर-आधारित है और इसकी उपस्थिति डेल-1 है। प्रसार-आधारित दल्ले-2 के साथ भ्रमित न हों। कोड की अभी भी कमी है। और उपयोगकर्ताओं को कुछ संदेह है कि वे इसे पोस्ट करेंगे।
हालाँकि, Microsoft ने मॉडल के कुछ उदाहरण कार्रवाई में जारी किए हैं, और यह स्पष्ट है कि यह TTS तकनीक में एक प्रमुख प्रगति है।
# 1 उदाहरण:
उदाहरण #2:
# 3 उदाहरण:
एआई के बारे में और पढ़ें:
Disclaimer
साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।
के बारे में लेखक
दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।
और अधिक लेखदामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।