दिसम्बर 26/2023

टेक्स्ट-टू-स्पीच एआई मॉडल

प्रकाशित: 26 दिसंबर, 2023 पूर्वाह्न 10:57 बजे अद्यतन: 26 दिसंबर, 2023 पूर्वाह्न 10:57 बजे

टेक्स्ट-टू-स्पीच AI मॉडल क्या है?

टेक्स्ट-टू-स्पीच (टीटीएस) कम विलंबता के साथ टेक्स्ट से प्राकृतिक-ध्वनि, उच्च गुणवत्ता वाली आवाज उत्पन्न करना कई वर्षों से एक समस्या रही है। मूल रूप से, इसे लिखित पाठ को उन लोगों के लिए सुनने योग्य बनाने के लिए डिज़ाइन किया गया था जो पढ़ने में अक्षम हैं या जिन्हें पढ़ने में परेशानी होती है। टेक्स्ट-टू-स्पीच तकनीक का उपयोग कई अलग-अलग स्थितियों में किया जा रहा है जहां पढ़ना अव्यावहारिक है या जहां पहले मानव ऑपरेटरों की आवश्यकता थी। इनमें आभासी सहायकों का संचालन करना, संपर्क केंद्र में उपभोक्ताओं के साथ बातचीत करना और ड्राइविंग निर्देश देना शामिल है। सबसे लोकप्रिय प्रणालियाँ पूर्व-रिकॉर्ड किए गए ध्वनि खंडों की वास्तविक समय असेंबली को नियोजित करती हैं। तंत्रिका नेटवर्क का उपयोग हाल ही में पूरी तरह से मशीन-जनित भाषण उत्पन्न करने के लिए किया गया है जो प्राकृतिक लगता है।

सम्बंधित: टेक्स्ट-टू-स्पीच के लिए शीर्ष 7 एआई वॉयस जेनरेटर और वॉयस क्लोनिंग

टेक्स्ट-टू-स्पीच एआई मॉडल की समझ

लगभग सभी व्यक्तिगत डिजिटल उपकरण, जैसे पीसी, सेलफोन और टैबलेट, टीटीएस के साथ संगत हैं। वर्ड और पेज दस्तावेज़ों सहित किसी भी प्रकार की टेक्स्ट फ़ाइल को ज़ोर से पढ़ना संभव है। वेब पेजों को ऑनलाइन भी ऊंची आवाज में पढ़ा जा सकता है। टीटीएस एक कंप्यूटर द्वारा जोर से पढ़ता है, और यह पाठक को पढ़ने की गति चुनने की अनुमति देता है। हालाँकि आवाज़ों की गुणवत्ता अलग-अलग होती है, कुछ का स्वर मानवीय होता है। यहां तक कि कंप्यूटर द्वारा उत्पन्न ध्वनियां भी छोटे बच्चों की बोली की नकल कर सकती हैं।

कई टीटीएस प्रौद्योगिकियों की एक विशेषता ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) है। ओसीआर की बदौलत टीटीएस प्रोग्राम फोटो से टेक्स्ट को जोर से पढ़ सकते हैं। उदाहरण के लिए, एक बच्चा किसी सड़क चिन्ह की तस्वीर खींच सकता है और पाठ को आवाज में लिखवा सकता है।

टेक्स्ट-टू-स्पीच टूल के प्रकार

अंतर्निहित पाठ-से-वाक्: कई गैजेट पहले से इंस्टॉल टीटीएस टूल के साथ आते हैं। इसमें क्रोम, डिजिटल टैबलेट, स्मार्टफोन और डेस्कटॉप और लैपटॉप पीसी शामिल हैं।
टेक्स्ट-टू-स्पीच ऐप्स: टीटीएस ऐप्स डिजिटल टैबलेट और स्मार्टफोन पर भी डाउनलोड के लिए उपलब्ध हैं। ये प्रोग्राम अक्सर ओसीआर और बहुरंगी टेक्स्ट हाइलाइटिंग जैसी अनूठी क्षमताओं के साथ आते हैं। क्लारो स्कैनपेन, वॉयस ड्रीम रीडर और ऑफिस लेंस इसके कुछ उदाहरण हैं।
क्रोम उपकरण: कई टीटीएस टूल के साथ एक अपेक्षाकृत हालिया प्लेटफ़ॉर्म क्रोम है। Google Chrome के लिए पढ़ें और लिखें और Snap&Read यूनिवर्सल उनमें से दो हैं। ये उपकरण Chromebook और Chrome चलाने वाले किसी भी अन्य कंप्यूटर के साथ संगत हैं।

टेक्स्ट-टू-स्पीच भाषा अनुवाद जैसे संवादात्मक एआई क्षेत्रों में लगातार प्रवेश कर रहा है, जिसमें स्वचालित वाक् पहचान (एएसआर) और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) शामिल हैं। वाक् पहचान तकनीक का ग्राहक सहायता में अनुप्रयोग बढ़ रहा है, जहां यह कठिन प्रश्नों को समझ सकता है, डेटाबेस में उत्तर ढूंढ सकता है और पाठ से वाक् प्रतिक्रियाएँ प्रदान कर सकता है। इन दिनों, टेलीमार्केटर्स इन प्रणालियों का उपयोग बातचीत करने वाले रोबोटों के लिए मानव कॉल करने वालों को स्वैप करने के लिए करते हैं, जो उस हद तक यथार्थवादी बातचीत करने में सक्षम होते हैं, जिसके लिए ऑपरेटर की आवश्यकता नहीं होती है।

सम्बंधित: सर्वश्रेष्ठ 10 एआई पॉडकास्ट जेनरेटर जो आपको भीड़ से अलग दिखने में मदद करेंगे

टेक्स्ट-टू-स्पीच एआई मॉडल के बारे में नवीनतम समाचार

मेटा का वॉयसबॉक्स एक जेनरेटिव स्पीच एआई टूल है जो टेक्स्ट को यथार्थवादी और अभिव्यंजक भाषण में बदल सकता है। यह शोर हटाने, टेक्स्ट-टू-स्पीच संश्लेषण और क्रॉस-लिंगुअल स्टाइल ट्रांसफर जैसे कार्यों में उत्कृष्टता प्राप्त करता है। एआई मॉडल 20 गुना तेज गति से काम करता है और 50,000 घंटे से अधिक अनफ़िल्टर्ड ऑडियो के डेटासेट का उपयोग करके व्यापक प्रशिक्षण लिया गया है। हालाँकि, वॉयसबॉक्स नैतिक और सामाजिक चुनौतियाँ उठाता है, खासकर डीपफेक के संदर्भ में।
माइक्रोसॉफ्ट का VALL-E एक ट्रांसफार्मर-आधारित टीटीएस मॉडल है जो तीन सेकंड का नमूना सुनने के बाद किसी भी आवाज में भाषण उत्पन्न कर सकता है, जो पिछले मॉडल की तुलना में एक महत्वपूर्ण सुधार है। इस ट्रांसफार्मर-आधारित मॉडल में डिजिटल मीडिया के साथ हमारे इंटरैक्ट करने के तरीके को बदलने और टीटीएस सिस्टम को अधिक प्राकृतिक बनाने की क्षमता है। मॉडल, जिसका स्वरूप डेल-1 जैसा है, को कोड की कमी और संभावित घोटाले की प्रकृति के कारण कुछ संदेह के साथ जारी किया गया है।
इलेवनलैब्स ने प्रारंभिक चरण की बी2सी और बी2बी कंपनियों के लिए मानव जैसी एआई आवाजों को अपनी परियोजनाओं में एकीकृत करने के लिए एक अनुदान कार्यक्रम शुरू किया है। कार्यक्रम 4,000 अनुदान देता है, तीन महीनों के लिए 33 मिलियन टेक्स्ट वर्णों को अनलॉक करता है। लक्ष्य उभरते प्लेटफार्मों को बिना किसी लागत के 100 बिलियन से अधिक टेक्स्ट-टू-स्पीच और डबिंग एआई कैरेक्टर प्रदान करना है।

मैंने अपनी स्ट्रीम के लिए फ़ाइनल से एआई उद्घोषकों को टेक्स्ट-टू-स्पीच में बदल दिया और परिणाम भयावह हैं। pic.twitter.com/ZGuVosJmxH
- ब्लर्ब्स (@Blurbstv) दिसम्बर 22/2023

🎬प्रेरणा का अंतहीन सागर

आज, @runwayml सभी के लिए टेक्स्ट-टू-स्पीच लॉन्च किया गया! मैंने GEN-2 और नए भाषण फीचर का उपयोग करके एक त्वरित लघु फिल्म बनाई!

जाहिर है, ध्वनि चालू! 🔊 pic.twitter.com/RyCQF9zGjC
- निकोलस न्यूबर्ट (@iamneubert) दिसम्बर 19/2023

टेक्स्ट-टू-स्पीच और स्पीच-टू-स्पीच के लिए सभी अच्छे ओपन सोर्स एआई प्रोजेक्ट चीनी वेब्स द्वारा किए जाते हैं
- यीफेई ई/λ (@yifever) दिसम्बर 20/2023

«ग्लोसरी इंडेक्स पर वापस

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

विक्टोरिया विभिन्न प्रौद्योगिकी विषयों पर लेखिका हैं Web3.0, एआई और क्रिप्टोकरेंसी। उनका व्यापक अनुभव उन्हें व्यापक दर्शकों के लिए ज्ञानवर्धक लेख लिखने की अनुमति देता है।

और अधिक लेख

विक्टोरिया पालचिक