30 मई 2023

साउंडस्टॉर्म: Google ने रीयल-टाइम वॉयस प्रतिकृति के लिए सक्षम एआई टूल का खुलासा किया

by दामिर यालालोव

प्रकाशित: 30 मई, 2023 प्रातः 10:00 बजे अद्यतन: 30 मई, 2023 प्रातः 7:26 बजे

by करोलिना गास्ज़्ज़

संपादित और तथ्य-जांचा गया: 30 मई, 2023 सुबह 10:00 बजे

संक्षेप में

Google ने कुशल और गैर-ऑटोरेग्रेसिव ऑडियो पीढ़ी के लिए अत्याधुनिक मॉडल साउंडस्टॉर्म पेश किया है।

यह पीढ़ी के समय को काफी कम करते हुए उच्च-गुणवत्ता वाले ऑडियो उत्पन्न करने के लिए द्विदिश ध्यान और आत्मविश्वास-आधारित समानांतर डिकोडिंग को नियोजित करता है।

इसमें प्राकृतिक संवादों को संश्लेषित करने की क्षमता भी है।

Google ने आर्टिफिशियल इंटेलिजेंस तकनीक में अपनी नवीनतम सफलता के साथ पेश किया है साउंडस्टॉर्म, कुशल और गैर-ऑटोरेग्रेसिव ऑडियो जनरेशन के लिए एक अत्याधुनिक मॉडल। करने की क्षमता के साथ संवादों का संश्लेषण करें विभिन्न आवाज़ों के साथ, साउंडस्टॉर्म अनुप्रयोगों के लिए नई संभावनाएं खोलता है जैसे कि लिखित पाठ से ऑडियो सामग्री उत्पन्न करना और यथार्थवादी पॉडकास्ट बनाना।

साउंडस्टॉर्म: Google ने रीयल-टाइम वॉयस प्रतिकृति के लिए सक्षम एआई टूल का खुलासा किया — @Midjourney

अपने पूर्ववर्ती के विपरीत ऑडियो एलएम, साउंडस्टॉर्म एक उपन्यास वास्तुकला का उपयोग करता है जो दक्षता को बढ़ाते हुए 30 सेकंड के हिस्से में ऑडियो उत्पन्न करता है। द्विदिश ध्यान और विश्वास-आधारित समानांतर डिकोडिंग का उपयोग करके, मॉडल पीढ़ी के समय को काफी कम करते हुए उच्च गुणवत्ता वाले ऑडियो का उत्पादन करता है। Google के TPU-v4 हार्डवेयर पर, साउंडस्टॉर्म केवल 30 सेकंड में 0.5 सेकंड का ऑडियो उत्पन्न कर सकता है, जो गति में पर्याप्त सुधार को चिह्नित करता है।

साउंडस्टॉर्म का प्रशिक्षण 100,000 घंटों के संवाद के विशाल डेटासेट का उपयोग करके आयोजित किया गया था, जो बोली जाने वाली भाषा के पैटर्न की एक मजबूत समझ सुनिश्चित करता है। AudioLM द्वारा प्राप्त ऑडियो गुणवत्ता को बनाए रखते हुए मॉडल आवाज और ध्वनिक स्थितियों में प्रभावशाली स्थिरता प्राप्त करता है। यह सफलता साउंडस्टॉर्म को अपने पूर्ववर्ती की तुलना में तीव्रता के दो आदेश देती है, जो स्केलेबल ऑडियो पीढ़ी के लिए अपनी क्षमता का प्रदर्शन करती है।

साउंडस्टॉर्म की प्रमुख क्षमताओं में से एक स्पीयर-टीटीएस के टेक्स्ट-टू-सिमेंटिक मॉडलिंग चरण का लाभ उठाकर प्राकृतिक संवादों को संश्लेषित करने की क्षमता है। स्पीकर टर्न और शॉर्ट वॉइस प्रॉम्प्ट के साथ ट्रांसक्रिप्ट प्रदान करके, उपयोगकर्ता बोली जाने वाली सामग्री और स्पीकर की आवाज़ को नियंत्रित कर सकते हैं। परीक्षण के दौरान, साउंडस्टॉर्म ने अपनी दक्षता और बहुमुखी प्रतिभा को प्रदर्शित करते हुए, एक एकल TPU-v30 पर केवल 2 सेकंड में 4-सेकंड संवाद खंडों को संश्लेषित करने की क्षमता का प्रदर्शन किया।

आवाज शीघ्र

संश्लेषित संवाद

मानक बेसलाइनों की तुलना में, साउंडस्टॉर्म द्वारा उत्पन्न ऑडियो ऑडियो एलएम के बराबर गुणवत्ता का है और बेहतर स्थिरता और ध्वनिक अखंडता को प्रदर्शित करता है। विशेष रूप से, जब एक भाषण नमूना देने के लिए कहा जाता है, तो मॉडल अद्भुत सटीकता के साथ वक्ता की आवाज को संरक्षित करता है, सजीव संवाद उत्पन्न करने की इसकी क्षमता को बहुत बढ़ाता है।

जबकि साउंडस्टॉर्म की क्षमताएं उत्कृष्ट हैं, इसे पहचानना और संभावित समाधान करना महत्वपूर्ण है नैतिक चिंताओं. एल्गोरिथम के लिए प्रशिक्षण डेटा उच्चारण और आवाज सुविधाओं से संबंधित पूर्वाग्रहों का परिचय दे सकता है। आवाजों की नकल करने की क्षमता का दुरुपयोग किया जा सकता है वेष बदलने का कार्य या बायोमेट्रिक पहचान को दरकिनार करने के लिए। Google इस तरह के दुरुपयोग को रोकने के लिए सुरक्षा के महत्व को रेखांकित करता है और पता लगाने की क्षमता सुनिश्चित करना समर्पित वर्गीकारकों के माध्यम से निर्मित ऑडियो का।

Google के नैतिक AI सिद्धांत संभावित खतरों और बाधाओं को दूर करने के अपने निरंतर प्रयासों को संचालित करते हैं। संगठन प्रशिक्षण डेटा और मॉडल आउटपुट के प्रभावों का गहन अध्ययन करने की आवश्यकता को महसूस करता है। वे इस तकनीक का नैतिक उपयोग करने के लिए संश्लेषित भाषण का पता लगाने के लिए ऑडियो वॉटरमार्किंग जैसे अतिरिक्त दृष्टिकोणों की जांच करने की भी योजना बना रहे हैं।

साउंडस्टॉर्म एआई-संचालित ऑडियो उत्पादन में एक बड़ा कदम है, जो उच्च-गुणवत्ता और कुशल न्यूरल ऑडियो कोडेक-व्युत्पन्न ऑडियो प्रतिनिधित्व प्रदान करता है। Google को उम्मीद है कि साउंडस्टॉर्म की कम मेमोरी और प्रोसेसिंग की जरूरतें व्यापक समुदाय के लिए ऑडियो जेनरेशन रिसर्च को और अधिक सुलभ बना देंगी। Google उत्तरदायित्वपूर्ण AI प्रथाओं को संरक्षित करने और साउंडस्टॉर्म के सुरक्षित और उत्तरदायित्वपूर्ण उपयोग को सुनिश्चित करने और प्रौद्योगिकी के विकास के रूप में क्षेत्र में तुलनीय सफलताओं के लिए समर्पित है।
घाटी, Microsoft का नवीनतम टेक्स्ट-टू-स्पीच (TTS) मॉडल, इन प्रणालियों द्वारा आवाज उत्पन्न करने के तरीके को बढ़ाने की दिशा में एक बड़ा कदम है। VALL-E एक है टीटीएस मॉडल ट्रांसफॉर्मर पर आधारित है जो उस आवाज के केवल तीन सेकंड के नमूने को सुनने के बाद किसी भी आवाज में भाषण उत्पन्न कर सकता है। यह पहले के मॉडलों की तुलना में एक बड़ी प्रगति है, जिसमें एक नई आवाज विकसित करने के लिए काफी लंबी प्रशिक्षण अवधि की आवश्यकता होती है।

एआई के बारे में और पढ़ें:

टैग:

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।

और अधिक लेख

दामिर यालालोव