VALL-E: مدل جدید تبدیل متن به گفتار صفر شات مایکروسافت می تواند صدای همه را در سه ثانیه کپی کند.
به طور خلاصه
مدل TTS مبتنی بر ترانسفورماتور تنها با یک نمونه سه ثانیه ای از هر صدا VALL-E می تواند گفتار را در هر صدا تولید کند.
این یک پیشرفت قابل توجه در جهت سیستم های TTS با صدای طبیعی تر است.
با این حال، مایکروسافت چند نمونه از مدل در حال استفاده را ارائه کرده است، و بدیهی است که این نشان دهنده پیشرفت قابل توجهی در فناوری TTS است.
از زمان انتشار اولین مدل تبدیل متن به گفتار (TTS)، محققان به دنبال راههایی برای بهبود نحوه تولید گفتار این سیستمها بودهاند. جدیدترین مدل مایکروسافت دره، گامی رو به جلو در این زمینه است.
VALL-E یک مدل TTS مبتنی بر ترانسفورماتور است که می تواند گفتار را در هر صدایی تنها پس از شنیدن یک نمونه سه ثانیه ای از آن صدا تولید کند. این یک پیشرفت قابل توجه نسبت به مدل های قبلی است که برای تولید صدای جدید به دوره آموزشی بسیار طولانی تری نیاز داشت.
علاوه بر این، لحن، کاریزما و سبک صدا همگی در گفتار تولید شده دست نخورده نگه داشته می شوند. این یک گام مهم به جلو در ایجاد صدای طبیعی تر سیستم های TTS است.
این مدل مبتنی بر ترانسفورماتور بوده و دارای ظاهری Dale-1 می باشد. نباید با Dalle-2 مبتنی بر انتشار اشتباه گرفته شود. کد هنوز وجود ندارد. و کاربران نسبت به ارسال آن تردید دارند.
با این حال، مایکروسافت چند نمونه از این مدل را در عمل منتشر کرده است و واضح است که این یک پیشرفت بزرگ در فناوری TTS است.
مثال # 1:
مثال #2:
مثال # 3:
درباره هوش مصنوعی بیشتر بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.