راهاندازی هوش مصنوعی MyShell الگوریتم OpenVoice را برای شبیهسازی صدای دقیق منتشر میکند.
به طور خلاصه
استارتآپ کانادایی هوش مصنوعی MyShell اعلام کرد که الگوریتم OpenVoice خود را برای شبیهسازی فوری صدا منبع باز کرده است.
Respeecher، Voicemod و Eleven Labs - هر سه استارت آپ یک چیز مشترک دارند - همه آنها الگوریتم ها و نرم افزار هوش مصنوعی را برای ساخت کلون های صوتی ارائه می دهند. اکنون، یک بازیکن جدید، استارتآپ هوش مصنوعی کانادایی MyShell اعلام کرد که الگوریتم OpenVoice خود را برای شبیهسازی فوری صدا منبع باز کرده است.
MyShell بهروزرسانی را در تاریخ به اشتراک گذاشت پلتفرم رسانه اجتماعی X و گفت: "صداها را با دقتی بی نظیر، با کنترل دقیق لحن، از احساسات گرفته تا لهجه، ریتم، مکث و لحن، تنها با استفاده از یک کلیپ صوتی کوچک، شبیه سازی کنید."
بر اساس این همکاری، محققان MIT، MyShell.ai و دانشگاه Tsinghua از OpenVoice رونمایی کردند که میتواند صدای گوینده را تکرار کند و گفتار تولید کند. چندین زبان، تنها با استفاده از یک قطعه صوتی مختصر از منبع اصلی. همچنین لحن و رنگ منحصر به فرد صدای گوینده را به تصویر می کشد.
به گفته این شرکت، این الگوریتم عناصر سبکی مهمی مانند احساس، لهجه، ریتم، مکث و لحن را اضافه می کند. این عناصر برای واقعی ساختن گفتار و ایجاد مکالمات جالب بسیار مهم هستند. این کمک می کند تا از صدای خسته کننده ای که اغلب با تبدیل متن به گفتار معمولی دریافت می کنید جلوگیری کنید.
چگونه مدل هوش مصنوعی شبیه سازی صدا کار می کند
در یک مقاله تحقیقاتی، OpenVoice متدولوژی پشت هوش مصنوعی شبیه سازی صدا را به اشتراک گذاشت. OpenVoice از دو مجزا تشکیل شده است مدل های هوش مصنوعی: یک مدل متن به گفتار (TTS) و یک مبدل آهنگ.
این مدل میتواند پارامترهای سبک و زبانها را مدیریت کند، و تحت "آموزش با استفاده از 30,000 جمله" از زبان انگلیسی (در هر دو لهجه آمریکایی و انگلیسی)، چینی و ژاپنی زبان قرار گرفته است. آموزش شامل برچسب زدن نمونه ها بر اساس احساسات بیان شده بود و مدل آهنگ، ریتم و مکث را از این کلیپ های صوتی یاد گرفت.
از سوی دیگر، مدل مبدل تن بر روی مجموعه داده وسیعی از بیش از 300,000 نمونه صوتی از بیش از 20,000 بلندگوی مختلف آموزش داده شد. در هر دو مورد، صدای گفتار انسان به واج - صداهای خاصی که کلمات را متمایز می کند - تبدیل شد و با استفاده از جاسازی های برداری نمایش داده شد.
مدل TTS، با استفاده از "اسپیکر پایه"، با لحن به دست آمده از صدای ضبط شده کاربر در فرآیند آموزش ترکیب می شود. این دو مدل با هم می توانند صدای کاربر را تکرار کنند و رنگ تن را تغییر دهند - بیان احساسی که در متن گفتاری منتقل می شود.
این استارت آپ در سال 2023 تاسیس شد. سال گذشته، MyShell 5.6 میلیون دلار سرمایه اولیه به رهبری INCE Capital جمع آوری کرد و شاهد مشارکت سرمایه گذاران برجسته مانند Folius Ventures، Hashkey Capital، SevenX Ventures، TSVC و OP Crypto و غیره بود.
به گفته این شرکت، بودجه در پیشبرد اختصاصی کمک خواهد کرد مدل های هوش مصنوعی، ایجاد یک استودیوی سازندگان متناسب با برنامه های بومی هوش مصنوعی و ایجاد یک اکوسیستم خالق پر جنب و جوش در حوزه فناوری بلاک چین.
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
کومار یک روزنامهنگار باتجربه فناوری با تخصص در تقاطعهای پویا AI/ML، فناوری بازاریابی، و زمینههای نوظهور مانند رمزنگاری، بلاک چین و NFTس کومار با بیش از 3 سال تجربه در این صنعت، سابقه اثبات شده ای در ساخت روایت های قانع کننده، انجام مصاحبه های روشنگرانه و ارائه بینش های جامع ایجاد کرده است. تخصص کومار در تولید محتوای با تاثیر بالا، از جمله مقالات، گزارشها و انتشارات تحقیقاتی برای پلتفرمهای صنعتی برجسته است. کومار با مجموعه ای از مهارت های منحصر به فرد که دانش فنی و داستان سرایی را با هم ترکیب می کند، در انتقال مفاهیم پیچیده فناوری به مخاطبان مختلف به شیوه ای واضح و جذاب برتری می یابد.
مقالات بیشترکومار یک روزنامهنگار باتجربه فناوری با تخصص در تقاطعهای پویا AI/ML، فناوری بازاریابی، و زمینههای نوظهور مانند رمزنگاری، بلاک چین و NFTس کومار با بیش از 3 سال تجربه در این صنعت، سابقه اثبات شده ای در ساخت روایت های قانع کننده، انجام مصاحبه های روشنگرانه و ارائه بینش های جامع ایجاد کرده است. تخصص کومار در تولید محتوای با تاثیر بالا، از جمله مقالات، گزارشها و انتشارات تحقیقاتی برای پلتفرمهای صنعتی برجسته است. کومار با مجموعه ای از مهارت های منحصر به فرد که دانش فنی و داستان سرایی را با هم ترکیب می کند، در انتقال مفاهیم پیچیده فناوری به مخاطبان مختلف به شیوه ای واضح و جذاب برتری می یابد.