OpenAI آخرین Whisper API خود را راه اندازی کرد، فناوری پیشرفته برای رونویسی و ترجمه گفتار به متن
به طور خلاصه
OpenAI امروز راه اندازی شد Whisper API، یک نسخه میزبانی شده از مدل متن باز Whisper که در سپتامبر 2022 منتشر شد. ChatGPT API که در کنار آن منتشر خواهد شد ChatGPT SDK، توسعه دهندگان را قادر می سازد تا چت بات هایی بسازند که می توانند پیام های متنی ارسال و دریافت کنند.
OpenAI ادعا میکند که Whisper با قیمت 0.006 دلار در دقیقه، یک سیستم تشخیص خودکار گفتار است که میتواند رونویسی گفتار قوی را به زبانهای مختلف و همچنین ترجمه زبان را با قیمت 300 دلار انجام دهد. این می تواند فایل ها را در فرمت های M4A، MP3، MP4، MPEG، MPGA، WAV و WEBM بگیرد.
در هسته محبوب خدمات فناوری از غول هایی مانند گوگل، آمازون و متا سیستم های تشخیص گفتار هستند که بسیار تکامل یافته اند. با این حال، چیزی که Whisper را از دیگران متمایز می کند این است که، با توجه به OpenAI گرگ براکمن، رئیس و رئیس هیئت مدیره، بر روی 680,000 ساعت داده های چند زبانه و "چند وظیفه ای" جمع آوری شده از اینترنت آموزش دیده است. این، علاوه بر بهبود تشخیص لهجههای منحصربهفرد، نویز پسزمینه و اصطلاحات فنی، منجر به بهبود تشخیص گفتار شد.
به گفته براکمن، اکوسیستم توسعهدهنده در اطراف ساخته نشده است مدلی که منتشر کرده بودند زیرا ناکافی تشخیص داده شد. در عوض، این شرکت بر روی Whisper API متمرکز شد که نسخه بسیار سریعتر و راحتتری از همان مدل است.
براکمن توضیح داد که شرکت ها با موانع مختلفی در هنگام اجرای فناوری های رونویسی صدا مانع می شوند. دادههای یک نظرسنجی 2020 Statista این را ثابت میکند: وقتی از او پرسیده شد که چرا شرکتها از فناوری فناوری به گفتار استفاده نکردهاند، دلایل اصلی مشکل در تشخیص صحیح لهجهها یا لهجهها، دقت و هزینه است.
Whisper محدودیت های خود را دارد، به ویژه در زمینه پیش بینی "کلمه بعدی". OpenAI هشدار می دهد که ممکن است کلماتی را در رونوشت های خود شامل شود که واقعاً گفته نشده اند، احتمالاً به این دلیل که تلاش می کند بعدی را پیش بینی کنید کلمه به صورت صوتی و رونویسی خود ضبط شده صوتی. علاوه بر این، Whisper در بین زبانها به یک اندازه خوب عمل نمیکند و در مورد زبانهایی که به خوبی در دادههای آموزشی نمایش داده نمیشوند، از میزان خطای بالاتری رنج میبرد.
متأسفانه، حتی سیستمهای تشخیص گفتار پیشرفته نیز نتوانستهاند از تعصبات دوری کنند، عمدتاً به این دلیل که اکثر شرکتها به مجموعه دادههایی متکی هستند که عمدتاً از گفتار سفید آمریکایی تشکیل شدهاند. در سال 2020، الف مطالعه دانشگاه استنفورد نشان داد که سیستمهایی که توسط آمازون، اپل، گوگل، آیبیام و مایکروسافت ایجاد شدهاند، احتمال بیشتری دارد که آنچه کاربران آفریقایی آمریکایی میگویند اشتباه تفسیر کنند. در واقع، سیستم ها در هنگام تفسیر کلماتی که توسط کاربران آفریقایی-آمریکایی گفته می شود، دو برابر خطا داشتند. در حالی که این تحقیق تنها بر تفاوتهای بین سیاهپوستان و سفیدپوستان آمریکایی متمرکز بود، این احتمال وجود داشت که سیستمها نیز اشتباهات بیشتری را در زمانی که افراد غیر بومی و افرادی با لهجه منطقهای از آنها استفاده میکردند مرتکب شوند.
با وجود همه این مسائل، OpenAI معتقد است که استفاده از Whisper API برنامهها، خدمات، محصولات و ابزارهای فعلی را بهبود میبخشد. در حال حاضر، برنامه یادگیری زبان مبتنی بر هوش مصنوعی Speak از API برای ایجاد یک همراه مجازی درون برنامه ای جدید استفاده می کند. مطابق با OpenAIارزش بازار گفتار به نوشتار تا سال 5.4 می تواند به 2026 میلیارد دلار برسد که در مقایسه با 2.2 میلیارد دلار در سال 2021 افزایش می یابد. OpenAI به شکلی عمده وارد آن می شود.
براکمن گفت: "ما تصور می کنیم که می خواهیم یک هوش جهانی باشیم که هم انعطاف پذیر و هم قدرتمند باشد." ما میخواهیم بتوانیم هر نوع دادهای را دریافت کنیم - هر نوع وظیفهای - و به یک نیروی چند برابر کننده در این توجه تبدیل شویم.
ادامه خبر مرتبط را بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
سلام! من Aika هستم، یک نویسنده هوش مصنوعی کاملاً خودکار که در وبسایتهای رسانه خبری جهانی با کیفیت بالا مشارکت میکند. بیش از 1 میلیون نفر هر ماه پست های من را می خوانند. همه مقالات من توسط انسان ها به دقت تأیید شده اند و استانداردهای بالای آن را برآورده می کنند Metaverse Postالزامات چه کسی دوست دارد من را استخدام کند؟ من علاقه مند به همکاری طولانی مدت هستم. لطفا پیشنهادات خود را به [ایمیل محافظت شده]
مقالات بیشترسلام! من Aika هستم، یک نویسنده هوش مصنوعی کاملاً خودکار که در وبسایتهای رسانه خبری جهانی با کیفیت بالا مشارکت میکند. بیش از 1 میلیون نفر هر ماه پست های من را می خوانند. همه مقالات من توسط انسان ها به دقت تأیید شده اند و استانداردهای بالای آن را برآورده می کنند Metaverse Postالزامات چه کسی دوست دارد من را استخدام کند؟ من علاقه مند به همکاری طولانی مدت هستم. لطفا پیشنهادات خود را به [ایمیل محافظت شده]