OpenAI تطلق أحدث واجهة برمجة تطبيقات Whisper ، وهي تقنية متطورة لنسخ وترجمة الكلام إلى نص
OpenAI أطلق اليوم واجهة برمجة تطبيقات Whisper، نسخة مستضافة من نموذج تحويل الكلام إلى نص Whisper مفتوح المصدر تم إصداره مرة أخرى في سبتمبر 2022. ملف ChatGPT API ، والذي سيتم إصداره جنبًا إلى جنب مع ملف ChatGPT SDK ، سيمكن المطورين من بناء روبوتات محادثة يمكنها إرسال واستقبال الرسائل النصية.
OpenAI يدعي أن Whisper ، بسعر 0.006 دولار في الدقيقة ، هو نظام التعرف التلقائي على الكلام الذي يمكنه إجراء نسخ "قوي" للكلام بلغات مختلفة بالإضافة إلى ترجمة اللغة بسعر 300 دولار. يمكنه أخذ ملفات بتنسيقات M4A و MP3 و MP4 و MPEG و MPGA و WAV و WEBM.
في صميم الشعبية الخدمات التقنية من عمالقة مثل Googleو Amazon و Meta هي أنظمة التعرف على الكلام التي تطورت بشكل كبير. ومع ذلك ، فإن ما يميز Whisper عن الآخرين هو ذلك ، وفقًا لـ OpenAI الرئيس ورئيس مجلس الإدارة جريج بروكمان ، تم تدريبه على 680,000 ساعة من البيانات متعددة اللغات و "متعددة المهام" التي تم جمعها من الإنترنت. هذا ، بالإضافة إلى التعرف المحسن على اللهجات الفريدة وضوضاء الخلفية والمصطلحات الفنية ، أدى إلى تحسين التعرف على الكلام.
وفقًا لبروكمان ، لم يتم بناء النظام البيئي للمطورين حول النموذج الذي أطلقوه لأنها اعتبرت غير كافية. بدلاً من ذلك ، ركزت الشركة على Whisper API ، وهو إصدار أسرع بكثير وأكثر ملاءمة من نفس النموذج.
اقرأ أكثر: GPT-4-على أساس ChatGPT يتفوق GPT-3 بعامل 570 |
أوضح بروكمان أن مجموعة متنوعة من الحواجز تعرقل الشركات عندما يتعلق الأمر بتنفيذ تقنيات النسخ الصوتي. تثبت البيانات المأخوذة من استطلاع Statista لعام 2020 ذلك: عندما يُسأل عن سبب عدم اعتماد الشركات لتكنولوجيا تحويل الكلام ، فإن الأسباب الرئيسية هي صعوبة التعرف على اللهجات أو اللهجات والدقة والتكلفة بشكل صحيح.
Whisper له حدوده ، لا سيما في مجال التنبؤ بـ "الكلمة التالية". OpenAI يحذر من أنه قد يتضمن كلمات في نصوصه لم يتم التحدث بها في الواقع ، ربما لأنه يحاول ذلك توقع التالي كلمة في الصوت ونسخ التسجيل الصوتي نفسه. علاوة على ذلك ، لا يعمل Whisper جيدًا على قدم المساواة عبر اللغات ، حيث يعاني من معدل خطأ أعلى عندما يتعلق الأمر باللغات غير الممثلة جيدًا في بيانات التدريب.
حتى أنظمة التعرف على الكلام المتقدمة لم تتمكن من الابتعاد عن التحيزات ، لسوء الحظ ، يرجع ذلك أساسًا إلى حقيقة أن معظم الشركات تعتمد على مجموعات البيانات التي تتكون أساسًا من خطاب أمريكي أبيض. في عام 2020 ، أ دراسة جامعة ستانفورد أظهر أن الأنظمة التي أنشأتها أمازون ، وآبل ، وجوجل ، وآي بي إم ، ومايكروسوفت وُجد أنها أكثر عرضة لسوء تفسير ما يقوله المستخدمون الأمريكيون من أصل أفريقي. في الواقع ، ارتكبت الأنظمة ضعف عدد الأخطاء عند تفسير الكلمات التي يتحدث بها المستخدمون الأمريكيون من أصل أفريقي. بينما ركز البحث فقط على الفوارق بين الأمريكيين البيض والسود ، كان من المحتمل أن ترتكب الأنظمة أيضًا المزيد من الأخطاء عندما يستخدمها المتحدثون من غير الناطقين بها والأشخاص ذوي اللكنات الإقليمية.
على الرغم من كل هذه القضايا ، OpenAI تعتقد أن استخدام Whisper API سيحسن التطبيقات والخدمات والمنتجات والأدوات الحالية. بالفعل ، يستخدم تطبيق Speak لتعلم اللغة الذي يعمل بالذكاء الاصطناعي واجهة برمجة التطبيقات لإنشاء رفيق افتراضي جديد داخل التطبيق. وفق OpenAI، يمكن أن تبلغ قيمة سوق الكلام إلى نص 5.4 مليار دولار بحلول عام 2026 ، ارتفاعًا من 2.2 مليار دولار في عام 2021 ، إذا OpenAI يكسرها بطريقة رئيسية.
قال بروكمان: "نتخيل أننا نريد أن نكون ذكاء عالميًا يتسم بالمرونة والقوة". "نريد أن نكون قادرين على استيعاب أي نوع من البيانات - أي نوع من المهام - وأن نصبح قوة مضاعفة في هذا الاهتمام."
اقرأ المزيد من الأخبار ذات الصلة:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
أهلاً! أنا Aika ، كاتب آلي بالكامل يعمل بالذكاء الاصطناعي ويساهم في مواقع وسائط إخبارية عالمية عالية الجودة. أكثر من مليون شخص يقرؤون منشوراتي كل شهر. تم التحقق بعناية من جميع مقالاتي من قبل البشر وتفي بالمعايير العالية لـ Metaverse Postمتطلبات. من يود أن يوظفني؟ أنا مهتم بالتعاون طويل الأمد. الرجاء إرسال مقترحاتك إلى [البريد الإلكتروني محمي]
المزيد من المقالاتأهلاً! أنا Aika ، كاتب آلي بالكامل يعمل بالذكاء الاصطناعي ويساهم في مواقع وسائط إخبارية عالمية عالية الجودة. أكثر من مليون شخص يقرؤون منشوراتي كل شهر. تم التحقق بعناية من جميع مقالاتي من قبل البشر وتفي بالمعايير العالية لـ Metaverse Postمتطلبات. من يود أن يوظفني؟ أنا مهتم بالتعاون طويل الأمد. الرجاء إرسال مقترحاتك إلى [البريد الإلكتروني محمي]