جديد OpenAI تُزوّد نماذج الصوت المساعدين الصوتيين في الوقت الفعلي بالترجمة متعددة اللغات والذكاء المتدفق.
في سطور
OpenAI صدر GPTنماذج Realtime-2 و Translate و Whisper، التي توسع نطاق الذكاء الاصطناعي الصوتي في الوقت الحقيقي من خلال الاستدلال والترجمة والنسخ لتطبيقات المحادثة المتقدمة.

OpenAI أعلنت الشركة عن مجموعة جديدة من نماذج الصوت ضمن نظام واجهة برمجة التطبيقات (API) الخاص بها، مما يمثل توسعًا في إمكانيات الصوت في الوقت الفعلي للمطورين والتطبيقات المدعومة بالذكاء الاصطناعي. يتضمن الإصدار GPT-الوقت الحقيقي-2، GPT-الترجمة الفورية-، و GPT-الهمس في الوقت الحقيقي، تم تصميم كل منهما لتمكين تفاعلات صوتية أكثر تقدماً واستجابة ووعياً بالسياق عبر مجموعة من حالات الاستخدام.
GPTيُعتبر Realtime-2 النموذج الصوتي الأكثر تطوراً للشركة حتى الآن، حيث يقدم GPT-5يُدمج هذا النموذج الاستدلال المنطقي في المحادثات الصوتية المباشرة. وهو مصمم للتعامل مع طلبات المستخدمين المعقدة، والحفاظ على استمرارية السياق، ودعم الاستدلال متعدد الخطوات أثناء التفاعل في الوقت الفعلي. وهو مُصمم للتطبيقات التي تتطلب من وكلاء الصوت ليس فقط الاستجابة بسرعة، بل أيضًا تفسير النوايا، وإدارة المقاطعات، وتنفيذ المهام من خلال استخدام أدوات متكاملة.
بجانبها، GPTتتيح خدمة الترجمة الفورية ترجمة الكلام مباشرةً من أكثر من 70 لغة إدخال إلى 13 لغة إخراج. صُمم النظام للحفاظ على سلاسة المحادثة مع ضمان المعنى والتوقيت، مما يسمح للمتحدثين بالتواصل بلغات مختلفة دون أي تأخير ملحوظ. تستهدف هذه الميزة خدمات دعم العملاء العالمية، والتعليم، والسفر، والاتصالات عبر الحدود.
النموذج الثالث، GPTيركز نظام Realtime-Whisper على تحويل الكلام إلى نص متدفق. يوفر هذا النظام تحويلاً مستمراً وسريعاً للكلام أثناء حديث المستخدمين، مما يتيح إضافة ترجمة فورية، وتوثيق مباشر، ومعالجة فورية للمحتوى المنطوق. صُمم هذا النظام خصيصاً للبيئات التي تتطلب تحويل الكلام إلى نص بسرعة، مثل الاجتماعات، والبث الإعلامي، وسير العمل المؤسسي.
OpenAI وصف الإصدار المدمج بأنه خطوة نحو واجهات صوتية تتجاوز أنظمة الأوامر والردود الأساسية. فبدلاً من مجرد التعرف على الكلام وتوليد الردود، تهدف هذه النماذج إلى دعم الاستدلال المستمر والترجمة والنسخ وتنفيذ الإجراءات ضمن سياق محادثة واحد. والهدف هو تمكين الأنظمة الصوتية التي تعمل كمساعدين تفاعليين قادرين على إنجاز المهام مع الحفاظ على حوار طبيعي.
GPT-Realtime-2 يُحسّن بنية الذكاء الاصطناعي الصوتي من خلال أنظمة تحويل الصوت إلى إجراء ونوافذ سياقية موسعة
سلطت الشركة الضوء على العديد من أنماط التصميم الناشئة التي تتيحها هذه التقنية. وتشمل هذه الأنماط أنظمة تحويل الصوت إلى إجراء، حيث يمكن للمستخدمين وصف المهام التي يتم تنفيذها من خلال الاستدلال الآلي وتكامل الأدوات؛ وتطبيقات تحويل الأنظمة إلى صوت، حيث يقوم البرنامج بإنشاء توجيهات صوتية بناءً على البيانات السياقية؛ وأنظمة الترجمة الصوتية، التي تسمح بالتواصل متعدد اللغات في الوقت الفعلي بين المتحدثين.
GPTيُقدّم الإصدار Realtime-2 تحسينات معمارية إضافية للاستخدام في بيئات الإنتاج. تشمل هذه التحسينات نوافذ سياق أطول تصل إلى 128 ألف رمز، وسلوك استعادة مُحسّن أثناء الانقطاعات أو الأخطاء، وتنفيذ الأدوات بالتوازي مع تغذية راجعة شفافة، وتعديل نبرة الصوت بشكل أكثر قابلية للتحكم وفقًا لسياق المحادثة. كما يُمكن للمطورين ضبط مستويات الاستدلال بدقة لتحقيق التوازن بين السرعة والتعقيد بناءً على احتياجات التطبيق.
معايير الأداء المذكورة من قبل OpenAI تشير النتائج إلى تحسن ملحوظ في مهام الاستدلال الصوتي واتباع التعليمات مقارنةً بالإصدارات السابقة من نماذجها الآنية. كما يُظهر النظام قدرةً أكبر على التعامل مع المصطلحات الخاصة بالمجال، وسلوكًا أكثر استقرارًا في بيئات المحادثات متعددة الأدوار.
يتضمن الإصدار أيضًا آليات أمان، تشمل المراقبة الآنية وتصنيف المحتوى ضمن الجلسات النشطة، بالإضافة إلى أدوات تحكم على مستوى المطورين لتوفير حماية إضافية. تتوفر هذه النماذج عبر واجهة برمجة التطبيقات Realtime API، وهي مصممة للنشر في تطبيقات المؤسسات والمستهلكين والمطورين، مع تسعير يعتمد على مقاييس معالجة الصوت حسب الاستخدام.
إدخال GPTيعكس نظام Realtime-2 والنماذج المصاحبة له تحولاً أوسع نحو أنظمة الحوسبة الصوتية القادرة على الاستدلال والترجمة والنسخ في الوقت الحقيقي، بهدف جعل التفاعل المنطوق مع البرامج أكثر فعالية وقابلية للتكيف والتشغيل.
إخلاء مسؤولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
أليسا، صحفية متخصصة في MPost، متخصص في العملات المشفرة والذكاء الاصطناعي والاستثمارات ومجال واسع من Web3. مع اهتمامها الشديد بالاتجاهات والتقنيات الناشئة، فإنها تقدم تغطية شاملة لإعلام القراء وإشراكهم في المشهد المتطور باستمرار للتمويل الرقمي.
المزيد من المقالات
أليسا، صحفية متخصصة في MPost، متخصص في العملات المشفرة والذكاء الاصطناعي والاستثمارات ومجال واسع من Web3. مع اهتمامها الشديد بالاتجاهات والتقنيات الناشئة، فإنها تقدم تغطية شاملة لإعلام القراء وإشراكهم في المشهد المتطور باستمرار للتمويل الرقمي.



