گزارش خبری تکنولوژی
ممکن است 08، 2026

جدید OpenAI مدل‌های صوتی، دستیارهای صوتی بلادرنگ را با ترجمه چندزبانه و هوش جریانی تقویت می‌کنند

به طور خلاصه

OpenAI منتشر شد GPTمدل‌های Realtime-2، Translate و Whisper، هوش مصنوعی صوتی بلادرنگ را با استدلال، ترجمه و رونویسی برای کاربردهای مکالمه‌ای پیشرفته گسترش می‌دهند.

جدید OpenAI مدل‌های صوتی، دستیارهای صوتی بلادرنگ را با ترجمه چندزبانه و هوش جریانی تقویت می‌کنند

OpenAI مجموعه‌ای جدید از مدل‌های صوتی را در اکوسیستم API خود معرفی کرد که نشان‌دهنده‌ی گسترش قابلیت‌های صوتی بلادرنگ برای توسعه‌دهندگان و برنامه‌های مبتنی بر هوش مصنوعی است. این نسخه شامل موارد زیر است: GPT-بی‌درنگ-۲، GPT-ترجمه بلادرنگ، و GPT- زمزمه‌های بی‌درنگ، که هر کدام برای فعال کردن تعاملات صوتی پیشرفته‌تر، پاسخگوتر و آگاه از متن در طیف وسیعی از موارد استفاده طراحی شده‌اند.

GPTRealtime-2 به عنوان پیشرفته‌ترین مدل صوتی این شرکت تا به امروز معرفی شده است. GPT-5استدلال کلاس-محور در مکالمات صوتی زنده. این مدل برای رسیدگی به درخواست‌های پیچیده کاربر، حفظ پیوستگی زمینه‌ای و پشتیبانی از استدلال چند مرحله‌ای در حین تعامل در زمان واقعی طراحی شده است. این مدل برای برنامه‌هایی در نظر گرفته شده است که در آن‌ها عامل‌های صوتی نه تنها باید سریع پاسخ دهند، بلکه باید قصد را تفسیر کنند، وقفه‌ها را مدیریت کنند و وظایف را از طریق استفاده از ابزار یکپارچه اجرا کنند.

در کنار آن، GPTترجمه همزمان (Realtime-Translate) امکان ترجمه گفتار زنده از بیش از ۷۰ زبان ورودی به ۱۳ زبان خروجی را فراهم می‌کند. این سیستم به گونه‌ای ساخته شده است که جریان مکالمه را در عین حفظ معنا و زمان‌بندی حفظ کند و به گویندگان اجازه دهد بدون تأخیر قابل توجه به زبان‌های مختلف ارتباط برقرار کنند. این قابلیت برای پشتیبانی از مشتریان جهانی، آموزش، سفر و خدمات ارتباطی فرامرزی در نظر گرفته شده است.

مدل سوم، GPT-Realtime-Whisper، بر رونویسی گفتار به متن به صورت استریمینگ تمرکز دارد. این فناوری، رونویسی مداوم و با تأخیر کم را همزمان با صحبت کاربران فراهم می‌کند و امکان زیرنویس‌های بلادرنگ، مستندسازی زنده و پردازش فوری محتوای گفتاری را فراهم می‌کند. این مدل برای محیط‌هایی طراحی شده است که در آن‌ها تبدیل سریع گفتار به متن مورد نیاز است، مانند جلسات، پخش رسانه‌ای و گردش‌های کاری سازمانی.

OpenAI این نسخه ترکیبی را گامی به سوی رابط‌های صوتی توصیف کرد که فراتر از سیستم‌های فرمان و پاسخ اولیه حرکت می‌کنند. این مدل‌ها به جای تشخیص صرف گفتار و تولید پاسخ، برای پشتیبانی از استدلال مداوم، ترجمه، رونویسی و اجرای عملیات در یک جریان مکالمه واحد در نظر گرفته شده‌اند. هدف، فعال کردن سیستم‌های مبتنی بر صدا است که می‌توانند بیشتر شبیه دستیارهای تعاملی عمل کنند و قادر به انجام وظایف در حین حفظ گفتگوی طبیعی باشند.

GPT-Realtime-2 معماری هوش مصنوعی صوتی را با سیستم‌های تبدیل صدا به عمل و پنجره‌های متن گسترده‌تر، ارتقا می‌دهد.

این شرکت چندین الگوی طراحی نوظهور را که توسط این فناوری فعال شده‌اند، برجسته کرد. این الگوها شامل سیستم‌های تبدیل صدا به عمل، که در آن کاربران می‌توانند وظایفی را که از طریق استدلال خودکار و ادغام ابزار اجرا می‌شوند، توصیف کنند؛ برنامه‌های تبدیل سیستم به صدا، که در آن نرم‌افزار بر اساس داده‌های متنی، راهنمایی‌های گفتاری تولید می‌کند؛ و سیستم‌های ترجمه صدا به صدا، که امکان ارتباط چندزبانه در لحظه بین گویندگان را فراهم می‌کنند، می‌شود.

GPT-Realtime-2 بهبودهای معماری بیشتری را برای استفاده در محیط عملیاتی ارائه می‌دهد. این بهبودها شامل پنجره‌های متنی طولانی‌تر که به توکن‌های ۱۲۸K گسترش یافته‌اند، بهبود رفتار بازیابی در هنگام وقفه‌ها یا خطاها، اجرای موازی ابزار با بازخورد شفاف و تنظیم لحن قابل کنترل‌تر بسته به زمینه مکالمه می‌شود. توسعه‌دهندگان همچنین می‌توانند سطوح استدلال را به دقت تنظیم کنند تا سرعت و پیچیدگی را بر اساس نیازهای برنامه متعادل کنند.

معیارهای عملکرد ذکر شده توسط OpenAI نتایج بهبود یافته در استدلال مبتنی بر صدا و وظایف دنبال کردن دستورالعمل را در مقایسه با تکرارهای قبلی مدل‌های بلادرنگ آن نشان می‌دهد. این سیستم همچنین مدیریت قوی‌تری از اصطلاحات خاص دامنه و رفتار پایدارتر در تنظیمات مکالمه چند نوبتی را نشان می‌دهد.

این نسخه همچنین شامل مکانیسم‌های ایمنی، از جمله نظارت بلادرنگ و طبقه‌بندی محتوا در جلسات فعال، در کنار کنترل‌های سطح توسعه‌دهنده برای حفاظت‌های بیشتر است. این مدل‌ها از طریق API بلادرنگ در دسترس هستند و برای استقرار در برنامه‌های سازمانی، مصرف‌کننده و توسعه‌دهنده در نظر گرفته شده‌اند و قیمت‌گذاری آنها بر اساس معیارهای پردازش صوتی مبتنی بر استفاده انجام می‌شود.

مقدمه ای از GPT-Realtime-2 و مدل‌های همراه آن، نشان‌دهنده‌ی تغییر گسترده‌تری به سمت سیستم‌های محاسباتی مبتنی بر صدا هستند که قادر به استدلال، ترجمه و رونویسی در زمان واقعی هستند، با هدف کاربردی‌تر، تطبیقی‌تر و عملیاتی‌تر کردن تعامل گفتاری با نرم‌افزار.

برچسب ها:

رفع مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

آلیسا، یک روزنامه نگار اختصاصی در MPost، متخصص در ارزهای دیجیتال، هوش مصنوعی، سرمایه‌گذاری و حوزه گسترده... Web3. او با نگاهی دقیق به روندها و فناوری‌های نوظهور، پوشش جامعی را برای اطلاع‌رسانی و مشارکت خوانندگان در چشم‌انداز همیشه در حال تحول مالی دیجیتال ارائه می‌کند.

مقالات بیشتر
آلیسا دیویدسون
آلیسا دیویدسون

آلیسا، یک روزنامه نگار اختصاصی در MPost، متخصص در ارزهای دیجیتال، هوش مصنوعی، سرمایه‌گذاری و حوزه گسترده... Web3. او با نگاهی دقیق به روندها و فناوری‌های نوظهور، پوشش جامعی را برای اطلاع‌رسانی و مشارکت خوانندگان در چشم‌انداز همیشه در حال تحول مالی دیجیتال ارائه می‌کند.

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

آرامش قبل از طوفان سولانا: نمودارها، نهنگ‌ها و سیگنال‌های درون زنجیره‌ای اکنون چه می‌گویند؟

سولانا عملکرد قوی‌ای را نشان داده است که ناشی از افزایش پذیرش، علاقه نهادی و مشارکت‌های کلیدی است، در حالی که با پتانسیل ... روبرو است.

بیشتر بدانید

کریپتو در آوریل ۲۰۲۵: روندهای کلیدی، تغییرات و آنچه در آینده رخ خواهد داد

در آوریل ۲۰۲۵، فضای کریپتو بر تقویت زیرساخت‌های اصلی متمرکز شد و اتریوم برای Pectra آماده می‌شد...

بیشتر بدانید
ادامه مطلب
ادامه مطلب
انویدیا با قرارداد SK hynix و گسترش ابتکارات مرکز داده کره جنوبی، استراتژی کارخانه هوش مصنوعی خود را تقویت می‌کند.
گزارش خبری تکنولوژی
انویدیا با قرارداد SK hynix و گسترش ابتکارات مرکز داده کره جنوبی، استراتژی کارخانه هوش مصنوعی خود را تقویت می‌کند.
ژوئن 8، 2026
۱۰ پلتفرم برتر که در سال ۲۰۲۶ اعتبار نهادی را به صورت درون زنجیره‌ای ارائه می‌دهند
لیست های برتر تکنولوژی
۱۰ پلتفرم برتر که در سال ۲۰۲۶ اعتبار نهادی را به صورت درون زنجیره‌ای ارائه می‌دهند
ژوئن 8، 2026
فایزر پلتفرم هوش مصنوعی چای دیسکاوری را برای پیشرفت و مقیاس‌بندی طراحی داروهای مولکولی ادغام می‌کند
گزارش خبری تکنولوژی
فایزر پلتفرم هوش مصنوعی چای دیسکاوری را برای پیشرفت و مقیاس‌بندی طراحی داروهای مولکولی ادغام می‌کند
ژوئن 5، 2026
به‌روزرسانی گیت: ساعات کاری انبار تمدید شد، آنتروپیک Airdropو یک هفته رکوردشکنی در شرط‌بندی
کسب و کار گزارش خبری تکنولوژی
به‌روزرسانی گیت: ساعات کاری انبار تمدید شد، آنتروپیک Airdropو یک هفته رکوردشکنی در شرط‌بندی
ژوئن 5، 2026
CRYPTOMERIA LABS PTE. محدود