جدید OpenAI مدلهای صوتی، دستیارهای صوتی بلادرنگ را با ترجمه چندزبانه و هوش جریانی تقویت میکنند
به طور خلاصه
OpenAI منتشر شد GPTمدلهای Realtime-2، Translate و Whisper، هوش مصنوعی صوتی بلادرنگ را با استدلال، ترجمه و رونویسی برای کاربردهای مکالمهای پیشرفته گسترش میدهند.

OpenAI مجموعهای جدید از مدلهای صوتی را در اکوسیستم API خود معرفی کرد که نشاندهندهی گسترش قابلیتهای صوتی بلادرنگ برای توسعهدهندگان و برنامههای مبتنی بر هوش مصنوعی است. این نسخه شامل موارد زیر است: GPT-بیدرنگ-۲، GPT-ترجمه بلادرنگ، و GPT- زمزمههای بیدرنگ، که هر کدام برای فعال کردن تعاملات صوتی پیشرفتهتر، پاسخگوتر و آگاه از متن در طیف وسیعی از موارد استفاده طراحی شدهاند.
GPTRealtime-2 به عنوان پیشرفتهترین مدل صوتی این شرکت تا به امروز معرفی شده است. GPT-5استدلال کلاس-محور در مکالمات صوتی زنده. این مدل برای رسیدگی به درخواستهای پیچیده کاربر، حفظ پیوستگی زمینهای و پشتیبانی از استدلال چند مرحلهای در حین تعامل در زمان واقعی طراحی شده است. این مدل برای برنامههایی در نظر گرفته شده است که در آنها عاملهای صوتی نه تنها باید سریع پاسخ دهند، بلکه باید قصد را تفسیر کنند، وقفهها را مدیریت کنند و وظایف را از طریق استفاده از ابزار یکپارچه اجرا کنند.
در کنار آن، GPTترجمه همزمان (Realtime-Translate) امکان ترجمه گفتار زنده از بیش از ۷۰ زبان ورودی به ۱۳ زبان خروجی را فراهم میکند. این سیستم به گونهای ساخته شده است که جریان مکالمه را در عین حفظ معنا و زمانبندی حفظ کند و به گویندگان اجازه دهد بدون تأخیر قابل توجه به زبانهای مختلف ارتباط برقرار کنند. این قابلیت برای پشتیبانی از مشتریان جهانی، آموزش، سفر و خدمات ارتباطی فرامرزی در نظر گرفته شده است.
مدل سوم، GPT-Realtime-Whisper، بر رونویسی گفتار به متن به صورت استریمینگ تمرکز دارد. این فناوری، رونویسی مداوم و با تأخیر کم را همزمان با صحبت کاربران فراهم میکند و امکان زیرنویسهای بلادرنگ، مستندسازی زنده و پردازش فوری محتوای گفتاری را فراهم میکند. این مدل برای محیطهایی طراحی شده است که در آنها تبدیل سریع گفتار به متن مورد نیاز است، مانند جلسات، پخش رسانهای و گردشهای کاری سازمانی.
OpenAI این نسخه ترکیبی را گامی به سوی رابطهای صوتی توصیف کرد که فراتر از سیستمهای فرمان و پاسخ اولیه حرکت میکنند. این مدلها به جای تشخیص صرف گفتار و تولید پاسخ، برای پشتیبانی از استدلال مداوم، ترجمه، رونویسی و اجرای عملیات در یک جریان مکالمه واحد در نظر گرفته شدهاند. هدف، فعال کردن سیستمهای مبتنی بر صدا است که میتوانند بیشتر شبیه دستیارهای تعاملی عمل کنند و قادر به انجام وظایف در حین حفظ گفتگوی طبیعی باشند.
GPT-Realtime-2 معماری هوش مصنوعی صوتی را با سیستمهای تبدیل صدا به عمل و پنجرههای متن گستردهتر، ارتقا میدهد.
این شرکت چندین الگوی طراحی نوظهور را که توسط این فناوری فعال شدهاند، برجسته کرد. این الگوها شامل سیستمهای تبدیل صدا به عمل، که در آن کاربران میتوانند وظایفی را که از طریق استدلال خودکار و ادغام ابزار اجرا میشوند، توصیف کنند؛ برنامههای تبدیل سیستم به صدا، که در آن نرمافزار بر اساس دادههای متنی، راهنماییهای گفتاری تولید میکند؛ و سیستمهای ترجمه صدا به صدا، که امکان ارتباط چندزبانه در لحظه بین گویندگان را فراهم میکنند، میشود.
GPT-Realtime-2 بهبودهای معماری بیشتری را برای استفاده در محیط عملیاتی ارائه میدهد. این بهبودها شامل پنجرههای متنی طولانیتر که به توکنهای ۱۲۸K گسترش یافتهاند، بهبود رفتار بازیابی در هنگام وقفهها یا خطاها، اجرای موازی ابزار با بازخورد شفاف و تنظیم لحن قابل کنترلتر بسته به زمینه مکالمه میشود. توسعهدهندگان همچنین میتوانند سطوح استدلال را به دقت تنظیم کنند تا سرعت و پیچیدگی را بر اساس نیازهای برنامه متعادل کنند.
معیارهای عملکرد ذکر شده توسط OpenAI نتایج بهبود یافته در استدلال مبتنی بر صدا و وظایف دنبال کردن دستورالعمل را در مقایسه با تکرارهای قبلی مدلهای بلادرنگ آن نشان میدهد. این سیستم همچنین مدیریت قویتری از اصطلاحات خاص دامنه و رفتار پایدارتر در تنظیمات مکالمه چند نوبتی را نشان میدهد.
این نسخه همچنین شامل مکانیسمهای ایمنی، از جمله نظارت بلادرنگ و طبقهبندی محتوا در جلسات فعال، در کنار کنترلهای سطح توسعهدهنده برای حفاظتهای بیشتر است. این مدلها از طریق API بلادرنگ در دسترس هستند و برای استقرار در برنامههای سازمانی، مصرفکننده و توسعهدهنده در نظر گرفته شدهاند و قیمتگذاری آنها بر اساس معیارهای پردازش صوتی مبتنی بر استفاده انجام میشود.
مقدمه ای از GPT-Realtime-2 و مدلهای همراه آن، نشاندهندهی تغییر گستردهتری به سمت سیستمهای محاسباتی مبتنی بر صدا هستند که قادر به استدلال، ترجمه و رونویسی در زمان واقعی هستند، با هدف کاربردیتر، تطبیقیتر و عملیاتیتر کردن تعامل گفتاری با نرمافزار.
رفع مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
آلیسا، یک روزنامه نگار اختصاصی در MPost، متخصص در ارزهای دیجیتال، هوش مصنوعی، سرمایهگذاری و حوزه گسترده... Web3. او با نگاهی دقیق به روندها و فناوریهای نوظهور، پوشش جامعی را برای اطلاعرسانی و مشارکت خوانندگان در چشمانداز همیشه در حال تحول مالی دیجیتال ارائه میکند.
مقالات بیشتر
آلیسا، یک روزنامه نگار اختصاصی در MPost، متخصص در ارزهای دیجیتال، هوش مصنوعی، سرمایهگذاری و حوزه گسترده... Web3. او با نگاهی دقیق به روندها و فناوریهای نوظهور، پوشش جامعی را برای اطلاعرسانی و مشارکت خوانندگان در چشمانداز همیشه در حال تحول مالی دیجیتال ارائه میکند.



