Laporan berita Teknologi
08 Mei 2026

New OpenAI Model Audio Mendukung Asisten Suara Real-Time dengan Terjemahan Multibahasa dan Kecerdasan Streaming

Singkatnya

OpenAI dirilis GPTModel -Realtime-2, Translate, dan Whisper, memperluas AI suara waktu nyata dengan penalaran, penerjemahan, dan transkripsi untuk aplikasi percakapan tingkat lanjut.

New OpenAI Model Audio Mendukung Asisten Suara Real-Time dengan Terjemahan Multibahasa dan Kecerdasan Streaming

OpenAI mengumumkan serangkaian model audio baru dalam ekosistem API-nya, menandai perluasan kemampuan suara waktu nyata bagi pengembang dan aplikasi berbasis AI. Rilis ini mencakup GPT-Waktu Nyata-2, GPT-Terjemahan waktu nyata, dan GPT-Realtime-Whisper, masing-masing dirancang untuk memungkinkan interaksi suara yang lebih canggih, responsif, dan kontekstual di berbagai kasus penggunaan.

GPTRealtime 2 diposisikan sebagai model suara tercanggih perusahaan hingga saat ini, memperkenalkan GPT-5Model ini dirancang untuk menangani permintaan pengguna yang kompleks, menjaga kontinuitas kontekstual, dan mendukung penalaran multi-langkah saat berinteraksi secara real-time. Model ini ditujukan untuk aplikasi di mana agen suara tidak hanya harus merespons dengan cepat tetapi juga menafsirkan maksud, mengelola gangguan, dan menjalankan tugas melalui penggunaan alat terintegrasi.

Di sampingnya, GPT-Realtime-Translate memungkinkan penerjemahan ucapan secara langsung di lebih dari 70 bahasa masukan ke 13 bahasa keluaran. Sistem ini dirancang untuk mempertahankan alur percakapan sambil menjaga makna dan waktu, memungkinkan pembicara untuk berkomunikasi dalam berbagai bahasa tanpa penundaan yang terlihat. Kemampuan ini ditujukan untuk dukungan pelanggan global, pendidikan, perjalanan, dan layanan komunikasi lintas batas.

Model ketiga, GPT-Realtime-Whisper, berfokus pada transkripsi ucapan ke teks secara streaming. Ia menyediakan transkripsi berkelanjutan dengan latensi rendah saat pengguna berbicara, memungkinkan teks terjemahan waktu nyata, dokumentasi langsung, dan pemrosesan konten lisan secara langsung. Model ini dirancang untuk lingkungan yang membutuhkan konversi ucapan ke teks dengan cepat, seperti rapat, siaran media, dan alur kerja perusahaan.

OpenAI Mereka menggambarkan rilis gabungan ini sebagai langkah menuju antarmuka suara yang melampaui sistem perintah dan respons dasar. Alih-alih hanya mengenali ucapan dan menghasilkan balasan, model-model ini dimaksudkan untuk mendukung penalaran berkelanjutan, penerjemahan, transkripsi, dan eksekusi tindakan dalam satu alur percakapan. Tujuannya adalah untuk memungkinkan sistem berbasis suara yang dapat berfungsi lebih seperti asisten interaktif yang mampu menyelesaikan tugas sambil mempertahankan dialog alami.

GPT-Realtime-2 Memajukan Arsitektur AI Suara dengan Sistem Suara-ke-Aksi dan Jendela Konteks yang Diperluas

Perusahaan tersebut menyoroti beberapa pola desain baru yang dimungkinkan oleh teknologi ini. Ini termasuk sistem suara-ke-aksi, di mana pengguna dapat mendeskripsikan tugas yang dieksekusi melalui penalaran otomatis dan integrasi alat; aplikasi sistem-ke-suara, di mana perangkat lunak menghasilkan panduan lisan berdasarkan data kontekstual; dan sistem terjemahan suara-ke-suara, yang memungkinkan komunikasi multibahasa secara real-time antar pembicara.

GPT-Realtime-2 memperkenalkan peningkatan arsitektur tambahan untuk penggunaan produksi. Ini termasuk jendela konteks yang lebih panjang yang diperluas hingga 128K token, perilaku pemulihan yang lebih baik selama gangguan atau kesalahan, eksekusi alat paralel dengan umpan balik transparan, dan penyesuaian nada yang lebih terkontrol tergantung pada konteks percakapan. Pengembang juga dapat menyempurnakan tingkat penalaran untuk menyeimbangkan kecepatan dan kompleksitas berdasarkan kebutuhan aplikasi.

Tolok ukur kinerja yang dikutip oleh OpenAI Menunjukkan peningkatan hasil dalam penalaran berbasis audio dan tugas mengikuti instruksi dibandingkan dengan iterasi sebelumnya dari model waktu nyatanya. Sistem ini juga menunjukkan penanganan yang lebih baik terhadap terminologi khusus domain dan perilaku yang lebih stabil dalam pengaturan percakapan multi-giliran.

Rilis ini juga menyertakan mekanisme keamanan, termasuk pemantauan waktu nyata dan klasifikasi konten dalam sesi aktif, bersama dengan kontrol tingkat pengembang untuk pengamanan tambahan. Model-model tersebut tersedia melalui API Realtime dan diposisikan untuk diterapkan di seluruh aplikasi perusahaan, konsumen, dan pengembang, dengan struktur harga berdasarkan metrik pemrosesan audio berbasis penggunaan.

Pengenalan GPT-Realtime-2 dan model-model yang menyertainya mencerminkan pergeseran yang lebih luas menuju sistem komputasi berbasis suara yang mampu bernalar, menerjemahkan, dan mentranskripsikan secara real time, dengan tujuan membuat interaksi lisan dengan perangkat lunak menjadi lebih fungsional, adaptif, dan mampu beroperasi secara operasional.

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Alisa, seorang jurnalis yang berdedikasi di MPost, berspesialisasi dalam kripto, AI, investasi, dan ranah yang luas dari Web3. Dengan ketertarikannya terhadap tren dan teknologi yang sedang berkembang, ia memberikan liputan komprehensif untuk memberikan informasi dan melibatkan pembaca dalam lanskap keuangan digital yang terus berkembang.

lebih artikel
Alisa Davidson
Alisa Davidson

Alisa, seorang jurnalis yang berdedikasi di MPost, berspesialisasi dalam kripto, AI, investasi, dan ranah yang luas dari Web3. Dengan ketertarikannya terhadap tren dan teknologi yang sedang berkembang, ia memberikan liputan komprehensif untuk memberikan informasi dan melibatkan pembaca dalam lanskap keuangan digital yang terus berkembang.

Ketenangan Sebelum Badai Solana: Apa yang Diungkapkan Grafik, Paus, dan Sinyal On-Chain Saat Ini

Solana telah menunjukkan kinerja yang kuat, didorong oleh meningkatnya adopsi, minat kelembagaan, dan kemitraan utama, sambil menghadapi potensi ...

Tahu lebih banyak

Kripto di bulan April 2025: Tren Utama, Perubahan, dan Apa yang Akan Terjadi Selanjutnya

Pada bulan April 2025, ruang kripto berfokus pada penguatan infrastruktur inti, dengan Ethereum mempersiapkan Pectra ...

Tahu lebih banyak
Baca Selengkapnya
Baca lebih lanjut
Pfizer Akan Mengintegrasikan Platform AI Chai Discovery untuk Memajukan dan Meningkatkan Skala Desain Obat Molekuler
Laporan berita Teknologi
Pfizer Akan Mengintegrasikan Platform AI Chai Discovery untuk Memajukan dan Meningkatkan Skala Desain Obat Molekuler
Juni 5, 2026
Pembaruan Gerbang: Jam Operasional Stok Diperpanjang, Antropik Airdrops, Dan Pekan yang Memecahkan Rekor
Bisnis Laporan berita Teknologi
Pembaruan Gerbang: Jam Operasional Stok Diperpanjang, Antropik Airdrops, Dan Pekan yang Memecahkan Rekor
Juni 5, 2026
Penjualan BTC oleh Strategy Menimbulkan Pertanyaan tentang Model Perbendaharaan yang Menggunakan Leverage, Kata Grayscale
Bisnis Laporan berita Teknologi
Penjualan BTC oleh Strategy Menimbulkan Pertanyaan tentang Model Perbendaharaan yang Menggunakan Leverage, Kata Grayscale
Juni 5, 2026
8 Platform yang Menciptakan Pengalaman App Store untuk Web3 Dalam 2026
Daftar Teratas Teknologi
8 Platform yang Menciptakan Pengalaman App Store untuk Web3 Dalam 2026
Juni 5, 2026