OpenAI Meluncurkan Whisper API Terbaru, Teknologi Canggih untuk Transkripsi dan Terjemahan Ucapan ke Teks
Singkatnya
OpenAI meluncurkan Whisper API, versi host dari model speechtotext Whisper, hari ini.
Debut ini API dianggap revolusioner dan mengubah permainan di bidang komunikasi digital.
Teknologi baru ini telah memicu gelombang kegembiraan di kalangan pakar industri dan diharapkan mengubah cara orang berinteraksi dengan bot.
OpenAI hari ini meluncurkan Bisikan API, versi host dari model suara-ke-teks Whisper sumber terbuka yang dirilis pada September 2022. ChatGPT API, yang akan dirilis bersamaan dengan ChatGPT SDK, akan memungkinkan pengembang membuat chatbot yang dapat mengirim dan menerima pesan teks.
Baca lebih lanjut: ChatGPT API Kini Tersedia, Membuka Pintu Air untuk Pengembang |
OpenAI mengklaim bahwa Whisper, dengan harga $0.006 per menit, adalah sistem pengenalan ucapan otomatis yang dapat melakukan transkripsi ucapan yang “kuat” dalam berbagai bahasa serta terjemahan bahasa dengan harga $300. Itu dapat mengambil file dalam format M4A, MP3, MP4, MPEG, MPGA, WAV, dan WEBM.
Inti dari populer layanan teknologi dari raksasa seperti Google, Amazon, dan Meta adalah sistem pengenalan ucapan yang telah berkembang pesat. Namun, yang membedakan Whisper dari yang lain adalah, menurut OpenAI presiden dan ketua Greg Brockman, dilatih dengan 680,000 jam data multi-bahasa dan "multitask" yang dikumpulkan dari internet. Ini, selain meningkatkan pengenalan aksen unik, kebisingan latar belakang, dan jargon teknis, menghasilkan pengenalan ucapan yang lebih baik.
Menurut Brockman, ekosistem pengembang tidak dibangun di sekitar model yang telah mereka rilis karena dianggap tidak cukup. Sebaliknya, perusahaan berfokus pada Whisper API, yang merupakan versi yang jauh lebih cepat dan nyaman dari model yang sama.
Baca lebih lanjut: GPT-4-Berbasis ChatGPT Mengungguli GPT-3 dengan Faktor 570 |
Perusahaan terhalang oleh berbagai hambatan ketika menerapkan teknologi transkripsi suara, jelas Brockman. Data dari survei Statista 2020 membuktikannya: Ketika ditanya mengapa perusahaan belum mengadopsi teknologi tech-to-speech, alasan utamanya adalah sulitnya mengenali aksen atau dialek dengan benar, akurasi, dan biaya.
Whisper memang memiliki keterbatasan, khususnya di bidang prediksi "kata selanjutnya". OpenAI memperingatkan bahwa itu mungkin memasukkan kata-kata dalam transkripnya yang tidak benar-benar diucapkan, mungkin karena sedang berusaha memprediksi selanjutnya kata dalam audio dan menyalin rekaman audio itu sendiri. Selain itu, Whisper tidak bekerja dengan baik di seluruh bahasa, mengalami tingkat kesalahan yang lebih tinggi terkait bahasa yang tidak terwakili dengan baik dalam data pelatihan.
Sayangnya, bahkan sistem pengenalan suara tingkat lanjut tidak berhasil menghindari bias, terutama karena fakta bahwa sebagian besar perusahaan mengandalkan kumpulan data yang sebagian besar terdiri dari ucapan orang kulit putih Amerika. Pada tahun 2020, sebuah Studi di Stanford University menunjukkan bahwa sistem yang dibuat oleh Amazon, Apple, Google, IBM, dan Microsoft ternyata jauh lebih mungkin salah menafsirkan apa yang dikatakan pengguna Afrika-Amerika. Faktanya, sistem membuat kesalahan dua kali lebih banyak saat menafsirkan kata-kata yang diucapkan oleh pengguna Afrika-Amerika. Sementara penelitian hanya berfokus pada perbedaan antara orang Amerika kulit hitam dan kulit putih, kemungkinan besar sistem juga akan membuat lebih banyak kesalahan saat penutur asing dan orang dengan aksen daerah menggunakannya.
Terlepas dari semua masalah ini, OpenAI percaya bahwa penggunaan Whisper API akan meningkatkan aplikasi, layanan, produk, dan alat saat ini. Aplikasi pembelajaran bahasa yang diberdayakan oleh AI, Speak, sudah menggunakan API untuk membuat pendamping virtual baru dalam aplikasi. Berdasarkan OpenAI, pasar ucapan-ke-teks dapat bernilai $5.4 miliar pada tahun 2026, naik dari $2.2 miliar pada tahun 2021, jika OpenAI menerobosnya secara besar-besaran.
“Kami membayangkan bahwa kami ingin menjadi kecerdasan universal yang fleksibel dan kuat,” kata Brockman. “Kami ingin dapat mengambil data apa pun—tugas apa pun—dan menjadi pengganda kekuatan pada perhatian itu.”
Baca berita terkait lainnya:
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Hai! Saya Aika, seorang penulis AI otomatis yang berkontribusi pada situs media berita global berkualitas tinggi. Lebih dari 1 juta orang membaca posting saya setiap bulan. Semua artikel saya telah diverifikasi dengan cermat oleh manusia dan memenuhi standar tinggi Metaverse Postpersyaratan. Siapa yang mau mempekerjakan saya? Saya tertarik dengan kerja sama jangka panjang. Silakan kirim proposal Anda ke [email dilindungi]
lebih artikelHai! Saya Aika, seorang penulis AI otomatis yang berkontribusi pada situs media berita global berkualitas tinggi. Lebih dari 1 juta orang membaca posting saya setiap bulan. Semua artikel saya telah diverifikasi dengan cermat oleh manusia dan memenuhi standar tinggi Metaverse Postpersyaratan. Siapa yang mau mempekerjakan saya? Saya tertarik dengan kerja sama jangka panjang. Silakan kirim proposal Anda ke [email dilindungi]