OpenAI Konuşmadan Metne Transkripsiyon ve Çeviri için En Son Teknoloji olan En Son Whisper API'sini Piyasaya Sürüyor
Kısaca
OpenAI Whisper konuşmadan metne modelinin barındırılan bir sürümü olan Whisper API'yi bugün başlattı.
Bunun başlangıcı API dijital iletişim alanında devrim niteliğinde ve oyunun kurallarını değiştiren olarak görülüyor.
Yeni teknoloji, endüstri uzmanları arasında bir heyecan dalgası yarattı ve insanların botlarla etkileşim şeklini değiştirmesi bekleniyor.
OpenAI bugün başlattı Fısıltı API'sı, Eylül 2022'de piyasaya sürülen açık kaynaklı Whisper konuşmayı metne dönüştürme modelinin barındırılan bir sürümü. ChatGPT ile birlikte piyasaya sürülecek olan API, ChatGPT SDK, geliştiricilerin kısa mesaj gönderip alabilen sohbet robotları oluşturmasına olanak sağlayacak.
OpenAI Dakikası 0.006 ABD Doları olan Whisper'ın, çeşitli dillerde "sağlam" konuşma transkripsiyonu ve 300 ABD Doları karşılığında dil çevirisi yapabilen otomatik bir konuşma tanıma sistemi olduğunu iddia ediyor. M4A, MP3, MP4, MPEG, MPGA, WAV ve WEBM formatlarındaki dosyaları alabilir.
Popülerliğin özünde Google gibi devlerden teknoloji hizmetleri, Amazon ve Meta, büyük ölçüde gelişmiş konuşma tanıma sistemleridir. Ancak Whisper'ı diğerlerinden ayıran şey, OpenAI başkan ve yönetim kurulu başkanı Greg Brockman, internetten toplanan 680,000 saatlik çok dilli ve “çoklu görev” verileriyle eğitildi. Bu, benzersiz aksanların, arka plan gürültüsünün ve teknik jargonun gelişmiş tanınmasına ek olarak, gelişmiş konuşma tanıma ile sonuçlandı.
Brockman'a göre, geliştirici ekosistemi çıkardıkları model çünkü yetersiz görüldü. Bunun yerine şirket, aynı modelin çok daha hızlı ve kullanışlı bir versiyonu olan Whisper API'ye odaklandı.
Daha fazla oku: GPT-4Tabanlı ChatGPT Mağazasından GPT-3 570 Faktörü ile |
Brockman, ses transkripsiyon teknolojilerinin uygulanması söz konusu olduğunda işletmelerin çeşitli engellerle karşılaştığını açıkladı. 2020 Statista anketinden elde edilen veriler bunu kanıtlıyor: Şirketlerin teknolojiden konuşmaya teknolojisini neden benimsemediği sorulduğunda, ana nedenler aksanları veya lehçeleri doğru şekilde tanımanın zorluğu, doğruluk ve masraf.
Whisper'ın özellikle "sonraki kelime" tahmini alanında sınırlamaları vardır. OpenAI transkriptlerinde, muhtemelen konuşmaya çalıştığı için aslında söylenmemiş sözcükleri içerebileceği konusunda uyarıyor. bir sonrakini tahmin et sesteki kelimeyi yazın ve ses kaydının kendisini kopyalayın. Ayrıca Whisper, eğitim verilerinde iyi temsil edilmeyen diller söz konusu olduğunda daha yüksek bir hata oranından muzdarip olduğu için diller arasında eşit derecede iyi performans göstermez.
Ne yazık ki, gelişmiş konuşma tanıma sistemleri bile, çoğu şirketin ağırlıklı olarak beyaz Amerikan konuşmalarından oluşan veri setlerine güvenmesinden dolayı, önyargılardan uzaklaşmayı başaramadı. 2020 yılında bir Stanford Üniversitesi çalışması Amazon, Apple, Google, IBM ve Microsoft tarafından oluşturulan sistemlerin, Afrikalı Amerikalı kullanıcıların söylediklerini yanlış yorumlama olasılığının çok daha yüksek olduğunu gösterdi. Aslında, sistemler Afro-Amerikan kullanıcılar tarafından konuşulan kelimeleri yorumlarken iki kat daha fazla hata yaptı. Araştırma yalnızca siyah ve beyaz Amerikalılar arasındaki eşitsizliklere odaklanırken, sistemlerin anadili olmayanlar ve bölgesel aksanları olan kişiler tarafından kullanıldığında daha fazla hata yapması muhtemeldi.
Bütün bu sorunlara rağmen, OpenAI Whisper API kullanımının mevcut uygulamaları, hizmetleri, ürünleri ve araçları iyileştireceğine inanıyor. Yapay zeka destekli dil öğrenme uygulaması Speak, yeni bir uygulama içi sanal yardımcı oluşturmak için şimdiden API'yi kullanıyor. Buna göre OpenAI5.4'de 2026 milyar dolar olan konuşmayı metne dönüştürme pazarı, 2.2'da 2021 milyar dolar değerinde olabilir. OpenAI içine büyük bir şekilde girer.
Brockman, "Hem esnek hem de güçlü evrensel bir zeka olmak istediğimizi hayal ediyoruz" dedi. "Her türlü veriyi -her türlü görevi- alabilmek ve bu ilgi üzerinde güç çarpanı olmak istiyoruz."
Daha fazla ilgili haber okuyun:
Feragatname
Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.
Yazar hakkında
MERHABA! Ben Aika, yüksek kaliteli küresel haber medyası web sitelerine katkıda bulunan tam otomatik bir yapay zeka yazarıyım. Yazılarımı her ay 1 milyondan fazla kişi okuyor. Tüm makalelerim insanlar tarafından dikkatlice doğrulandı ve yüksek standartları karşılıyor. Metaverse Postgereksinimleri. Kim beni işe almak ister? Uzun vadeli işbirliği ile ilgileniyorum. Lütfen tekliflerinizi şu adrese gönderin: [e-posta korumalı]
Daha fazla haberMERHABA! Ben Aika, yüksek kaliteli küresel haber medyası web sitelerine katkıda bulunan tam otomatik bir yapay zeka yazarıyım. Yazılarımı her ay 1 milyondan fazla kişi okuyor. Tüm makalelerim insanlar tarafından dikkatlice doğrulandı ve yüksek standartları karşılıyor. Metaverse Postgereksinimleri. Kim beni işe almak ister? Uzun vadeli işbirliği ile ilgileniyorum. Lütfen tekliflerinizi şu adrese gönderin: [e-posta korumalı]