Laporan berita Teknologi
23 Mei 2023

Meta Telah Mengembangkan AI Pidato Sumber Terbuka yang Mengenali Lebih dari 4,000 Bahasa Lisan

Singkatnya

Proyek MMS perusahaan dapat mengenali lebih dari 4,000 bahasa.

Seperti kebanyakan proyek AI lainnya yang diumumkan secara publik, Meta membagikan model dan kodenya untuk membantu melestarikan keragaman bahasa.

Melalui karya ini, mereka berharap dapat memberikan kontribusi kecil untuk melestarikan keanekaragaman bahasa yang luar biasa di dunia.

meta telah dibuat model bahasa AI yang merupakan sentuhan baru ChatGPT. Sumber terbuka proyek MMS telah dibuat untuk melestarikan keragaman bahasa dan mendorong penelitian dan dapat mengenali lebih dari 4,000 bahasa lisan dan menghasilkan teks (ucapan) di lebih dari 1,100. Perusahaan memiliki dirilis ke publik model dan kodenya hari ini untuk memajukan tujuannya.

“Kami membagikan kreasi dan kode kami secara publik untuk mendorong orang lain dalam komunitas riset untuk mengembangkan karya kami,” tulis Meta. “Melalui upaya ini, kami berharap dapat melestarikan keragaman bahasa yang luar biasa di dunia.”

Meta Telah Mengembangkan AI Pidato Open-Source yang Mengenali Lebih dari 4,000 Bahasa Lisan

Kesulitan melatih pengenal ucapan dan model text-to-speech pada audio dalam jumlah besar tanpa label transkripsi adalah tipikal. Label sangat penting untuk Mesin belajar, yang dapat mengidentifikasi dan mengklasifikasikan data dengan benar. Namun, untuk bahasa yang akan hilang dalam beberapa dekade mendatang, "data ini tidak ada," seperti yang dijelaskan Meta.

Meta menggunakan rekaman audio teks agama untuk mengumpulkan data dengan cara yang tidak konvensional. “Kami menggunakan terjemahan teks agama seperti Alkitab, yang telah dipelajari secara luas untuk penelitian terjemahan bahasa berbasis teks dalam banyak bahasa karena diterjemahkan dalam banyak bahasa berbeda,” kata perusahaan itu. Kami mengekstrak rekaman audio dari orang-orang yang membaca teks ini dalam berbagai bahasa dari terjemahan yang tersedia untuk umum.” Peneliti Meta menambahkan lebih dari 4,000 bahasa ke model.

Pendekatannya terdengar seperti resep untuk model AI yang sangat bias yang mendukung pandangan dunia Kristen. Namun, sebelum Anda mencemooh ide tersebut, pertimbangkan dari sudut pandang Meta: Para peneliti percaya ini adalah kasusnya karena mereka menggunakan klasifikasi temporal CTC koneksionis (atau model urutan-ke-urutan atau tipe-urutan) yang jauh lebih terbatas dalam hal daya komputasi dibandingkan dengan model bahasa besar (juga dikenal sebagai tipe urutan) atau model berurutan untuk pengenalan suara. Meta mengatakan bahwa hal ini tidak menimbulkan bias laki-laki dalam rekaman religi yang direkam oleh sebagian besar penutur laki-laki.

Meta menggunakan wav2vec 2.0, model "pembelajaran representasi ucapan yang diawasi sendiri", untuk melatih wav2vec 2.0 model penjajaran yang membuat data lebih bermanfaat. Model ucapan yang diawasi sendiri yang diawasi sendiri oleh Meta dari data yang tidak berlabel memberikan hasil yang luar biasa. Meta menemukan bahwa model ucapan multibahasa masif bekerja dengan baik dibandingkan dengan model yang ada dan mencakup 10 kali lebih banyak bahasa, terutama dibandingkan dengan Berbisik. Meta mencapai separuh tingkat kesalahan kata, sementara Massively Multilingual Speech mencakup 11 kali lebih banyak bahasa.

Meta mengatakan bahwa model ucapan-ke-teks barunya tidak sempurna. Misalnya, mereka mungkin salah menerjemahkan kata atau frasa, yang dapat mengakibatkan ucapan yang menyinggung dan/atau salah, tulis perusahaan tersebut. Pengembangan teknologi AI yang bertanggung jawab harus dicapai melalui kolaborasi di antara komunitas AI.

Karena Meta telah merilis MMS untuk penelitian sumber terbuka, ia berharap dapat membalikkan tren hilangnya penggunaan bahasa. Dalam visi ini, teknologi asistif, TTS, dan bahkan teknologi realitas virtual dan augmented reality memungkinkan setiap orang untuk berbicara dan belajar dalam bahasa asli mereka. Dikatakan, “Kami membayangkan dunia di mana teknologi memiliki efek sebaliknya, mendorong orang untuk menjaga bahasa mereka tetap hidup karena mereka dapat mengakses informasi dan menggunakan teknologi dengan berbicara dalam bahasa pilihan mereka.”

  • Baru-baru ini Meta telah mengumumkan hasil keuangan untuk kuartal pertama tahun 2023. Terlepas dari upaya restrukturisasi baru-baru ini, perusahaan mengejutkan investor dengan peningkatan penjualan yang tidak terduga untuk kuartal pertama. Saham melonjak 12% pada hari Rabu.

Baca artikel terkait lainnya:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Selera Institusional Tumbuh Terhadap ETF Bitcoin Di Tengah Volatilitas

Pengungkapan melalui pengajuan 13F mengungkapkan investor institusi terkemuka yang mencoba-coba ETF Bitcoin, menggarisbawahi semakin besarnya penerimaan ...

Tahu lebih banyak

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Injective Bergabung Dengan AltLayer Untuk Membawa Keamanan Ulang ke inEVM
Bisnis Laporan berita Teknologi
Injective Bergabung Dengan AltLayer Untuk Membawa Keamanan Ulang ke inEVM
3 Mei 2024
Masa Bekerja Sama Dengan Teller Untuk Memperkenalkan MASA Lending Pool, Memungkinkan Pinjaman USDC Di Pangkalan
pasar Laporan berita Teknologi
Masa Bekerja Sama Dengan Teller Untuk Memperkenalkan MASA Lending Pool, Memungkinkan Pinjaman USDC Di Pangkalan
3 Mei 2024
Velodrome Meluncurkan Versi Beta Superchain Dalam Beberapa Minggu Mendatang Dan Memperluas Di Seluruh Blockchain OP Stack Layer 2
pasar Laporan berita Teknologi
Velodrome Meluncurkan Versi Beta Superchain Dalam Beberapa Minggu Mendatang Dan Memperluas Di Seluruh Blockchain OP Stack Layer 2
3 Mei 2024
CARV Mengumumkan Kemitraan Dengan Aethir Untuk Mendesentralisasikan Lapisan Datanya Dan Mendistribusikan Hadiah
Bisnis Laporan berita Teknologi
CARV Mengumumkan Kemitraan Dengan Aethir Untuk Mendesentralisasikan Lapisan Datanya Dan Mendistribusikan Hadiah
3 Mei 2024