Laporan Berita Teknologi
Semoga 23, 2023

Meta Telah Membangunkan AI Ucapan Sumber Terbuka Yang Mengiktiraf Lebih 4,000 Bahasa Pertuturan

Secara ringkas

Projek MMS syarikat boleh mengenali lebih 4,000 bahasa.

Seperti kebanyakan projek AI lain yang diumumkan secara terbuka, Meta berkongsi model dan kodnya untuk membantu mengekalkan kepelbagaian bahasa.

Melalui kerja ini, mereka berharap dapat memberikan sedikit sumbangan untuk memelihara kepelbagaian bahasa dunia yang luar biasa.

meta telah mencipta model bahasa AI yang menyegarkan ChatGPT. Sumber terbuka projek MMS telah diwujudkan untuk memelihara kepelbagaian bahasa dan menggalakkan penyelidikan dan boleh mengenali lebih daripada 4,000 bahasa pertuturan dan menghasilkan teks (pertuturan) dalam lebih 1,100. Syarikat telah dikeluarkan secara terbuka model dan kodnya hari ini untuk meneruskan matlamatnya.

"Kami berkongsi ciptaan dan kod kami secara terbuka untuk menggalakkan orang lain dalam komuniti penyelidikan untuk membina kerja kami," tulis Meta. "Melalui usaha ini, kami berharap dapat mengekalkan kepelbagaian bahasa dunia yang luar biasa."

Meta Telah Membangunkan AI Pertuturan Sumber Terbuka yang Mengiktiraf Lebih 4,000 Bahasa Pertuturan

Kesukaran melatih pengecam pertuturan dan model teks ke pertuturan pada kuantiti audio yang banyak tanpa label transkripsi adalah tipikal. Label adalah penting untuk pembelajaran mesin, yang boleh mengenal pasti dan mengelaskan data dengan betul. Walau bagaimanapun, untuk bahasa yang akan hilang dalam dekad akan datang, "data ini tidak wujud," seperti yang dijelaskan oleh Meta.

Meta menggunakan rakaman audio teks agama untuk mengumpul data dengan cara yang tidak konvensional. "Kami menggunakan terjemahan teks agama seperti Bible, yang telah dikaji secara meluas untuk penyelidikan terjemahan bahasa berasaskan teks dalam banyak bahasa kerana ia diterjemahkan dalam pelbagai bahasa yang berbeza," kata syarikat itu. Kami mengekstrak rakaman audio orang yang membaca teks ini dalam bahasa yang berbeza daripada terjemahan yang tersedia secara umum." Penyelidik Meta menambah lebih 4,000 bahasa ke model.

Pendekatan ini kelihatan seperti resipi untuk model AI yang sangat berat sebelah yang memihak kepada pandangan dunia Kristian. Walau bagaimanapun, sebelum anda mencemuh idea itu, pertimbangkan ia dari perspektif Meta: Penyelidik percaya ini berlaku kerana mereka menggunakan klasifikasi temporal CTC sambungan (atau model urutan-ke-jujukan atau jenis urutan) yang lebih terhad dari segi kuasa pengiraan berbanding dengan model bahasa yang besar (juga dikenali sebagai jenis urutan) atau model berjujukan untuk pengecaman pertuturan. Meta mengatakan bahawa ini tidak menyebabkan kecenderungan lelaki dalam rakaman agama yang dirakam oleh kebanyakan penceramah lelaki.

Meta menggunakan wav2vec 2.0, model "pembelajaran perwakilan pertuturan yang diselia sendiri", untuk melatih wav2vec 2.0 model penjajaran yang menjadikan data lebih boleh digunakan. Model pertuturan seliaan sendiri yang Meta selia sendiri daripada data tidak berlabel membawa kepada hasil yang hebat. Meta mendapati bahawa model pertuturan berbilang bahasa secara besar-besaran menunjukkan prestasi yang baik berbanding model sedia ada dan meliputi 10 kali lebih banyak bahasa, terutamanya berbanding dengan Whisper. Meta mencapai separuh daripada kadar ralat perkataan, manakala Pertuturan Berbilang Bahasa Secara Besar-besaran merangkumi 11 kali lebih banyak bahasa.

Meta mengatakan bahawa model pertuturan ke teks baharunya tidak sempurna. Sebagai contoh, mereka mungkin salah menterjemah perkataan atau frasa, yang boleh mengakibatkan pertuturan yang menyinggung perasaan dan/atau salah, tulis syarikat itu. Pembangunan teknologi AI yang bertanggungjawab mesti dicapai melalui kerjasama dalam kalangan komuniti AI.

Memandangkan Meta telah mengeluarkan MMS untuk penyelidikan sumber terbuka, ia berharap ia dapat membalikkan arah aliran penggunaan bahasa yang semakin hilang. Dalam visi ini, teknologi bantuan, TTS, malah realiti maya dan teknologi realiti tambahan mungkin membenarkan semua orang bercakap dan belajar dalam bahasa ibunda mereka. Ia menyatakan, "Kami membayangkan dunia di mana teknologi mempunyai kesan sebaliknya, mendorong orang ramai untuk mengekalkan bahasa mereka kerana mereka boleh mengakses maklumat dan menggunakan teknologi dengan bercakap dalam bahasa pilihan mereka."

  • Baru-baru ini, Meta telah mengumumkan keputusan kewangan untuk suku pertama 2023. Walaupun usaha penstrukturan semula baru-baru ini, syarikat itu mengejutkan pelabur dengan peningkatan jualan yang tidak dijangka untuk suku pertama. Saham melonjak 12% pada hari Rabu.

Baca lebih banyak artikel berkaitan:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

lebih banyak artikel
Damir Yalalov
Damir Yalalov

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

Selera Institusi Berkembang Terhadap Bitcoin ETF Di Tengah-tengah Kemeruapan

Pendedahan melalui pemfailan 13F mendedahkan pelabur institusi terkenal yang berkecimpung dalam Bitcoin ETF, menekankan penerimaan yang semakin meningkat terhadap ...

Mengetahui lebih lanjut

Hari Penghukuman Tiba: Nasib CZ Bergantung Seimbang apabila Mahkamah AS Mempertimbangkan Rayuan DOJ

Changpeng Zhao bersedia untuk menghadapi hukuman di mahkamah AS di Seattle hari ini.

Mengetahui lebih lanjut
Sertai Komuniti Teknologi Inovatif Kami
Untuk Lebih Lanjut
Baca lagi
Injektif Menyertai Pasukan Dengan AltLayer Untuk Membawa Keselamatan Restaking Kepada inEVM
Perniagaan Laporan Berita Teknologi
Injektif Menyertai Pasukan Dengan AltLayer Untuk Membawa Keselamatan Restaking Kepada inEVM
Semoga 3, 2024
Masa Bekerjasama Dengan Juruwang Untuk Memperkenalkan Kumpulan Pinjaman MASA, Membolehkan Pinjaman USDC Di Pangkalan
pasaran Laporan Berita Teknologi
Masa Bekerjasama Dengan Juruwang Untuk Memperkenalkan Kumpulan Pinjaman MASA, Membolehkan Pinjaman USDC Di Pangkalan
Semoga 3, 2024
Velodrome Melancarkan Versi Beta Superchain Dalam Minggu Akan Datang Dan Berkembang Merentasi OP Stack Layer 2 Blockchains
pasaran Laporan Berita Teknologi
Velodrome Melancarkan Versi Beta Superchain Dalam Minggu Akan Datang Dan Berkembang Merentasi OP Stack Layer 2 Blockchains
Semoga 3, 2024
CARV Mengumumkan Perkongsian Dengan Aethir Untuk Memusnahkan Lapisan Datanya Dan Mengedarkan Ganjaran
Perniagaan Laporan Berita Teknologi
CARV Mengumumkan Perkongsian Dengan Aethir Untuk Memusnahkan Lapisan Datanya Dan Mengedarkan Ganjaran
Semoga 3, 2024