Laporan Berita Teknologi
April 05, 2023

8 Perkara Yang Anda Perlu Tahu Mengenai Model Bahasa Besar

Secara ringkas

Model bahasa besar (LLM) digunakan untuk meneroka nuansa bahasa semula jadi, meningkatkan keupayaan mesin untuk memahami dan menjana teks, dan mengautomasikan tugas seperti pengecaman suara dan terjemahan mesin.

Tiada penyelesaian mudah untuk menguruskan LLM, tetapi mereka sama berkebolehan seperti manusia.

Dengan lonjakan dalam pembangunan pemprosesan bahasa semula jadi dan penggunaannya dalam perniagaan, terdapat minat yang semakin meningkat dalam model bahasa yang besar. Model ini digunakan untuk meneroka nuansa bahasa semula jadi, meningkatkan keupayaan mesin untuk memahami dan menjana teks dan mengautomasikan tugas seperti pengecaman suara dan terjemahan mesin. Berikut ialah lapan perkara penting yang perlu anda ketahui tentang model bahasa besar (LLM).

10 Perkara Yang Anda Perlu Tahu Mengenai Model Bahasa Besar
@Midjourney / Taka#4076

LLM lebih "berkebolehan" kerana kos terus meningkat

LLM dijangka menjadi lebih "berkebolehan" dengan peningkatan kos, walaupun tanpa inovasi yang hebat. Perkara utama di sini adalah kebolehramalan, yang ditunjukkan dalam artikel tentang GPT-4: lima hingga tujuh model kecil telah diajar dengan anggaran 0.1% daripada yang terakhir, dan kemudian ramalan dibuat untuk model besar berdasarkan ini. Untuk penilaian umum kebingungan dan metrik pada subsampel satu tugasan khusus, ramalan sedemikian adalah sangat tepat. Kebolehramalan ini penting untuk perniagaan dan organisasi yang bergantung pada LLM untuk operasi mereka, kerana mereka boleh membuat belanjawan dengan sewajarnya dan merancang untuk perbelanjaan masa hadapan. Walau bagaimanapun, adalah penting untuk ambil perhatian bahawa walaupun peningkatan kos boleh membawa kepada keupayaan yang lebih baik, kadar penambahbaikan akhirnya mungkin mendatar, menjadikannya perlu untuk melabur dalam inovasi baharu untuk terus maju.

Sepintas lalu bagaimana GPT model menyesuaikan diri apabila kos latihan meningkat

Walau bagaimanapun, kemahiran penting khusus cenderung muncul tanpa diduga sebagai hasil sampingan peningkatan kos latihan (latihan lebih lama, lebih banyak data, model lebih besar) — hampir mustahil untuk meramalkan bila model akan mula melaksanakan tugas tertentu. Kami meneroka topik dengan lebih mendalam dalam kami artikel tentang sejarah perkembangan GPT model. Gambar menunjukkan taburan peningkatan kualiti model merentas tugasan yang berbeza. Hanya model besar yang boleh belajar melakukan pelbagai tugas. Graf ini menyerlahkan impak ketara peningkatan saiz GPT model pada prestasi mereka merentasi pelbagai tugas. Walau bagaimanapun, adalah penting untuk ambil perhatian bahawa ini datang dengan kos peningkatan sumber pengiraan dan kesan alam sekitar.

Sepintas lalu bagaimana GPT model menyesuaikan diri apabila kos latihan meningkat

LLM belajar bermain permainan papan dengan menggunakan perwakilan dunia luar

LLM sering belajar dan menggunakan perwakilan dunia luar. Terdapat banyak contoh di sini, dan ini adalah salah satu daripadanya: Model terlatih untuk bermain permainan papan berdasarkan perihalan pergerakan individu, tanpa pernah melihat gambar padang permainan, pelajari gambaran dalaman keadaan papan pada setiap pergerakan. Perwakilan dalaman ini kemudiannya boleh digunakan untuk meramal masa depan pergerakan dan hasil, membolehkan model bermain permainan pada tahap yang tinggi. Keupayaan untuk belajar dan menggunakan perwakilan ini adalah kunci aspek pembelajaran mesin dan kecerdasan buatan.

Tiada penyelesaian mudah untuk menguruskan LLM

Tiada kaedah yang boleh dipercayai untuk mengawal tingkah laku LLM. Walaupun terdapat beberapa kemajuan dalam memahami dan mengurangkan pelbagai masalah (termasuk ChatGPT and GPT-4 dengan bantuan maklum balas), tidak ada konsensus sama ada kita boleh menyelesaikannya. Terdapat kebimbangan yang semakin meningkat ini akan menjadi masalah besar yang berpotensi bencana pada masa hadapan apabila sistem yang lebih besar dicipta. Oleh itu, penyelidik sedang meneroka kaedah baharu untuk memastikan sistem AI sejajar dengan nilai dan matlamat manusia, seperti penjajaran nilai dan kejuruteraan ganjaran. Walau bagaimanapun, ia tetap menjadi tugas yang mencabar untuk menjamin keselamatan dan kebolehpercayaan LLM dalam senario dunia sebenar yang kompleks.

Baca lebih lanjut: OpenAI Kumpulkan Pasukan 50+ Pakar untuk Meningkatkan GPT-4Keselamatan

Pakar menghadapi masalah untuk menerangkan cara LLM berfungsi

Pakar belum boleh mentafsir kerja dalaman LLM. Tiada teknik akan membenarkan kami menyatakan dalam apa-apa cara yang memuaskan jenis pengetahuan, penaakulan atau matlamat yang digunakan model apabila ia menjana sebarang hasil. Kekurangan kebolehtafsiran ini menimbulkan kebimbangan tentang kebolehpercayaan dan kesaksamaan keputusan LLM, terutamanya dalam aplikasi berisiko tinggi seperti keadilan jenayah atau pemarkahan kredit. Ia juga menyerlahkan keperluan untuk penyelidikan lanjut untuk membangunkan model AI yang lebih telus dan bertanggungjawab.

LLM sama berkebolehan seperti manusia

Walaupun LLM dilatih terutamanya untuk meniru tingkah laku manusia semasa menulis teks, mereka mempunyai potensi untuk mengatasi kita dalam banyak tugas. Ini sudah boleh dilihat semasa bermain catur atau Go. Ini disebabkan oleh keupayaan mereka untuk menganalisis sejumlah besar data dan membuat keputusan berdasarkan analisis itu pada kelajuan yang tidak dapat dipadankan oleh manusia. Walau bagaimanapun, LLM masih kekurangan kreativiti dan intuisi yang dimiliki oleh manusia, yang menjadikan mereka kurang sesuai untuk banyak tugas.

Baca lebih lanjut: OpenAI Kumpulkan Pasukan 50+ Pakar untuk Meningkatkan GPT-4Keselamatan

LLM mestilah lebih daripada sekadar "jack-of-all-trades"

LLM tidak boleh menyatakan nilai penciptanya atau nilai yang dikodkan dalam pilihan daripada Internet. Mereka tidak sepatutnya mengulangi stereotaip atau teori konspirasi atau cuba menyinggung perasaan sesiapa. Sebaliknya, LLM harus direka bentuk untuk memberikan maklumat yang tidak berat sebelah dan fakta kepada pengguna mereka sambil menghormati perbezaan budaya dan masyarakat. Selain itu, mereka harus menjalani ujian dan pemantauan berkala untuk memastikan mereka terus memenuhi piawaian ini.

Model adalah 'lebih bijak' daripada orang berfikir berdasarkan tanggapan pertama

Anggaran keupayaan model berdasarkan tanggapan pertama selalunya mengelirukan. Selalunya, anda perlu menghasilkan gesaan yang betul, mencadangkan model, dan mungkin menunjukkan contoh, dan ia akan mula mengatasi dengan lebih baik. Iaitu, ia adalah "lebih bijak" daripada yang kelihatan pada pandangan pertama. Oleh itu, adalah penting untuk memberi model peluang yang saksama dan menyediakannya dengan sumber yang diperlukan untuk menunjukkan prestasi yang terbaik. Dengan pendekatan yang betul, walaupun model yang kelihatan tidak mencukupi boleh mengejutkan kita dengan keupayaan mereka.

Jika kita menumpukan pada sampel 202 tugasan daripada set data BIG-Bench (ia dibuat sukar untuk diuji khas model bahasa dari dan ke), kemudian sebagai peraturan (secara purata), model menunjukkan peningkatan dalam kualiti dengan skala yang semakin meningkat, tetapi secara individu, metrik dalam tugasan boleh:

  • bertambah baik secara beransur-ansur,
  • bertambah baik secara drastik,
  • tetap tidak berubah,
  • menurun,
  • tidak menunjukkan perkaitan.

Semua ini membawa kepada kemustahilan untuk mengekstrapolasi dengan yakin prestasi mana-mana sistem masa hadapan. Bahagian hijau sangat menarik — di sinilah penunjuk kualiti melonjak secara mendadak tanpa sebab sama sekali.

Baca lebih lanjut mengenai AI:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

lebih banyak artikel
Damir Yalalov
Damir Yalalov

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

Selera Institusi Berkembang Terhadap Bitcoin ETF Di Tengah-tengah Kemeruapan

Pendedahan melalui pemfailan 13F mendedahkan pelabur institusi terkenal yang berkecimpung dalam Bitcoin ETF, menekankan penerimaan yang semakin meningkat terhadap ...

Mengetahui lebih lanjut

Hari Penghukuman Tiba: Nasib CZ Bergantung Seimbang apabila Mahkamah AS Mempertimbangkan Rayuan DOJ

Changpeng Zhao bersedia untuk menghadapi hukuman di mahkamah AS di Seattle hari ini.

Mengetahui lebih lanjut
Sertai Komuniti Teknologi Inovatif Kami
Untuk Lebih Lanjut
Baca lagi
Orbiter Finance Bekerjasama Dengan Bitcoin Layer 2 Zulu Network Dan Digunakan Pada Is Lwazi Testnet
Perniagaan Laporan Berita Teknologi
Orbiter Finance Bekerjasama Dengan Bitcoin Layer 2 Zulu Network Dan Digunakan Pada Is Lwazi Testnet 
Semoga 7, 2024
Crypto Exchange Bybit Mengintegrasikan Ethena Labs' USDe Sebagai Aset Cagaran, Membolehkan Pasangan Dagangan BTC-USDe dan ETH-USDe
pasaran Laporan Berita Teknologi
Crypto Exchange Bybit Mengintegrasikan Ethena Labs' USDe Sebagai Aset Cagaran, Membolehkan Pasangan Dagangan BTC-USDe dan ETH-USDe
Semoga 7, 2024
Bitget Wallet Memperkenalkan GetDrop Airdrop Platform Dan Melancarkan Acara Syiling Meme Pertama Dengan Kumpulan Hadiah $130,000
pasaran Laporan Berita Teknologi
Bitget Wallet Memperkenalkan GetDrop Airdrop Platform Dan Melancarkan Acara Syiling Meme Pertama Dengan Kumpulan Hadiah $130,000
Semoga 7, 2024
Daripada Refleks Mudah kepada Ejen Pembelajaran: Lihat Pelbagai Jenis Ejen AI dan Peranan Mereka dalam Apl Moden
Gaya hidup perisian Cerita dan Ulasan Teknologi
Daripada Refleks Mudah kepada Ejen Pembelajaran: Lihat Pelbagai Jenis Ejen AI dan Peranan Mereka dalam Apl Moden
Semoga 7, 2024