Mac 09, 2023

Evolusi Chatbots dari T9-Era dan GPT-1 kepada ChatGPT

Diterbitkan: 09 Mac 2023 jam 4:00 petang Kemas kini: 09 Mac 2023 jam 4:50 petang

Baru-baru ini, kami telah dihujani hampir setiap hari dengan siaran berita tentang rekod terkini yang dipecahkan oleh rangkaian saraf berskala besar dan mengapa hampir tiada pekerjaan sesiapa yang selamat. Namun begitu, sangat sedikit orang yang mengetahui bagaimana rangkaian saraf suka ChatGPT sebenarnya beroperasi.

Jadi, berehatlah. Jangan mengeluh tentang prospek pekerjaan anda dahulu. Dalam siaran ini, kami akan menerangkan semua yang perlu diketahui tentang rangkaian saraf dengan cara yang boleh difahami oleh semua orang.

Evolusi Chatbots dari T9-Era dan GPT-1 kepada ChatGPT dan Bart

Kaveat sebelum kita mula: Bahagian ini adalah kerjasama. Keseluruhan bahagian teknikal telah ditulis oleh pakar AI yang terkenal di kalangan orang ramai AI.

Memandangkan belum ada sesiapa yang menulis bahagian yang mendalam tentang bagaimana ChatGPT kerja yang akan menerangkan, dari segi orang awam, selok-belok rangkaian saraf, kami memutuskan untuk melakukan ini untuk anda. Kami telah cuba memastikan siaran ini semudah mungkin supaya pembaca dapat membaca siaran ini dengan pemahaman umum tentang prinsip rangkaian saraf bahasa. Kami akan meneroka bagaimana model bahasa bekerja di sana, bagaimana rangkaian saraf berkembang untuk memiliki keupayaan semasa mereka, dan mengapa ChatGPTPopulariti meledak 's mengejutkan penciptanya.

Mari kita mulakan dengan asas. Untuk memahami ChatGPT dari sudut teknikal, kita mesti terlebih dahulu memahami apa yang tidak. Ini bukan Jarvis Marvel Comics; ia bukan makhluk yang rasional; ia bukan jin. Bersedia untuk terkejut: ChatGPT sebenarnya ialah T9 telefon bimbit anda pada steroid! Ya, ia adalah: Para saintis merujuk kepada kedua-dua teknologi ini sebagai "model bahasa." Semua rangkaian saraf lakukan adalah meneka perkataan apa yang akan datang seterusnya.

Teknologi T9 asal hanya mempercepatkan pendailan telefon butang tekan dengan meneka input semasa dan bukannya perkataan seterusnya. Walau bagaimanapun, teknologi semakin maju, dan menjelang era telefon pintar pada awal 2010-an, ia dapat mempertimbangkan konteks dan perkataan sebelumnya, menambah tanda baca dan menawarkan pilihan perkataan yang boleh digunakan seterusnya. Itulah analogi yang kami buat dengan versi "maju" T9 atau pembetulan auto.

Akibatnya, kedua-dua T9 pada papan kekunci telefon pintar dan ChatGPT telah dilatih untuk menyelesaikan tugas yang sangat mudah: meramal perkataan seterusnya. Ini dikenali sebagai "pemodelan bahasa," dan ia berlaku apabila keputusan dibuat tentang perkara yang perlu ditulis seterusnya berdasarkan teks sedia ada. Model bahasa mesti beroperasi pada kebarangkalian berlakunya perkataan tertentu untuk membuat ramalan sedemikian. Lagipun, anda akan marah jika autolengkap telefon anda hanya melemparkan anda perkataan rawak sepenuhnya dengan kebarangkalian yang sama.

Untuk kejelasan, mari bayangkan anda menerima mesej daripada rakan. Ia berkata: "Apakah rancangan anda untuk malam itu?" Sebagai tindak balas, anda mula menaip: "Saya akan...", dan di sinilah T9 masuk. Ia mungkin menghasilkan perkara yang tidak masuk akal seperti "Saya akan pergi ke bulan," tanpa model bahasa yang rumit diperlukan. Model autolengkap telefon pintar yang baik mencadangkan perkataan yang jauh lebih relevan.

Jadi, bagaimanakah T9 tahu perkataan apa yang lebih berkemungkinan mengikuti teks yang sudah ditaip dan apa yang jelas tidak masuk akal? Untuk menjawab soalan ini, kita mesti mengkaji prinsip operasi asas yang paling mudah rangkaian saraf.

Jadual Kandungan

Bagaimana model AI meramalkan perkataan seterusnya
Mengapa kita terus mencuba untuk mencari perkataan 'betul' untuk teks yang diberikan?
GPT-1: Meletupkan industri
GPT-2: Zaman model bahasa besar
GPT-3: Pintar seperti Neraka
GPT-3.5 (ArahanGPT): Model dilatih supaya selamat dan tidak toksik
ChatGPT: Lonjakan Gembar-gembur Beramai-ramai

More: ChatGPT API Kini Tersedia, Membuka Floodgate untuk Pembangun

Bagaimana model AI meramalkan perkataan seterusnya

Mari kita mulakan dengan soalan yang lebih mudah: Bagaimanakah anda meramalkan saling kebergantungan beberapa perkara pada yang lain? Andaikan kita ingin mengajar komputer untuk meramal berat badan seseorang berdasarkan ketinggian mereka — bagaimanakah kita harus melakukannya? Mula-mula kita harus mengenal pasti kawasan yang diminati dan kemudian mengumpul data yang akan digunakan untuk mencari kebergantungan minat dan kemudian cuba untuk "melatih" beberapa model matematik untuk mencari corak dalam data ini.

Secara ringkasnya, T9 atau ChatGPT hanyalah persamaan yang dipilih secara bijak yang cuba melakukannya meramalkan perkataan (Y) berdasarkan set perkataan sebelumnya (X) yang dimasukkan ke dalam input model. Semasa latihan a model bahasa pada set data, tugas utama adalah untuk memilih pekali untuk x ini yang benar-benar mencerminkan beberapa jenis pergantungan (seperti dalam contoh kami dengan ketinggian dan berat). Dan dengan model yang besar, kita akan mendapat pemahaman yang lebih baik tentang mereka yang mempunyai sejumlah besar parameter. Dalam bidang kecerdasan buatan, ia dirujuk sebagai model bahasa besar, atau singkatannya LLM. Seperti yang akan kita lihat nanti, model besar dengan banyak parameter adalah penting untuk menghasilkan teks yang baik.

Dengan cara ini, jika anda tertanya-tanya mengapa kami sentiasa bercakap tentang "meramalkan satu perkataan seterusnya". ChatGPT cepat bertindak balas dengan seluruh perenggan teks, jawapannya mudah. Sudah tentu, model bahasa boleh menghasilkan teks yang panjang tanpa kesukaran, tetapi keseluruhan proses adalah perkataan demi perkataan. Selepas setiap perkataan baharu dijana, model hanya menjalankan semula semua teks dengan perkataan baharu untuk menjana perkataan seterusnya. Proses ini berulang berulang kali sehingga anda mendapat keseluruhan respons.

More: ChatGPT Boleh Menyebabkan Kemerosotan Manusia Yang Tidak Dapat Dipulihkan

Mengapa kita terus mencuba untuk mencari perkataan 'betul' untuk teks yang diberikan?

Model bahasa cuba meramalkan kebarangkalian perkataan berbeza yang boleh berlaku dalam teks tertentu. Mengapa ini perlu, dan mengapa anda tidak boleh terus mencari perkataan "paling betul"? Mari cuba permainan mudah untuk menggambarkan bagaimana proses ini berfungsi.

Peraturannya adalah seperti berikut: Saya mencadangkan agar anda meneruskan ayat: “Presiden Amerika Syarikat yang ke-44 (dan orang Afrika Amerika pertama dalam jawatan ini) ialah Barak…”. Apa perkataan yang harus dilalui seterusnya? Apakah kemungkinan ia akan berlaku?

Mengapa kita terus mencuba untuk mencari perkataan 'betul' untuk teks yang diberikan?

Jika anda meramalkan dengan pasti 100% bahawa perkataan seterusnya ialah "Obama," anda silap! Dan maksudnya di sini bukanlah bahawa terdapat satu lagi Barak mitos; ia jauh lebih remeh. Dokumen rasmi biasanya menggunakan nama penuh presiden. Ini bermakna apa yang mengikuti nama pertama Obama ialah nama tengahnya, Hussein. Jadi, dalam ayat kami, model bahasa yang dilatih dengan betul harus meramalkan bahawa "Obama" akan menjadi perkataan seterusnya hanya dengan kebarangkalian bersyarat sebanyak 90% dan memperuntukkan baki 10% jika teks itu diteruskan oleh "Hussein" (selepas itu Obama akan ikuti dengan kebarangkalian hampir 100%).

Dan kini kita sampai kepada aspek model bahasa yang menarik: Mereka tidak terlepas daripada coretan kreatif! Malah, apabila menjana setiap perkataan seterusnya, model sedemikian memilihnya secara "rawak", seolah-olah melempar dadu. Kebarangkalian perkataan yang berbeza "jatuh" lebih kurang sepadan dengan kebarangkalian yang dicadangkan oleh persamaan yang dimasukkan di dalam model. Ini diperoleh daripada pelbagai jenis teks yang berbeza yang diberikan kepada model.

Ternyata model boleh bertindak balas secara berbeza kepada permintaan yang sama, sama seperti orang yang masih hidup. Penyelidik secara amnya cuba memaksa neuron untuk sentiasa memilih perkataan "kemungkinan besar" seterusnya, tetapi walaupun ini kelihatan rasional di permukaan, model sedemikian menunjukkan prestasi yang lebih buruk dalam realiti. Nampaknya dos rawak yang adil adalah berfaedah kerana ia meningkatkan kebolehubahan dan kualiti jawapan.

Penyelidik secara amnya cuba memaksa neuron untuk sentiasa memilih perkataan "kemungkinan besar" seterusnya, tetapi walaupun ini kelihatan rasional di permukaan, model sedemikian menunjukkan prestasi yang lebih teruk dalam realiti.

More: ChatGPT Belajar Mengawal Drone dan Robot sambil Memikirkan AI Generasi Seterusnya

Bahasa kita mempunyai struktur unik dengan set peraturan dan pengecualian yang berbeza. Terdapat rima dan sebab untuk perkataan yang muncul dalam ayat, ia tidak berlaku secara rawak. Setiap orang secara tidak sedar mempelajari peraturan bahasa yang mereka gunakan semasa tahun pembentukan awal mereka.

Model yang baik harus mengambil kira julat deskriptif bahasa yang luas. Model itu keupayaan untuk menghasilkan hasil yang diinginkan bergantung pada seberapa tepat ia mengira kebarangkalian perkataan berdasarkan kehalusan konteks (bahagian sebelumnya teks yang menerangkan keadaan).

keupayaan model untuk menghasilkan hasil yang diingini bergantung pada seberapa tepat ia mengira kebarangkalian perkataan berdasarkan kehalusan konteks (bahagian teks sebelumnya yang menerangkan keadaan).

Ringkasan: Model bahasa mudah, yang merupakan satu set persamaan yang dilatih pada kuantiti data yang besar untuk meramal perkataan seterusnya berdasarkan teks sumber input, telah dilaksanakan dalam kefungsian "T9/Autofill" telefon pintar sejak awal 2010-an.

More: China Larang Syarikat Menggunakan ChatGPT Selepas Skandal "Berita Benar".

GPT-1: Meletupkan industri

Mari kita beralih daripada model T9. Semasa anda mungkin membaca bahagian ini belajar tentang ChatGPT, pertama, kita perlu membincangkan permulaan GPT keluarga model.

GPT bermaksud "transformer pra-latihan generatif," manakala seni bina rangkaian saraf yang dibangunkan oleh jurutera Google pada tahun 2017 dikenali sebagai Transformer. Transformer ialah mekanisme pengkomputeran universal yang menerima set jujukan (data) sebagai input dan menghasilkan set jujukan yang sama tetapi dalam bentuk berbeza yang telah diubah oleh beberapa algoritma.

Kepentingan penciptaan Transformer dapat dilihat dalam betapa agresifnya ia diterima pakai dan digunakan dalam semua bidang kecerdasan buatan (AI): terjemahan, imej, bunyi dan pemprosesan video. Sektor kecerdasan buatan (AI) mengalami perubahan yang kuat, beralih daripada apa yang dipanggil "genangan AI" kepada pembangunan pesat dan mengatasi genangan.

More: GPT-4-Berdasarkan ChatGPT Lebih cemerlang GPT-3 dengan Faktor 570

Kekuatan utama Transformer terdiri daripada modul yang mudah untuk skala. Apabila diminta untuk memproses sejumlah besar teks sekaligus, model bahasa pra-transformer lama akan menjadi perlahan. Rangkaian saraf pengubah, sebaliknya, mengendalikan tugas ini dengan lebih baik.

Pada masa lalu, data input perlu diproses secara berurutan atau satu demi satu. Model tidak akan mengekalkan data: Jika ia berfungsi dengan naratif satu halaman, ia akan melupakan teks selepas membacanya. Sementara itu, Transformer membolehkan seseorang melihat segala-galanya sekaligus, menghasilkan hasil yang jauh lebih menakjubkan.

Inilah yang membolehkan satu kejayaan dalam pemprosesan teks oleh rangkaian saraf. Akibatnya, model tidak lagi lupa: ia menggunakan semula bahan yang ditulis sebelum ini, lebih memahami konteks, dan, yang paling penting, dapat mewujudkan hubungan antara volum data yang sangat besar dengan memasangkan perkataan bersama-sama.

Ringkasan: GPT-1, yang memulakan kerjaya pada tahun 2018, menunjukkan bahawa rangkaian saraf boleh menghasilkan teks menggunakan reka bentuk Transformer, yang telah meningkatkan kebolehskalaan dan kecekapan dengan ketara. Jika boleh meningkatkan kuantiti dan kerumitan model bahasa, ini akan menghasilkan rizab yang besar.

More: 6 Isu dan Cabaran AI ChatBot: ChatGPT, Bard, Claude

GPT-2: Zaman model bahasa besar

Model bahasa tidak perlu ditandakan secara khusus terlebih dahulu dan boleh "diberikan" dengan sebarang data teks, menjadikannya sangat fleksibel. Jika anda memikirkannya, nampaknya wajar kami ingin menggunakan kebolehannya. Sebarang teks yang pernah ditulis berfungsi sebagai data latihan siap sedia. Oleh kerana sudah terdapat begitu banyak urutan jenis "banyak beberapa perkataan dan frasa => perkataan seterusnya selepasnya," ini tidak menghairankan.

More: ChatGPTElter Ego Jahat Dibangkitkan di Reddit

Sekarang mari kita ingat juga bahawa teknologi Transformers telah diuji GPT-1 terbukti agak berjaya dari segi penskalaan: Ia jauh lebih berkesan daripada pendahulunya dalam mengendalikan jumlah data yang besar. Ternyata penyelidik dari OpenAI membuat kesimpulan yang sama pada 2019: “Sudah tiba masanya untuk memotong model bahasa yang mahal!”

. set data latihan dan model saiz, khususnya, telah dipilih sebagai dua kawasan penting di mana GPT-2 perlu diperbaiki secara drastik.

Memandangkan tiada set data teks awam yang besar dan berkualiti tinggi pada masa yang direka khusus untuk model bahasa latihan, setiap pasukan pakar AI perlu memanipulasi data itu sendiri. The OpenAI orang kemudian membuat keputusan untuk pergi ke Reddit, forum bahasa Inggeris yang paling popular, dan mengekstrak semua hiperpautan daripada setiap siaran yang mempunyai lebih daripada tiga suka. Terdapat hampir 8 juta pautan ini, dan teks yang dimuat turun mempunyai berat keseluruhan 40 terabait.

More: Microsoft untuk Mengkomersialkan ChatGPT kerana Ia Berusaha Membantu Syarikat Lain

Berapakah bilangan parameter yang diterangkan oleh persamaan yang terbesar GPT-2 model pada 2019 mempunyai? Mungkin seratus ribu atau beberapa juta? Baiklah, mari pergi lebih jauh: Formula mengandungi sehingga 1.5 bilion parameter sedemikian. Ia akan mengambil masa 6 terabait untuk hanya menulis nombor sebanyak itu ke dalam fail dan menyimpannya pada komputer anda. Model tidak perlu menghafal teks ini secara keseluruhan, jadi dalam satu pihak, ini jauh lebih kecil daripada jumlah keseluruhan tatasusunan data teks yang melatih model; ia cukup untuk mencari beberapa kebergantungan (corak, peraturan) yang boleh diasingkan daripada teks yang ditulis oleh orang.

Lebih baik model meramalkan kebarangkalian dan lebih banyak parameter yang terkandung di dalamnya, lebih kompleks persamaan disambungkan ke dalam model. Ini menjadikan teks yang boleh dipercayai. Selain itu, GPT-2 model mula menunjukkan prestasi yang baik sehinggakan OpenAI penyelidik malah enggan mendedahkan model itu secara terbuka atas sebab keselamatan.

Sangat menarik apabila model menjadi lebih besar, ia tiba-tiba mula mempunyai kualiti baharu (seperti kebolehan untuk menulis esei yang padu dan bermakna dan bukannya hanya mendikte perkataan seterusnya di telefon).

Perubahan daripada kuantiti kepada kualiti berlaku pada ketika ini. Tambahan pula, ia berlaku sepenuhnya bukan linear. Sebagai contoh, peningkatan tiga kali ganda dalam bilangan parameter daripada 115 kepada 350 juta tidak mempunyai kesan yang ketara terhadap keupayaan model untuk menyelesaikan masalah dengan tepat. Walau bagaimanapun, peningkatan dua kali ganda kepada 700 juta menghasilkan lonjakan kualitatif, di mana rangkaian saraf "melihat cahaya" dan mula mengejutkan semua orang dengan keupayaannya untuk menyelesaikan tugas.

Ringkasan: 2019 menyaksikan pengenalan GPT-2, yang 10 kali ganda mengatasi pendahulunya dari segi saiz model (bilangan parameter) dan jumlah data teks latihan. Disebabkan kemajuan kuantitatif ini, model memperoleh bakat baharu secara kualitatif secara tidak dapat diramalkan, seperti keupayaan untuk menulis karangan panjang lebar dengan maksud yang jelas dan menyelesaikan masalah mencabar yang memerlukan asas pandangan dunia.

More: Permintaan Google Kira-kira Tujuh Kali Lebih Murah Daripada ChatGPT, Yang Berharga 2 Sen

GPT-3: Pintar seperti Neraka

Secara umum, keluaran 2020 GPT-3, generasi seterusnya dalam siri ini, sudah mempunyai 116 kali lebih banyak parameter—sehingga 175 bilion dan 700 terabait yang mengagumkan.

. GPT-3 set data latihan juga diperluaskan, walaupun tidak begitu drastik. Ia meningkat hampir 10 kali ganda kepada 420 gigabait dan kini mengandungi sejumlah besar buku, Wikiartikel pedia, dan teks lain dari laman web lain. Ia akan mengambil masa kira-kira 50 tahun manusia untuk membaca tanpa henti, menjadikannya satu pencapaian yang mustahil.

Anda melihat perbezaan yang menarik serta-merta: tidak seperti GPT-2, model itu sendiri kini 700 GB lebih besar daripada keseluruhan susunan teks untuk latihannya (420 GB). Itu ternyata, dalam erti kata lain, paradoks: dalam hal ini, kerana "neurobrain" mengkaji data mentah, ia menjana maklumat tentang pelbagai kesalingbergantungan di dalamnya yang lebih banyak secara isipadu daripada data asal.

More: ChatGPT Eksperimen: AI Lebih Suka Membunuh Berjuta-juta Orang Daripada Menghina Seseorang

Hasil daripada generalisasi model, ia kini dapat mengekstrapolasi dengan lebih berjaya daripada sebelumnya dan berjaya walaupun dalam tugas penjanaan teks yang jarang berlaku atau tidak sama sekali semasa latihan. Sekarang, anda tidak perlu mengajar model bagaimana untuk menangani masalah tertentu; sudah cukup untuk menerangkannya dan memberikan beberapa contoh, dan GPT-3 akan belajar serta-merta.

. "otak sejagat" dalam bentuk GPT-3 akhirnya mengalahkan banyak model khusus terdahulu. Sebagai contoh, GPT-3 mula menterjemah teks daripada Perancis atau Jerman dengan lebih pantas dan lebih tepat daripada mana-mana rangkaian saraf sebelumnya yang dicipta khusus untuk tujuan ini. Bagaimana? Izinkan saya mengingatkan anda bahawa kita sedang membincangkan model linguistik yang objektif tunggalnya adalah untuk cuba meramalkan perkataan berikut dalam teks tertentu.

Lebih mengejutkan lagi, GPT-3 dapat mengajar sendiri… matematik! Graf di bawah menggambarkan prestasi rangkaian saraf pada tugas termasuk penambahan dan penolakan serta pendaraban integer sehingga lima digit dengan bilangan parameter yang berbeza-beza. Seperti yang anda lihat, rangkaian saraf tiba-tiba mula "boleh" dalam matematik sambil beralih daripada model dengan 10 bilion parameter kepada yang mempunyai 100 bilion.

rangkaian saraf tiba-tiba mula "boleh" dalam matematik sambil beralih daripada model dengan 10 bilion parameter kepada yang mempunyai 100 bilion

More: Perlumbaan AI Big Tech: Google Menguji Chatbot Dikuasakan AI sebagai Respons kepada ChatGPT

Ciri yang paling menarik bagi graf yang disebutkan di atas ialah bagaimana, pada mulanya, tiada apa yang kelihatan berubah apabila saiz model bertambah (dari kiri ke kanan), tetapi tiba-tiba, p kali! Peralihan kualitatif berlaku, dan GPT-3 mula "memahami" cara menyelesaikan isu tertentu. Tiada siapa yang pasti tentang bagaimana, apa, atau mengapa ia berfungsi. Namun, ia nampaknya berkesan dalam pelbagai kesukaran lain dan juga dalam matematik.

Ciri yang paling menarik bagi graf yang disebutkan di atas ialah apabila saiz model bertambah, mula-mula, tiada apa yang kelihatan berubah, dan kemudian, GPT-3 membuat lonjakan kualitatif dan mula "memahami" cara menyelesaikan isu tertentu.

Gif di bawah hanya menunjukkan bagaimana kebolehan baharu yang tiada siapa yang sengaja merancang "bertunas" dalam model apabila bilangan parameter bertambah:

yang 2020 GPT-3 adalah 100 kali lebih besar daripada pendahulunya, manakala data teks latihan adalah 10 kali lebih besar

Ringkasan: Dari segi parameter, 2020 GPT-3 adalah 100 kali lebih besar daripada pendahulunya, manakala data teks latihan adalah 10 kali lebih besar. Sekali lagi, model itu belajar menterjemah daripada bahasa lain, melakukan aritmetik, melaksanakan pengaturcaraan mudah, menaakul secara berurutan, dan banyak lagi hasil daripada pengembangan dalam kuantiti yang meningkatkan kualiti secara mendadak.

More: ChatGPT Mempunyai Masalah dengan Donald Trump

GPT-3.5 (ArahanGPT): Model dilatih supaya selamat dan tidak toksik

Sebenarnya, model bahasa yang dikembangkan tidak menjamin bahawa ia akan bertindak balas terhadap pertanyaan seperti yang dikehendaki oleh pengguna. Malah, apabila kami membuat permintaan, kami sering berniat untuk beberapa istilah yang tidak dinyatakan yang, dalam komunikasi manusia, diandaikan sebagai benar.

Namun, sejujurnya, model bahasa tidak begitu dekat dengan model orang. Oleh itu, mereka sering perlu memikirkan konsep yang kelihatan mudah kepada orang ramai. Satu cadangan sedemikian ialah frasa, "mari kita fikirkan langkah demi langkah." Ia akan menjadi hebat jika model memahami atau menghasilkan arahan yang lebih khusus dan berkaitan daripada permintaan dan mengikutinya dengan lebih tepat seolah-olah menjangkakan bagaimana seseorang itu akan berkelakuan.

Hakikat bahawa GPT-3 dilatih untuk hanya menjangka perkataan seterusnya dalam koleksi besar teks dari Internet, banyak perkara yang berbeza ditulis, menyumbang kepada kekurangan kebolehan "lalai" sedemikian. Orang ramai mahukan kecerdasan buatan memberikan maklumat yang berkaitan, sambil memastikan respons selamat dan tidak toksik.

Apabila penyelidik memikirkan isu ini, menjadi jelas bahawa sifat model "ketepatan dan kegunaan" dan "tidak berbahaya dan tidak toksik" kadangkala kelihatan bertentangan antara satu sama lain. Lagipun, model yang ditala untuk tidak berbahaya maksimum akan bertindak balas kepada sebarang gesaan dengan "Maaf, saya bimbang jawapan saya mungkin menyinggung perasaan seseorang di Internet." Model yang tepat harus menjawab permintaan dengan jujur, "Baiklah, Siri, cara mencipta bom."

More: Seorang Lelaki Menulis Tesisnya Dalam Satu Hari Menggunakan Sahaja ChatGPT

Oleh itu, para penyelidik terhad kepada hanya menyediakan model dengan banyak maklum balas. Dalam erti kata lain, beginilah cara kanak-kanak belajar moral: Mereka bereksperimen pada zaman kanak-kanak, dan pada masa yang sama, mereka mengkaji dengan teliti reaksi orang dewasa untuk menilai sama ada mereka berkelakuan dengan betul.

ArahkanGPT, juga dikenali sebagai GPT-3.5, pada asasnya GPT-3 yang mendapat banyak maklum balas untuk meningkatkan balasannya. Secara harfiah, beberapa individu telah dikumpulkan di satu tempat, menilai balasan rangkaian saraf untuk menentukan sejauh mana mereka memadankan jangkaan mereka berdasarkan permintaan yang mereka buat.

Ternyata begitu GPT-3 sudah mempunyai semua pengetahuan penting: Ia boleh memahami banyak bahasa, mengingat kejadian sejarah, mengenali variasi dalam gaya pengarang, dan sebagainya, tetapi ia hanya boleh belajar menggunakan pengetahuan ini dengan betul (dari sudut pandangan kami) dengan input daripada individu lain. GPT-3.5 boleh dianggap sebagai model "berpendidikan masyarakat".

Ringkasan: Fungsi utama GPT-3.5, yang diperkenalkan pada awal 2022, merupakan latihan semula tambahan berdasarkan input daripada individu. Ternyata model ini sebenarnya tidak menjadi lebih besar dan lebih bijak, sebaliknya, ia telah menguasai keupayaan untuk menyesuaikan responsnya untuk memberi orang ketawa paling liar.

More: Trafik StackOverflow menjunam kerana ChatGPT melancarkan

ChatGPT: Lonjakan Gembar-gembur Beramai-ramai

Kira-kira 10 bulan selepas Arahan pendahulunyaGPT/GGPT-3.5, ChatGPT telah diperkenalkan. Serta-merta, ia menyebabkan gembar-gembur global.

Dari sudut pandangan teknologi, nampaknya tidak terdapat sebarang perbezaan yang ketara antara ChatGPT dan ArahkanGPT. Model ini dilatih dengan data dialog tambahan kerana "tugas pembantu AI" memerlukan format dialog yang unik, contohnya, keupayaan untuk bertanya soalan yang menjelaskan jika permintaan pengguna tidak jelas.

Jadi, mengapa tidak ada gembar-gembur di sekeliling GPT-3.5 pada awal tahun 2022 manakala ChatGPT terperangkap seperti api? Sam Altman, Pengarah Eksekutif OpenAI, secara terbuka mengakui bahawa penyelidik yang kami tangkap secara mengejut oleh ChatGPTkejayaan segera. Lagipun, model dengan kebolehan yang setanding dengannya telah tidak aktif di laman web mereka selama lebih daripada sepuluh bulan pada ketika itu, dan tiada siapa yang bersedia untuk melakukan tugas itu.

ChatGPT: Lonjakan Gembar-gembur Beramai-ramai

More: ChatGPT lulus peperiksaan Wharton MBA

Ia luar biasa, tetapi nampaknya antara muka mesra pengguna baharu adalah kunci kejayaannya. Arahan yang samaGPT hanya boleh diakses melalui antara muka API yang unik, mengehadkan akses orang ramai kepada model tersebut. ChatGPT, sebaliknya, menggunakan antara muka "tetingkap dialog" yang terkenal untuk messenger. Juga, sejak ChatGPT tersedia untuk semua orang sekaligus, sekumpulan individu tergesa-gesa untuk berinteraksi dengan rangkaian saraf, menyaringnya dan menyiarkannya di media sosial, menggembar-gemburkan orang lain.

ChatGPT, sebaliknya, menggunakan antara muka "tetingkap dialog" yang terkenal untuk messenger

More: Sistem pendidikan Amerika amat memerlukan 300k guru — tetapi ChatGPT boleh jadi jawapannya

Selain daripada teknologi yang hebat, perkara lain telah dilakukan dengan betul oleh OpenAI: Pemasaran. Walaupun anda mempunyai model terbaik atau chatbot yang paling pintar, jika ia tidak mempunyai antara muka yang mudah digunakan, tiada siapa yang akan berminat dengannya. Dalam hal ini, ChatGPT mencapai kejayaan dengan memperkenalkan teknologi kepada orang awam menggunakan kotak dialog biasa, di mana robot yang membantu "mencetak" penyelesaian di hadapan mata kita, perkataan demi perkataan.

Tidak mengejutkan, ChatGPT mencecah semua rekod sebelum ini untuk menarik pengguna baharu, melepasi pencapaian 1 juta pengguna dalam masa lima hari sahaja pelancarannya dan melepasi 100 juta pengguna dalam masa dua bulan sahaja.

ChatGPT mencecah semua rekod sebelumnya untuk menarik pengguna baharu, melepasi pencapaian 1 juta pengguna dalam masa lima hari sahaja pelancarannya dan melepasi 100 juta pengguna dalam masa dua bulan sahaja

Sudah tentu, di mana terdapat lonjakan yang memecahkan rekod dalam pengguna, terdapat wang yang sangat besar. Orang Cina segera mengumumkan pelepasan mereka sendiri yang akan datang chatbot, Microsoft dengan cepat membuat perjanjian dengan OpenAI untuk melabur berpuluh bilion dolar ke dalamnya, dan jurutera Google membunyikan penggera dan mula merangka rancangan untuk melindungi perkhidmatan carian mereka daripada persaingan dengan rangkaian saraf.

More: ChatGPT memecahkan rekod pertumbuhan penonton dengan lebih 100+ juta pada bulan Januari

Ringkasan: Apabila ChatGPT model diperkenalkan pada November 2022, tidak terdapat sebarang kemajuan teknologi yang ketara. Walau bagaimanapun, ia mempunyai antara muka yang mudah untuk penglibatan pengguna dan akses terbuka, yang serta-merta mencetuskan lonjakan gembar-gembur yang besar. Memandangkan ini adalah isu paling penting dalam dunia moden, semua orang mula menangani model bahasa dengan segera.

Baca lebih lanjut mengenai AI:

Tags:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.

lebih banyak artikel

Damir Yalalov