09 Maret, 2023

Evolusi Chatbots dari T9-Era dan GPT-1 untuk ChatGPT

Diterbitkan: 09 Maret 2023 pukul 4 Diperbarui: 00 Maret 09 pukul 2023

Baru-baru ini, kami telah dibombardir hampir setiap hari dengan postingan berita tentang rekor terbaru yang dipecahkan oleh jaringan saraf skala besar dan mengapa hampir tidak ada pekerjaan yang aman. Namun demikian, sangat sedikit orang yang menyadari seperti apa jaringan saraf ChatGPT benar-benar beroperasi.

Jadi, santai. Jangan meratapi prospek pekerjaan Anda dulu. Dalam posting ini, kami akan menjelaskan semua yang perlu diketahui tentang jaringan saraf dengan cara yang dapat dipahami semua orang.

Evolusi Chatbots dari T9-Era dan GPT-1 untuk ChatGPT dan Bart

Peringatan sebelum kita mulai: Karya ini adalah sebuah kolaborasi. Seluruh bagian teknis ditulis oleh spesialis AI yang terkenal di kalangan AI.

Karena belum ada yang menulis secara mendalam tentang caranya ChatGPT karya yang akan menjelaskan, dalam istilah awam, seluk beluk jaringan saraf, kami memutuskan untuk melakukan ini untuk Anda. Kami telah mencoba membuat posting ini sesederhana mungkin sehingga pembaca dapat membaca posting ini dengan pemahaman umum tentang prinsip-prinsip jaringan saraf bahasa. Kami akan mengeksplorasi caranya model bahasa bekerja di sana, bagaimana jaringan saraf berevolusi untuk memiliki kemampuan mereka saat ini, dan mengapa ChatGPTpopularitas eksplosif bahkan mengejutkan penciptanya.

Mari kita mulai dengan dasar-dasarnya. Untuk mengerti ChatGPT dari sudut pandang teknis, pertama-tama kita harus memahami apa yang bukan. Ini bukan Jarvis Marvel Comics; itu bukan makhluk rasional; itu bukan jin. Bersiaplah untuk terkejut: ChatGPT sebenarnya T9 ponsel Anda menggunakan steroid! Ya, benar: Para ilmuwan menyebut kedua teknologi ini sebagai "model bahasa." Yang dilakukan semua jaringan saraf hanyalah menebak kata apa yang akan muncul selanjutnya.

Teknologi T9 asli hanya mempercepat panggilan telepon dengan menekan tombol dengan menebak input saat ini daripada kata berikutnya. Namun, teknologi semakin maju, dan pada era ponsel cerdas di awal tahun 2010-an, ia dapat mempertimbangkan konteks dan kata sebelumnya, menambahkan tanda baca, dan menawarkan pilihan kata yang dapat dilanjutkan. Itulah analogi yang kami buat dengan versi "canggih" dari T9 atau koreksi otomatis.

Hasilnya, baik T9 pada keyboard smartphone maupun ChatGPT telah dilatih untuk menyelesaikan tugas yang sangat sederhana: memprediksi kata berikutnya. Ini dikenal sebagai "pemodelan bahasa", dan ini terjadi ketika keputusan dibuat tentang apa yang harus ditulis selanjutnya berdasarkan teks yang ada. Model bahasa harus beroperasi pada probabilitas kemunculan kata-kata tertentu untuk membuat prediksi tersebut. Lagi pula, Anda akan kesal jika pengisian otomatis ponsel Anda hanya melontarkan kata-kata acak dengan probabilitas yang sama.

Untuk lebih jelasnya, bayangkan Anda menerima pesan dari seorang teman. Bunyinya: "Apa rencanamu untuk malam ini?" Sebagai tanggapan, Anda mulai mengetik: "Saya akan...", dan di sinilah peran T9. Ini mungkin muncul dengan hal-hal yang sama sekali tidak masuk akal seperti "Saya akan pergi ke bulan", tidak diperlukan model bahasa yang rumit. Model pelengkapan otomatis smartphone yang bagus menyarankan kata-kata yang jauh lebih relevan.

Jadi, bagaimana T9 mengetahui kata-kata apa yang cenderung mengikuti teks yang sudah diketik dan apa yang jelas tidak masuk akal? Untuk menjawab pertanyaan ini, pertama-tama kita harus mengkaji prinsip dasar operasi yang paling sederhana jaringan saraf.

Daftar Isi

Bagaimana model AI memprediksi kata berikutnya
Mengapa kita terus berusaha menemukan kata-kata yang 'tepat' untuk suatu teks?
GPT-1: Meledakkan industri
GPT-2: Usia model bahasa besar
GPT-3: Cerdas sekali
GPT-3.5 (InstruksikanGPT): Model dilatih agar aman dan tidak beracun
ChatGPT: Lonjakan Hype Besar-besaran

Lebih lanjut: ChatGPT API Kini Tersedia, Membuka Pintu Air untuk Pengembang

Bagaimana model AI memprediksi kata berikutnya

Mari kita mulai dengan pertanyaan yang lebih sederhana: Bagaimana Anda memperkirakan saling ketergantungan beberapa hal pada yang lain? Asumsikan kita ingin mengajarkan komputer untuk memprediksi berat badan seseorang berdasarkan tinggi badan mereka — bagaimana kita melakukannya? Pertama-tama kita harus mengidentifikasi bidang minat dan kemudian mengumpulkan data yang akan digunakan untuk mencari dependensi minat dan kemudian mencoba untuk "melatih" beberapa model matematika untuk mencari pola dalam data ini.

Sederhananya, T9 atau ChatGPT hanyalah persamaan yang dipilih dengan cerdik yang berusaha untuk meramalkan sebuah kata (Y) berdasarkan kumpulan kata sebelumnya (X) dimasukkan ke dalam input model. Saat pelatihan a model bahasa pada kumpulan data, tugas utamanya adalah memilih koefisien untuk x ini yang benar-benar mencerminkan semacam ketergantungan (seperti dalam contoh kita dengan tinggi dan berat badan). Dan dengan model besar, kami akan mendapatkan pemahaman yang lebih baik tentang model dengan banyak parameter. Dalam bidang kecerdasan buatan, mereka disebut sebagai model bahasa besar, atau disingkat LLM. Seperti yang akan kita lihat nanti, model besar dengan banyak parameter sangat penting untuk menghasilkan teks yang bagus.

Omong-omong, jika Anda bertanya-tanya mengapa kita terus-menerus berbicara tentang "memprediksi satu kata berikutnya". ChatGPT cepat merespons dengan seluruh paragraf teks, jawabannya sederhana. Tentu saja, model bahasa dapat menghasilkan teks panjang tanpa kesulitan, tetapi keseluruhan prosesnya adalah kata demi kata. Setelah setiap kata baru dihasilkan, model hanya menjalankan ulang semua teks dengan kata baru untuk menghasilkan kata berikutnya. Proses ini berulang-ulang sampai Anda mendapatkan seluruh respons.

Lebih lanjut: ChatGPT Dapat Menyebabkan Kemerosotan Manusia yang Tidak Dapat Dipulihkan

Mengapa kita terus berusaha menemukan kata-kata yang 'tepat' untuk suatu teks?

Model bahasa mencoba untuk memprediksi kemungkinan kata-kata berbeda yang dapat muncul dalam teks tertentu. Mengapa ini perlu, dan mengapa Anda tidak terus saja mencari kata yang “paling benar”? Mari kita coba permainan sederhana untuk mengilustrasikan bagaimana proses ini bekerja.

Aturannya adalah sebagai berikut: Saya mengusulkan agar Anda melanjutkan kalimat: "Presiden ke-44 Amerika Serikat (dan orang Afrika-Amerika pertama dalam posisi ini) adalah Barak ...". Kata apa yang harus pergi selanjutnya? Apa kemungkinan itu akan terjadi?

Mengapa kita terus berusaha menemukan kata-kata yang 'tepat' untuk suatu teks?

Jika Anda memperkirakan dengan kepastian 100% bahwa kata berikutnya adalah "Obama", Anda salah! Dan intinya di sini bukanlah bahwa ada Barak mistis lainnya; itu jauh lebih sepele. Dokumen resmi biasanya menggunakan nama lengkap presiden. Ini berarti apa yang mengikuti nama depan Obama akan menjadi nama tengahnya, Hussein. Jadi, dalam kalimat kita, model bahasa yang terlatih dengan baik harus memprediksi bahwa "Obama" akan menjadi kata berikutnya hanya dengan probabilitas bersyarat 90% dan mengalokasikan 10% sisanya jika teks dilanjutkan dengan "Hussein" (setelah itu Obama akan ikuti dengan probabilitas mendekati 100%).

Dan sekarang kita sampai pada aspek model bahasa yang menarik: Mereka tidak kebal terhadap coretan kreatif! Nyatanya, saat menghasilkan setiap kata berikutnya, model seperti itu memilihnya secara "acak", seolah-olah melempar dadu. Probabilitas kata-kata yang berbeda "jatuh" kurang lebih sesuai dengan probabilitas yang disarankan oleh persamaan yang dimasukkan ke dalam model. Ini berasal dari sejumlah besar teks berbeda yang diberikan model.

Ternyata seorang model bisa menanggapi permintaan yang sama secara berbeda, seperti halnya orang yang hidup. Para peneliti umumnya berusaha memaksa neuron untuk selalu memilih kata berikutnya yang "paling mungkin", tetapi meskipun ini tampak rasional di permukaan, model seperti itu bekerja lebih buruk dalam kenyataan. Tampaknya dosis keacakan yang adil menguntungkan karena meningkatkan variabilitas dan kualitas jawaban.

Para peneliti umumnya berusaha memaksa neuron untuk selalu memilih kata berikutnya yang "paling mungkin", tetapi meskipun ini tampak rasional di permukaan, model seperti itu bekerja lebih buruk dalam kenyataan.

Lebih lanjut: ChatGPT Belajar Mengontrol Drone dan Robot saat Merenungkan AI Generasi Selanjutnya

Bahasa kami memiliki struktur yang unik dengan seperangkat aturan dan pengecualian yang berbeda. Ada sajak dan alasan untuk kata-kata apa yang muncul dalam sebuah kalimat, kata-kata itu tidak muncul begitu saja. Setiap orang secara tidak sadar mempelajari aturan bahasa yang mereka gunakan selama tahun-tahun awal pembentukannya.

Model yang layak harus mempertimbangkan jangkauan deskriptif bahasa yang luas. Modelnya kemampuan untuk menghasilkan hasil yang diinginkan tergantung pada seberapa tepatnya menghitung probabilitas kata berdasarkan seluk-beluk konteks (bagian teks sebelumnya menjelaskan keadaan).

Kemampuan model untuk menghasilkan hasil yang diinginkan bergantung pada seberapa tepatnya ia menghitung probabilitas kata-kata berdasarkan seluk-beluk konteks (bagian teks sebelumnya menjelaskan keadaan).

Rangkuman: Model bahasa sederhana, yang merupakan sekumpulan persamaan yang dilatih pada sejumlah besar data untuk memprediksi kata berikutnya berdasarkan teks sumber input, telah diimplementasikan dalam fungsionalitas ponsel cerdas “T9/IsiOtomatis” sejak awal 2010-an.

Lebih lanjut: Cina Melarang Perusahaan Menggunakan ChatGPT Setelah Skandal "Berita Sejati".

GPT-1: Meledakkan industri

Mari beralih dari model T9. Meskipun Anda mungkin membaca bagian ini untuk belajar tentang ChatGPT, pertama kita perlu membahas awal mulanya GPT keluarga teladan.

GPT singkatan dari "transformator terlatih generatif", sedangkan arsitektur jaringan saraf yang dikembangkan oleh para insinyur Google pada tahun 2017 dikenal sebagai Transformer. Transformer adalah mekanisme komputasi universal yang menerima satu set urutan (data) sebagai input dan menghasilkan set urutan yang sama tetapi dalam bentuk yang berbeda yang telah diubah oleh beberapa algoritma.

Signifikansi kreasi Transformer dapat dilihat dari seberapa agresifnya diadopsi dan diterapkan di semua bidang kecerdasan buatan (AI): terjemahan, gambar, suara, dan pemrosesan video. Sektor kecerdasan buatan (AI) mengalami perombakan yang kuat, bergerak dari apa yang disebut "stagnasi AI" ke perkembangan pesat dan mengatasi stagnasi.

Lebih lanjut: GPT-4-Berbasis ChatGPT Mengungguli GPT-3 dengan Faktor 570

Kekuatan utama Transformer terdiri dari modul-modul yang mudah diskalakan. Ketika diminta untuk memproses sejumlah besar teks sekaligus, model bahasa pra-transformator yang lama akan melambat. Jaringan saraf transformator, di sisi lain, menangani tugas ini jauh lebih baik.

Dulu, input data harus diproses secara berurutan atau satu per satu. Model tidak akan menyimpan data: Jika bekerja dengan narasi satu halaman, ia akan melupakan teks setelah membacanya. Sementara itu, Transformer memungkinkan seseorang untuk melihat semuanya sekaligus, memproduksi hasil yang jauh lebih menakjubkan.

Inilah yang memungkinkan terobosan dalam pemrosesan teks oleh jaringan saraf. Hasilnya, model tidak lagi lupa: ia menggunakan kembali materi yang ditulis sebelumnya, memahami konteks dengan lebih baik, dan, yang terpenting, mampu membuat koneksi antara volume data yang sangat besar dengan memasangkan kata-kata bersama.

Ringkasan: GPT-1, yang memulai debutnya pada tahun 2018, menunjukkan bahwa jaringan saraf dapat menghasilkan teks menggunakan desain Transformer, yang telah meningkatkan skalabilitas dan efisiensi secara signifikan. Jika kuantitas dan kompleksitas model bahasa dapat ditingkatkan, hal ini akan menghasilkan cadangan yang cukup besar.

Lebih lanjut: 6 Masalah dan Tantangan AI ChatBot: ChatGPT, Penyair, Claude

GPT-2: Usia model bahasa besar

Model bahasa tidak perlu diberi tag khusus sebelumnya dan dapat "diberi makan" dengan data tekstual apa pun, menjadikannya sangat fleksibel. Jika Anda memikirkannya, tampaknya masuk akal jika kami ingin menggunakan kemampuannya. Teks apa pun yang pernah ditulis berfungsi sebagai data pelatihan siap pakai. Karena sudah ada begitu banyak urutan seperti "banyak kata dan frasa => kata berikutnya setelahnya", hal ini tidak mengherankan.

Lebih lanjut: ChatGPTElter Ego Jahat Dibangkitkan di Reddit

Sekarang mari kita ingat juga bahwa teknologi Transformers sedang diuji GPT-1 terbukti cukup berhasil dalam hal penskalaan: Ini jauh lebih efektif dibandingkan pendahulunya dalam menangani data dalam jumlah besar. Ternyata peneliti dari OpenAI sampai pada kesimpulan yang sama pada tahun 2019: “Saatnya memangkas model bahasa yang mahal!”

Grafik set data pelatihan dan modelnya ukuran, khususnya, dipilih sebagai dua bidang penting di mana GPT-2 perlu ditingkatkan secara drastis.

Karena tidak ada kumpulan data teks publik yang besar dan berkualitas tinggi pada saat itu yang dirancang khusus untuk melatih model bahasa, setiap tim pakar AI harus memanipulasi datanya sendiri. Itu OpenAI orang-orang kemudian membuat keputusan untuk membuka Reddit, forum berbahasa Inggris paling populer, dan mengekstrak semua hyperlink dari setiap kiriman yang memiliki lebih dari tiga suka. Ada hampir 8 juta tautan ini, dan teks yang diunduh memiliki berat total 40 terabyte.

Lebih lanjut: Microsoft untuk Mengkomersialkan ChatGPT karena Berusaha Membantu Perusahaan Lain

Berapa banyak parameter yang menggambarkan persamaan terbesar GPT-2 model pada tahun 2019 punya? Mungkin seratus ribu atau beberapa juta? Baiklah, mari kita melangkah lebih jauh lagi: Rumusnya berisi hingga 1.5 miliar parameter tersebut. Dibutuhkan 6 terabyte untuk menulis angka sebanyak itu ke dalam sebuah file dan menyimpannya di komputer Anda. Model tidak harus menghafal teks ini secara keseluruhan, jadi di satu sisi, jumlah ini jauh lebih kecil dibandingkan jumlah total susunan data teks yang digunakan untuk melatih model; cukup dengan menemukan beberapa ketergantungan (pola, aturan) yang dapat diisolasi dari teks yang ditulis oleh orang.

Semakin baik model memperkirakan probabilitas dan semakin banyak parameter yang dikandungnya, semakin kompleks persamaan yang dimasukkan ke dalam model. Ini menghasilkan teks yang kredibel. Selain itu, GPT-2 model mulai berkinerja sangat baik sehingga OpenAI peneliti bahkan enggan mengungkapkan model tersebut secara terbuka karena alasan keamanan.

Sangat menarik bahwa ketika model menjadi lebih besar, tiba-tiba model tersebut mulai memiliki kualitas baru (seperti kemampuan untuk menulis esai yang kohesif dan bermakna alih-alih hanya mendiktekan kata berikutnya di telepon).

Perubahan dari kuantitas ke kualitas terjadi pada titik ini. Selain itu, itu terjadi sepenuhnya nonlinier. Misalnya, peningkatan tiga kali lipat dalam jumlah parameter dari 115 menjadi 350 juta tidak berdampak nyata pada kemampuan model untuk memecahkan masalah secara akurat. Namun, peningkatan dua kali lipat menjadi 700 juta menghasilkan lompatan kualitatif, di mana jaringan saraf "melihat cahaya" dan mulai mengejutkan semua orang dengan kemampuannya menyelesaikan tugas.

Ringkasan: Pada tahun 2019 diperkenalkan GPT-2, yang 10 kali lebih unggul dari pendahulunya dalam hal ukuran model (jumlah parameter) dan volume data teks pelatihan. Karena kemajuan kuantitatif ini, model tersebut secara tidak terduga memperoleh bakat-bakat baru yang secara kualitatif, seperti kemampuan untuk melakukan sesuatu menulis esai yang panjang dengan makna yang jelas dan memecahkan masalah menantang yang membutuhkan dasar pandangan dunia.

Lebih lanjut: Permintaan Google Sekitar Tujuh Kali Lebih Murah Dari ChatGPT, Yang Harganya 2 Sen

GPT-3: Cerdas sekali

Secara umum, rilis tahun 2020 GPT-3, generasi berikutnya dalam seri ini, sudah memiliki parameter 116 kali lebih banyak—hingga 175 miliar dan 700 terabyte.

Grafik GPT-3 kumpulan data pelatihan juga diperluas, meskipun tidak terlalu drastis. Ini meningkat hampir 10 kali lipat menjadi 420 gigabyte dan sekarang berisi sejumlah besar buku, Wikiartikel pedia, dan teks lain dari situs web lain. Dibutuhkan sekitar 50 tahun bagi manusia untuk membaca tanpa henti, menjadikannya hal yang mustahil.

Anda langsung melihat perbedaan yang menarik: tidak seperti GPT-2, modelnya sendiri kini berukuran 700 GB lebih besar dari seluruh rangkaian teks untuk pelatihannya (420 GB). Hal ini ternyata merupakan sebuah paradoks: dalam hal ini, ketika “neurobrain” mempelajari data mentah, ia menghasilkan informasi tentang berbagai saling ketergantungan di dalamnya yang jumlahnya lebih banyak daripada data aslinya.

Lebih lanjut: ChatGPT Eksperimen: AI Lebih Baik Membunuh Jutaan Orang Daripada Menghina Seseorang

Sebagai hasil dari generalisasi model, model ini kini mampu melakukan ekstrapolasi dengan lebih sukses dibandingkan sebelumnya dan berhasil bahkan dalam tugas pembuatan teks yang jarang atau tidak terjadi sama sekali selama pelatihan. Sekarang, Anda tidak perlu mengajari model tersebut cara mengatasi masalah tertentu; cukup menjelaskannya dan memberikan beberapa contoh, dan GPT-3 akan langsung belajar.

Grafik “otak universal” dalam bentuk GPT-3 akhirnya mengalahkan banyak model khusus sebelumnya. Contohnya, GPT-3 mulai menerjemahkan teks dari bahasa Prancis atau Jerman lebih cepat dan akurat dibandingkan jaringan saraf sebelumnya yang dibuat khusus untuk tujuan ini. Bagaimana? Izinkan saya mengingatkan Anda bahwa kita sedang mendiskusikan model linguistik yang tujuan utamanya adalah mencoba memprediksi kata berikut dalam teks tertentu.

Yang lebih mencengangkan lagi, GPT-3 mampu belajar sendiri… matematika! Grafik di bawah mengilustrasikan seberapa baik kinerja jaringan saraf pada tugas-tugas termasuk penjumlahan dan pengurangan serta perkalian bilangan bulat hingga lima digit dengan jumlah parameter yang bervariasi. Seperti yang Anda lihat, jaringan saraf tiba-tiba mulai “mampu” dalam matematika saat beralih dari model dengan 10 miliar parameter ke model dengan 100 miliar.

jaringan saraf tiba-tiba mulai "mampu" dalam matematika saat beralih dari model dengan 10 miliar parameter menjadi 100 miliar

Lebih lanjut: Perlombaan AI Teknologi Besar: Google Menguji Chatbot Bertenaga AI sebagai Tanggapan terhadap ChatGPT

Fitur yang paling menarik dari grafik di atas adalah bagaimana, pada awalnya, tidak ada yang tampak berubah seiring bertambahnya ukuran model (dari kiri ke kanan), namun tiba-tiba, p kali! Terjadi pergeseran kualitatif, dan GPT-3 mulai “memahami” cara menyelesaikan masalah tertentu. Tidak ada yang tahu pasti bagaimana, apa, atau mengapa fungsinya. Namun, tampaknya hal ini berhasil dalam berbagai kesulitan lain dan juga dalam matematika.

Fitur yang paling menarik dari grafik di atas adalah ketika ukuran model bertambah, pertama-tama, tidak ada yang berubah, lalu, GPT-3 membuat lompatan kualitatif dan mulai “memahami” cara menyelesaikan masalah tertentu.

Gif di bawah ini hanya menunjukkan bagaimana kemampuan baru yang tidak direncanakan oleh siapa pun untuk "tumbuh" dalam model seiring bertambahnya jumlah parameter:

yang 2020 GPT-3 100 kali lebih besar dari pendahulunya, sedangkan data teks pelatihan 10 kali lebih besar

Ringkasan: Dari segi parameter, tahun 2020 GPT-3 100 kali lebih besar dari pendahulunya, sedangkan data teks pelatihan 10 kali lebih besar. Sekali lagi, model tersebut belajar menerjemahkan dari bahasa lain, melakukan aritmatika, melakukan pemrograman sederhana, bernalar secara berurutan, dan banyak lagi sebagai akibat dari perluasan kuantitas yang secara tiba-tiba meningkatkan kualitas.

Lebih lanjut: ChatGPT Memiliki Masalah dengan Donald Trump

GPT-3.5 (MenginstruksikanGPT): Model dilatih agar aman dan tidak beracun

Pada kenyataannya, memperluas model bahasa tidak menjamin bahwa itu akan bereaksi terhadap pertanyaan seperti yang diinginkan pengguna. Faktanya, ketika kita mengajukan permintaan, kita sering bermaksud sejumlah istilah tak terucapkan yang, dalam komunikasi manusia, dianggap benar.

Namun, sejujurnya, model bahasa tidak terlalu mirip dengan orang. Oleh karena itu, mereka seringkali perlu memikirkan konsep yang tampak sederhana bagi orang lain. Salah satu saran tersebut adalah ungkapan, "mari berpikir selangkah demi selangkah." Akan luar biasa jika model memahami atau menghasilkan instruksi yang lebih spesifik dan relevan dari permintaan dan mengikutinya dengan lebih tepat seolah-olah mengantisipasi bagaimana seseorang akan berperilaku.

Kenyataan bahwa GPT-3 dilatih untuk hanya mengantisipasi kata berikutnya dalam kumpulan besar teks dari Internet, banyak hal berbeda yang ditulis, berkontribusi pada kurangnya kemampuan “standar” tersebut. Orang-orang menginginkan kecerdasan buatan untuk memberikan informasi yang relevan, sekaligus menjaga respons yang aman dan tidak beracun.

Ketika para peneliti mempertimbangkan masalah ini, menjadi jelas bahwa atribut model "akurasi dan kegunaan" dan "ketidakberbahayaan dan non-toksisitas" terkadang tampak bertentangan satu sama lain. Lagi pula, model yang disetel untuk tidak membahayakan secara maksimal akan bereaksi terhadap pertanyaan apa pun dengan "Maaf, saya khawatir jawaban saya mungkin menyinggung seseorang di Internet." Model yang tepat harus secara terbuka menanggapi permintaan, "Baiklah, Siri, cara membuat bom."

Lebih lanjut: Seorang Pria Menulis Skripsinya Dalam Satu Hari Menggunakan Saja ChatGPT

Oleh karena itu, para peneliti hanya sebatas menyediakan model dengan banyak umpan balik. Dalam arti tertentu, inilah tepatnya bagaimana anak-anak belajar moralitas: Mereka bereksperimen di masa kanak-kanak, dan pada saat yang sama, mereka dengan cermat mempelajari reaksi orang dewasa untuk menilai apakah mereka berperilaku benar.

MenginstruksikanGPT, juga dikenal sebagai GPT-3,5, pada dasarnya adalah GPT-3 yang mendapat banyak umpan balik untuk menyempurnakan balasannya. Secara harfiah, sejumlah individu dikumpulkan di satu tempat, menilai balasan jaringan saraf untuk menentukan seberapa sesuai harapan mereka sehubungan dengan permintaan yang mereka buat.

Ternyata GPT-3 sudah memiliki semua pengetahuan penting: Ia dapat memahami banyak bahasa, mengingat kejadian-kejadian sejarah, mengenali variasi gaya penulisan, dan sebagainya, namun ia hanya dapat belajar menggunakan pengetahuan ini dengan benar (dari sudut pandang kami) dengan masukan dari individu lain. GPT-3.5 dapat dianggap sebagai model yang “dididik oleh masyarakat”.

Ringkasan: Fungsi utama dari GPT-3.5, yang diperkenalkan pada awal tahun 2022, merupakan pelatihan ulang tambahan berdasarkan masukan dari individu. Ternyata model ini belum menjadi lebih besar dan lebih bijaksana, namun justru menguasai kemampuan untuk menyesuaikan tanggapannya agar dapat membuat orang tertawa terbahak-bahak.

Lebih lanjut: Lalu lintas StackOverflow merosot saat ChatGPT meluncurkan

ChatGPT: Lonjakan Hype Besar-besaran

Sekitar 10 bulan setelah pendahulunya InstructGPT/GGPT-3.5, ChatGPT diperkenalkan. Segera, itu menyebabkan hype global.

Dari sudut pandang teknologi, tampaknya tidak ada perbedaan yang signifikan antara keduanya ChatGPT dan InstruksikanGPT. Model ini dilatih dengan data dialog tambahan karena “pekerjaan asisten AI” memerlukan format dialog yang unik, misalnya, kemampuan untuk mengajukan pertanyaan klarifikasi jika permintaan pengguna tidak jelas.

Jadi, mengapa tidak ada hype di sekitarnya GPT-3,5 pada awal tahun 2022 sedangkan ChatGPT tertangkap seperti api? sam altman, Direktur Eksekutif PT OpenAI, secara terbuka mengakui bahwa para peneliti kami terkejut ChatGPTkesuksesan instan. Lagi pula, model dengan kemampuan yang sebanding dengan itu telah terbengkalai di situs web mereka selama lebih dari sepuluh bulan pada saat itu, dan tidak ada yang mengerjakan tugas itu.

Lebih lanjut: ChatGPT lulus ujian Wharton MBA

Ini luar biasa, tetapi tampaknya antarmuka baru yang ramah pengguna adalah kunci keberhasilannya. Instruksi yang samaGPT hanya dapat diakses melalui antarmuka API unik, sehingga membatasi akses orang ke model. ChatGPT, di sisi lain, menggunakan antarmuka messenger "jendela dialog" yang terkenal. Juga, sejak ChatGPT tersedia untuk semua orang sekaligus, serbuan individu bergegas untuk berinteraksi dengan jaringan saraf, menyaringnya, dan mempostingnya di media sosial, menghipnotis orang lain.

ChatGPT, di sisi lain, menggunakan antarmuka messenger "jendela dialog" yang terkenal

Lebih lanjut: Sistem pendidikan Amerika sangat membutuhkan 300 ribu guru — tetapi ChatGPT bisa jadi jawabannya

Selain teknologi hebat, hal lain dilakukan dengan benar OpenAI: pemasaran. Bahkan jika Anda memiliki model terbaik atau chatbot paling cerdas, jika tidak memiliki antarmuka yang mudah digunakan, tidak akan ada yang tertarik. Dalam kasus ini, ChatGPT mencapai terobosan dengan memperkenalkan teknologi kepada masyarakat umum menggunakan kotak dialog biasa, di mana robot yang membantu “mencetak” solusi tepat di depan mata kita, kata demi kata.

Tidak mengherankan, ChatGPT mencapai semua rekor sebelumnya untuk menarik pengguna baru, melampaui tonggak sejarah 1 juta pengguna hanya dalam lima hari peluncurannya dan melampaui 100 juta pengguna hanya dalam dua bulan.

ChatGPT mencapai semua rekor sebelumnya untuk menarik pengguna baru, melampaui tonggak 1 juta pengguna hanya dalam lima hari peluncurannya dan melewati 100 juta pengguna hanya dalam dua bulan

Tentu saja, di mana ada lonjakan pengguna yang memecahkan rekor, ada uang yang luar biasa. Orang Cina segera mengumumkan pembebasan mereka yang akan datang ChatBot, Microsoft dengan cepat membuat kesepakatan OpenAI untuk menginvestasikan puluhan miliar dolar di dalamnya, dan para insinyur Google membunyikan alarm dan mulai merumuskan rencana untuk melindungi layanan pencarian mereka dari persaingan dengan jaringan saraf.

Lebih lanjut: ChatGPT memecahkan rekor pertumbuhan pemirsa dengan lebih dari 100+ juta pada bulan Januari

Ringkasan: Ketika ChatGPT model diperkenalkan pada November 2022, tidak ada kemajuan teknologi yang menonjol. Namun, itu memiliki antarmuka yang nyaman untuk keterlibatan pengguna dan akses terbuka, yang segera memicu lonjakan besar-besaran. Karena ini adalah masalah paling krusial di dunia modern, semua orang langsung mulai menangani model bahasa.

Baca lebih lanjut tentang AI:

Tags:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.

lebih artikel

Damir Yalalov