Laporan berita Teknologi
Juni 21, 2023

Peneliti Temukan Cara Baru untuk Mendeteksi Teks yang Dihasilkan AI

Singkatnya

Para peneliti telah mengembangkan metode untuk mendeteksi teks yang dihasilkan AI menggunakan model RoBERTa, yang mengekstraksi embedding token teks dan memvisualisasikannya sebagai titik dalam ruang multidimensi.

Mereka menemukan bahwa teks dihasilkan oleh GPT-3.5 model, seperti ChatGPT dan Davinci, memiliki dimensi rata-rata yang jauh lebih rendah daripada teks tulisan manusia.

Para peneliti menciptakan detektor berbasis dimensi yang kuat yang tahan terhadap teknik penghindaran umum.

Akurasi detektor tetap tinggi secara konsisten saat domain dan model diubah, dengan ambang tetap dan penurunan akurasi 40% saat ditantang dengan teknik DIPPER.

Para peneliti telah menyelidiki bidang teks yang dihasilkan AI dan mengembangkan metode untuk mendeteksi konten yang dihasilkan oleh AI model seperti GPT dan Llama. Mereka menemukan wawasan yang menarik tentang sifat teks yang dihasilkan dengan memanfaatkan konsep dimensi pecahan. Temuan mereka menjelaskan perbedaan yang melekat antara teks yang ditulis oleh manusia dan teks yang dihasilkan oleh model AI.

Peneliti Temukan Cara Baru untuk Mendeteksi Teks yang Dihasilkan AI
kredit: Metaverse Post (mpost.io)
Baca: 100+ Kata Teratas yang Dapat Dideteksi oleh Detektor AI

Bisakah dimensi awan titik yang diturunkan dari teks bahasa alami memberikan informasi berguna tentang asalnya? Para peneliti menggunakan model RoBERTa untuk mengekstrak embedding token teks dan memvisualisasikannya sebagai titik dalam ruang multidimensi untuk menyelidikinya. Mereka memperkirakan dimensi pecahan awan titik ini menggunakan teknik canggih yang terinspirasi dari karya sebelumnya.

Para peneliti terkejut menemukan teks yang dihasilkan oleh GPT-3.5 model, seperti ChatGPT dan Davinci, memiliki dimensi rata-rata yang jauh lebih rendah dibandingkan teks tulisan manusia. Pola menarik ini tetap ada di seluruh domain dan bahkan ketika model alternatif seperti GPT-2 atau OPT digunakan. Khususnya, meskipun menggunakan parafrase DIPPER, yang dirancang khusus untuk menghindari deteksi, dimensinya hanya berubah sekitar 3%. Penemuan ini memungkinkan para peneliti untuk menciptakan detektor berbasis dimensi yang kuat dan tahan terhadap teknik penghindaran umum.

Khususnya, akurasi detektor tetap tinggi secara konsisten saat domain dan model diubah. Dengan ambang tetap, akurasi deteksi (tingkat positif sejati) tetap di atas 75% sementara tingkat positif palsu (FPR) tetap kurang dari 1%. Bahkan ketika sistem deteksi ditantang dengan teknik DIPPER, akurasinya turun hingga 40%, mengungguli detektor yang ada, termasuk yang dikembangkan oleh OpenAI.

Selanjutnya, peneliti mengeksplorasi penerapan model multibahasa seperti RoBERTa multibahasa. Ini memungkinkan mereka untuk mengembangkan pendeteksi serupa untuk bahasa selain bahasa Inggris. Sementara dimensi internal rata-rata penyematan bervariasi di berbagai bahasa, dimensi teks yang dihasilkan secara konsisten tetap lebih rendah daripada teks tulisan manusia untuk setiap bahasa tertentu.

Namun, detektor menunjukkan beberapa kelemahan, terutama saat menghadapi suhu generasi tinggi dan primitif model pembangkit. Pada suhu yang lebih tinggi, dimensi internal teks yang dihasilkan dapat melampaui teks tulisan manusia, membuat detektor tidak efektif. Untungnya, model generator seperti itu sudah dapat dideteksi menggunakan metode alternatif. Selain itu, para peneliti mengakui bahwa ada ruang untuk mengeksplorasi model alternatif untuk mengekstraksi penyematan teks di luar RoBERTa.

Membedakan Antara Teks Tulisan Manusia dan AI

Pada bulan Januari, OpenAI mengumumkan peluncuran pengklasifikasi baru yang dirancang untuk membedakan antara teks yang ditulis oleh manusia dan teks yang dihasilkan oleh sistem AI. Pengklasifikasian ini bertujuan untuk mengatasi tantangan yang ditimbulkan oleh meningkatnya prevalensi konten buatan AI, seperti kampanye misinformasi dan ketidakjujuran akademik.

Meskipun mendeteksi semua teks yang ditulis AI adalah tugas yang kompleks, pengklasifikasi ini berfungsi sebagai alat yang berharga untuk mengurangi klaim palsu kepengarangan manusia dalam teks yang dihasilkan AI. Melalui evaluasi yang cermat terhadap sekumpulan teks berbahasa Inggris, pengembang telah menemukan bahwa pengklasifikasi tersebut secara akurat mengidentifikasi 26% teks yang ditulis oleh AI sebagai “kemungkinan ditulis oleh AI” (benar-benar positif), dan terkadang salah memberi label pada teks yang ditulis oleh manusia sebagai teks yang dibuat oleh AI (salah). positif) sebesar 9%. Penting untuk diperhatikan bahwa keandalan pengklasifikasi meningkat seiring bertambahnya panjang teks masukan. Dibandingkan dengan pengklasifikasi sebelumnya, versi baru ini menunjukkan keandalan yang jauh lebih tinggi pada teks yang dihasilkan oleh sistem AI yang lebih baru.

Untuk mengumpulkan umpan balik yang berharga tentang kegunaan alat yang tidak sempurna seperti pengklasifikasi ini, pengembang telah membuatnya tersedia untuk umum. Anda dapat mencoba pengklasifikasi barang dalam proses kami secara gratis. Namun, penting untuk memahami keterbatasannya. Pengklasifikasi harus digunakan sebagai alat pelengkap, bukan sumber pengambilan keputusan utama, untuk menentukan sumber teks. Ini menunjukkan ketidakandalan yang tinggi pada teks pendek, dan ada contoh di mana teks yang ditulis manusia mungkin salah diberi label sebagai buatan AI.

Perlu dicatat bahwa teks yang sangat mudah diprediksi tidak dapat diidentifikasi secara konsisten, seperti daftar 1,000 bilangan prima pertama. Mengedit teks yang dihasilkan AI juga dapat membantu menghindari pengklasifikasi, dan meskipun kami dapat memperbarui dan melatih ulang pengklasifikasi berdasarkan serangan yang berhasil, keuntungan deteksi jangka panjang tetap tidak pasti. Selanjutnya, pengklasifikasian berdasarkan jaringan saraf seringkali dikalibrasi dengan buruk di luar data pelatihan mereka, yang mengarah ke kepercayaan ekstrim pada prediksi yang salah untuk input yang berbeda secara signifikan dari set pelatihan.

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Selera Institusional Tumbuh Terhadap ETF Bitcoin Di Tengah Volatilitas

Pengungkapan melalui pengajuan 13F mengungkapkan investor institusi terkemuka yang mencoba-coba ETF Bitcoin, menggarisbawahi semakin besarnya penerimaan ...

Tahu lebih banyak

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Orbiter Finance Bermitra Dengan Jaringan Zulu Bitcoin Layer 2 Dan Disebarkan Di Lwazi Testnet
Bisnis Laporan berita Teknologi
Orbiter Finance Bermitra Dengan Jaringan Zulu Bitcoin Layer 2 Dan Disebarkan Di Lwazi Testnet 
7 Mei 2024
Crypto Exchange Bybit Mengintegrasikan USDe Ethena Labs Sebagai Aset Jaminan, Memungkinkan Pasangan Perdagangan BTC-USDe dan ETH-USDe
pasar Laporan berita Teknologi
Crypto Exchange Bybit Mengintegrasikan USDe Ethena Labs Sebagai Aset Jaminan, Memungkinkan Pasangan Perdagangan BTC-USDe dan ETH-USDe
7 Mei 2024
Dompet Bitget Memperkenalkan GetDrop Airdrop Platform Dan Meluncurkan Acara Meme Coin Pertama Dengan Kumpulan Hadiah $130,000
pasar Laporan berita Teknologi
Dompet Bitget Memperkenalkan GetDrop Airdrop Platform Dan Meluncurkan Acara Meme Coin Pertama Dengan Kumpulan Hadiah $130,000
7 Mei 2024
Dari Refleks Sederhana hingga Agen Pembelajaran: Lihat Berbagai Jenis Agen AI dan Perannya dalam Aplikasi Modern
Gaya Hidup Perangkat lunak Cerita dan Ulasan Teknologi
Dari Refleks Sederhana hingga Agen Pembelajaran: Lihat Berbagai Jenis Agen AI dan Perannya dalam Aplikasi Modern
7 Mei 2024