Laporan Berita Teknologi
Jun 21, 2023

Penyelidik Temui Cara Baharu untuk Mengesan Teks yang dijana AI

Secara ringkas

Penyelidik telah membangunkan kaedah untuk mengesan teks yang dijana AI menggunakan model RoBERTa, yang mengekstrak pembenaman token teks dan menggambarkannya sebagai titik dalam ruang berbilang dimensi.

Mereka menemui teks yang dijana oleh GPT-3.5 model, seperti ChatGPT dan Davinci, mempunyai dimensi purata yang jauh lebih rendah daripada teks tulisan manusia.

Para penyelidik mencipta pengesan berasaskan dimensi yang teguh yang tahan terhadap teknik pengelakan biasa.

Ketepatan pengesan kekal tinggi secara konsisten apabila domain dan model ditukar, dengan ambang tetap dan penurunan ketepatan 40% apabila dicabar dengan teknik DIPPER.

Penyelidik telah menyiasat bidang teks yang dijana AI dan membangunkan kaedah untuk mengesan kandungan yang dihasilkan oleh AI model seperti GPT and Llama. Mereka menemui cerapan menarik tentang sifat teks yang dijana dengan menggunakan konsep dimensi pecahan. Penemuan mereka menjelaskan perbezaan yang wujud antara teks yang ditulis oleh manusia dan teks yang dihasilkan oleh model AI.

Penyelidik Temui Cara Baharu untuk Mengesan Teks yang dijana AI
Kredit: Metaverse Post (mpost.io)
Baca: 100+ Perkataan Teratas Boleh Dikesan oleh Pengesan AI

Bolehkah dimensi awan titik yang diperoleh daripada teks bahasa semula jadi memberikan maklumat berguna tentang asal usulnya? Para penyelidik menggunakan model RoBERTa untuk mengekstrak pembenaman token teks dan menggambarkannya sebagai titik dalam ruang berbilang dimensi untuk menyiasat perkara ini. Mereka menganggarkan dimensi pecahan awan titik ini menggunakan teknik canggih yang diilhamkan oleh karya terdahulu.

Para penyelidik terkejut apabila mendapati teks yang dihasilkan oleh GPT-3.5 model, seperti ChatGPT dan Davinci, mempunyai dimensi purata yang jauh lebih rendah daripada teks tulisan manusia. Corak yang menarik ini berterusan merentas domain dan walaupun model alternatif seperti GPT-2 atau OPT telah digunakan. Terutama, walaupun semasa menggunakan parafrasa DIPPER, yang direka khusus untuk mengelakkan pengesanan, dimensi hanya berubah sebanyak kira-kira 3%. Penemuan ini membolehkan para penyelidik mencipta pengesan berasaskan dimensi yang teguh yang tahan terhadap teknik pengelakan biasa.

Terutama, ketepatan pengesan kekal tinggi secara konsisten apabila domain dan model ditukar. Dengan ambang tetap, ketepatan pengesanan (kadar positif sebenar) kekal melebihi 75% manakala kadar positif palsu (FPR) kekal kurang daripada 1%. Walaupun sistem pengesanan dicabar dengan teknik DIPPER, ketepatan menurun kepada 40%, mengatasi prestasi pengesan sedia ada, termasuk yang dibangunkan oleh OpenAI.

Tambahan pula, para penyelidik meneroka aplikasi model berbilang bahasa seperti RoBERTa berbilang bahasa. Ini membolehkan mereka membangunkan pengesan serupa untuk bahasa selain bahasa Inggeris. Walaupun purata dimensi dalaman pembenaman berbeza-beza merentas bahasa yang berbeza, dimensi teks yang dijana kekal secara konsisten lebih rendah daripada teks tulisan manusia untuk setiap bahasa tertentu.

Walau bagaimanapun, pengesan menunjukkan beberapa kelemahan, terutamanya apabila menghadapi suhu penjanaan tinggi dan primitif model penjana. Pada suhu yang lebih tinggi, dimensi dalaman teks yang dijana boleh mengatasi teks tulisan manusia, menyebabkan pengesan tidak berkesan. Nasib baik, model penjana seperti itu sudah dapat dikesan menggunakan kaedah alternatif. Selain itu, para penyelidik mengakui bahawa terdapat ruang untuk meneroka model alternatif untuk mengekstrak pembenaman teks di luar RoBERTa.

Membezakan Antara Teks Bertulis Manusia dan AI

Pada bulan Januari, OpenAI mengumumkan pelancaran pengelas baharu yang direka untuk membezakan antara teks yang ditulis oleh manusia dan teks yang dihasilkan oleh sistem AI. Pengelas ini bertujuan untuk menangani cabaran yang ditimbulkan oleh peningkatan kelaziman kandungan yang dijana AI, seperti kempen maklumat salah dan ketidakjujuran akademik.

Walaupun mengesan semua teks bertulis AI adalah tugas yang kompleks, pengelas ini berfungsi sebagai alat yang berharga untuk mengurangkan tuntutan palsu kepengarangan manusia dalam teks yang dihasilkan AI. Melalui penilaian yang rapi pada set teks bahasa Inggeris, pembangun mendapati bahawa pengelas itu mengenal pasti dengan tepat 26% teks bertulis AI sebagai "kemungkinan ditulis AI" (positif benar), sementara kadangkala salah melabel teks tulisan manusia sebagai jana AI (palsu). positif) sebanyak 9%. Adalah penting untuk ambil perhatian bahawa kebolehpercayaan pengelas bertambah baik apabila panjang teks input bertambah. Berbanding dengan pengelas sebelumnya, versi baharu ini menunjukkan kebolehpercayaan yang jauh lebih tinggi pada teks yang dijana oleh sistem AI yang lebih terkini.

Untuk mengumpulkan maklum balas berharga tentang kegunaan alat yang tidak sempurna seperti pengelas ini, pembangun telah membuatnya tersedia secara terbuka. Anda boleh mencuba pengelas kerja dalam proses kami secara percuma. Walau bagaimanapun, adalah penting untuk memahami batasannya. Pengelas harus digunakan sebagai alat tambahan, bukannya sumber utama membuat keputusan, untuk menentukan sumber teks. Ia mempamerkan ketidakpercayaan yang tinggi pada teks pendek, dan terdapat keadaan di mana teks tulisan manusia mungkin dilabel secara salah sebagai dijana AI.

Perlu diingat bahawa teks yang boleh diramal tidak dapat dikenal pasti secara konsisten, seperti senarai 1,000 nombor perdana yang pertama. Mengedit teks yang dijana AI juga boleh membantu mengelak pengelas, dan sementara kami boleh mengemas kini dan melatih semula pengelas berdasarkan serangan yang berjaya, kelebihan pengesanan jangka panjang masih tidak pasti. Tambahan pula, pengelas berdasarkan rangkaian saraf selalunya ditentukur dengan buruk di luar data latihan mereka, yang membawa kepada keyakinan yang melampau dalam ramalan yang salah untuk input yang jauh berbeza daripada set latihan.

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

lebih banyak artikel
Damir Yalalov
Damir Yalalov

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

Selera Institusi Berkembang Terhadap Bitcoin ETF Di Tengah-tengah Kemeruapan

Pendedahan melalui pemfailan 13F mendedahkan pelabur institusi terkenal yang berkecimpung dalam Bitcoin ETF, menekankan penerimaan yang semakin meningkat terhadap ...

Mengetahui lebih lanjut

Hari Penghukuman Tiba: Nasib CZ Bergantung Seimbang apabila Mahkamah AS Mempertimbangkan Rayuan DOJ

Changpeng Zhao bersedia untuk menghadapi hukuman di mahkamah AS di Seattle hari ini.

Mengetahui lebih lanjut
Sertai Komuniti Teknologi Inovatif Kami
Untuk Lebih Lanjut
Baca lagi
Orbiter Finance Bekerjasama Dengan Bitcoin Layer 2 Zulu Network Dan Digunakan Pada Is Lwazi Testnet
Perniagaan Laporan Berita Teknologi
Orbiter Finance Bekerjasama Dengan Bitcoin Layer 2 Zulu Network Dan Digunakan Pada Is Lwazi Testnet 
Semoga 7, 2024
Crypto Exchange Bybit Mengintegrasikan Ethena Labs' USDe Sebagai Aset Cagaran, Membolehkan Pasangan Dagangan BTC-USDe dan ETH-USDe
pasaran Laporan Berita Teknologi
Crypto Exchange Bybit Mengintegrasikan Ethena Labs' USDe Sebagai Aset Cagaran, Membolehkan Pasangan Dagangan BTC-USDe dan ETH-USDe
Semoga 7, 2024
Bitget Wallet Memperkenalkan GetDrop Airdrop Platform Dan Melancarkan Acara Syiling Meme Pertama Dengan Kumpulan Hadiah $130,000
pasaran Laporan Berita Teknologi
Bitget Wallet Memperkenalkan GetDrop Airdrop Platform Dan Melancarkan Acara Syiling Meme Pertama Dengan Kumpulan Hadiah $130,000
Semoga 7, 2024
Daripada Refleks Mudah kepada Ejen Pembelajaran: Lihat Pelbagai Jenis Ejen AI dan Peranan Mereka dalam Apl Moden
Gaya hidup perisian Cerita dan Ulasan Teknologi
Daripada Refleks Mudah kepada Ejen Pembelajaran: Lihat Pelbagai Jenis Ejen AI dan Peranan Mereka dalam Apl Moden
Semoga 7, 2024