Jun 21, 2023

Penyelidik Temui Cara Baharu untuk Mengesan Teks yang dijana AI

Diterbitkan: 21 Jun 2023 pada 1:33 pagi Dikemas kini: 21 Mac 2024 pada 11:43 pagi

Disunting dan disemak fakta: 21 Jun 2023 jam 1:33 pagi

Secara ringkas

Penyelidik telah membangunkan kaedah untuk mengesan teks yang dijana AI menggunakan model RoBERTa, yang mengekstrak pembenaman token teks dan menggambarkannya sebagai titik dalam ruang berbilang dimensi.

Mereka menemui teks yang dijana oleh GPT-3.5 model, seperti ChatGPT dan Davinci, mempunyai dimensi purata yang jauh lebih rendah daripada teks tulisan manusia.

Para penyelidik mencipta pengesan berasaskan dimensi yang teguh yang tahan terhadap teknik pengelakan biasa.

Ketepatan pengesan kekal tinggi secara konsisten apabila domain dan model ditukar, dengan ambang tetap dan penurunan ketepatan 40% apabila dicabar dengan teknik DIPPER.

Penyelidik telah menyiasat bidang teks yang dijana AI dan membangunkan kaedah untuk mengesan kandungan yang dihasilkan oleh AI model seperti GPT and Llama. Mereka menemui cerapan menarik tentang sifat teks yang dijana dengan menggunakan konsep dimensi pecahan. Penemuan mereka menjelaskan perbezaan yang wujud antara teks yang ditulis oleh manusia dan teks yang dihasilkan oleh model AI.

Penyelidik Temui Cara Baharu untuk Mengesan Teks yang dijana AI — Kredit: Metaverse Post (mpost.io)

Baca: 100+ Perkataan Teratas Boleh Dikesan oleh Pengesan AI

Bolehkah dimensi awan titik yang diperoleh daripada teks bahasa semula jadi memberikan maklumat berguna tentang asal usulnya? Para penyelidik menggunakan model RoBERTa untuk mengekstrak pembenaman token teks dan menggambarkannya sebagai titik dalam ruang berbilang dimensi untuk menyiasat perkara ini. Mereka menganggarkan dimensi pecahan awan titik ini menggunakan teknik canggih yang diilhamkan oleh karya terdahulu.

Para penyelidik terkejut apabila mendapati teks yang dihasilkan oleh GPT-3.5 model, seperti ChatGPT dan Davinci, mempunyai dimensi purata yang jauh lebih rendah daripada teks tulisan manusia. Corak yang menarik ini berterusan merentas domain dan walaupun model alternatif seperti GPT-2 atau OPT telah digunakan. Terutama, walaupun semasa menggunakan parafrasa DIPPER, yang direka khusus untuk mengelakkan pengesanan, dimensi hanya berubah sebanyak kira-kira 3%. Penemuan ini membolehkan para penyelidik mencipta pengesan berasaskan dimensi yang teguh yang tahan terhadap teknik pengelakan biasa.

Terutama, ketepatan pengesan kekal tinggi secara konsisten apabila domain dan model ditukar. Dengan ambang tetap, ketepatan pengesanan (kadar positif sebenar) kekal melebihi 75% manakala kadar positif palsu (FPR) kekal kurang daripada 1%. Walaupun sistem pengesanan dicabar dengan teknik DIPPER, ketepatan menurun kepada 40%, mengatasi prestasi pengesan sedia ada, termasuk yang dibangunkan oleh OpenAI.

Tambahan pula, para penyelidik meneroka aplikasi model berbilang bahasa seperti RoBERTa berbilang bahasa. Ini membolehkan mereka membangunkan pengesan serupa untuk bahasa selain bahasa Inggeris. Walaupun purata dimensi dalaman pembenaman berbeza-beza merentas bahasa yang berbeza, dimensi teks yang dijana kekal secara konsisten lebih rendah daripada teks tulisan manusia untuk setiap bahasa tertentu.

Walau bagaimanapun, pengesan menunjukkan beberapa kelemahan, terutamanya apabila menghadapi suhu penjanaan tinggi dan primitif model penjana. Pada suhu yang lebih tinggi, dimensi dalaman teks yang dijana boleh mengatasi teks tulisan manusia, menyebabkan pengesan tidak berkesan. Nasib baik, model penjana seperti itu sudah dapat dikesan menggunakan kaedah alternatif. Selain itu, para penyelidik mengakui bahawa terdapat ruang untuk meneroka model alternatif untuk mengekstrak pembenaman teks di luar RoBERTa.

Membezakan Antara Teks Bertulis Manusia dan AI

Pada bulan Januari, OpenAI mengumumkan pelancaran pengelas baharu yang direka untuk membezakan antara teks yang ditulis oleh manusia dan teks yang dihasilkan oleh sistem AI. Pengelas ini bertujuan untuk menangani cabaran yang ditimbulkan oleh peningkatan kelaziman kandungan yang dijana AI, seperti kempen maklumat salah dan ketidakjujuran akademik.

Walaupun mengesan semua teks bertulis AI adalah tugas yang kompleks, pengelas ini berfungsi sebagai alat yang berharga untuk mengurangkan tuntutan palsu kepengarangan manusia dalam teks yang dihasilkan AI. Melalui penilaian yang rapi pada set teks bahasa Inggeris, pembangun mendapati bahawa pengelas itu mengenal pasti dengan tepat 26% teks bertulis AI sebagai "kemungkinan ditulis AI" (positif benar), sementara kadangkala salah melabel teks tulisan manusia sebagai jana AI (palsu). positif) sebanyak 9%. Adalah penting untuk ambil perhatian bahawa kebolehpercayaan pengelas bertambah baik apabila panjang teks input bertambah. Berbanding dengan pengelas sebelumnya, versi baharu ini menunjukkan kebolehpercayaan yang jauh lebih tinggi pada teks yang dijana oleh sistem AI yang lebih terkini.

Untuk mengumpulkan maklum balas berharga tentang kegunaan alat yang tidak sempurna seperti pengelas ini, pembangun telah membuatnya tersedia secara terbuka. Anda boleh mencuba pengelas kerja dalam proses kami secara percuma. Walau bagaimanapun, adalah penting untuk memahami batasannya. Pengelas harus digunakan sebagai alat tambahan, bukannya sumber utama membuat keputusan, untuk menentukan sumber teks. Ia mempamerkan ketidakpercayaan yang tinggi pada teks pendek, dan terdapat keadaan di mana teks tulisan manusia mungkin dilabel secara salah sebagai dijana AI.

Perlu diingat bahawa teks yang boleh diramal tidak dapat dikenal pasti secara konsisten, seperti senarai 1,000 nombor perdana yang pertama. Mengedit teks yang dijana AI juga boleh membantu mengelak pengelas, dan sementara kami boleh mengemas kini dan melatih semula pengelas berdasarkan serangan yang berjaya, kelebihan pengesanan jangka panjang masih tidak pasti. Tambahan pula, pengelas berdasarkan rangkaian saraf selalunya ditentukur dengan buruk di luar data latihan mereka, yang membawa kepada keyakinan yang melampau dalam ramalan yang salah untuk input yang jauh berbeza daripada set latihan.

Tags:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.

lebih banyak artikel

Damir Yalalov

Hot Stories

Orbiter Finance Bekerjasama Dengan Bitcoin Layer 2 Zulu Network Dan Digunakan Pada Is Lwazi Testnet

by Alisa Davidson

Semoga 07, 2024

Crypto Exchange Bybit Mengintegrasikan Ethena Labs' USDe Sebagai Aset Cagaran, Membolehkan Pasangan Dagangan BTC-USDe dan ETH-USDe

by Alisa Davidson

Semoga 07, 2024

Bitget Wallet Memperkenalkan GetDrop Airdrop Platform Dan Melancarkan Acara Syiling Meme Pertama Dengan Kumpulan Hadiah $130,000

by Alisa Davidson

Semoga 07, 2024

Daripada Refleks Mudah kepada Ejen Pembelajaran: Lihat Pelbagai Jenis Ejen AI dan Peranan Mereka dalam Apl Moden

by Viktoriia Palchik

Semoga 07, 2024

Berita Terkini

Orbiter Finance Bekerjasama Dengan Bitcoin Layer 2 Zulu Network Dan Digunakan Pada Is Lwazi Testnet

by Alisa Davidson

Semoga 07, 2024

Crypto Exchange Bybit Mengintegrasikan Ethena Labs' USDe Sebagai Aset Cagaran, Membolehkan Pasangan Dagangan BTC-USDe dan ETH-USDe

by Alisa Davidson

Semoga 07, 2024

Bitget Wallet Memperkenalkan GetDrop Airdrop Platform Dan Melancarkan Acara Syiling Meme Pertama Dengan Kumpulan Hadiah $130,000

by Alisa Davidson

Semoga 07, 2024

Rangkaian Meson Membolehkan Pelombong Kripto Mendapatkan Token Melalui Perlombongan. Airdrops Dan Program Beli Balik Akan Datang

by Alisa Davidson

Semoga 07, 2024

Selera Institusi Berkembang Terhadap Bitcoin ETF Di Tengah-tengah Kemeruapan

Pendedahan melalui pemfailan 13F mendedahkan pelabur institusi terkenal yang berkecimpung dalam Bitcoin ETF, menekankan penerimaan yang semakin meningkat terhadap ...

Mengetahui lebih lanjut