Hunyo 21, 2023

Nakatuklas ang Mga Mananaliksik ng Bagong Paraan para Makita ang Tekstong nabuo ng AI

Na-publish: Hunyo 21, 2023 sa 1:33 am Na-update: Marso 21, 2024 sa 11:43 am

Na-edit at na-fact check: Hunyo 21, 2023 nang 1:33 am

Sa madaling sabi

Ang mga mananaliksik ay nakabuo ng isang paraan para sa pag-detect ng AI-generated na text gamit ang RoBERTa model, na kumukuha ng mga embeddings ng mga text token at nakikita ang mga ito bilang mga punto sa isang multidimensional na espasyo.

Natuklasan nila ang tekstong iyon na binuo ni GPT-3.5 mga modelo, tulad ng ChatGPT at Davinci, ay may makabuluhang mas mababang average na sukat kaysa sa tekstong isinulat ng tao.

Ang mga mananaliksik ay lumikha ng isang matatag na detektor na nakabatay sa dimensyon na lumalaban sa mga karaniwang pamamaraan ng pag-iwas.

Nanatiling mataas ang katumpakan ng detector kapag binago ang mga domain at modelo, na may nakapirming threshold at 40% na pagbaba ng katumpakan kapag hinamon ng pamamaraang DIPPER.

Sinisiyasat ng mga mananaliksik ang larangan ng tekstong binuo ng AI at bumuo ng isang paraan para sa pag-detect ng content na nabuo ng AI mga modelo tulad ng GPT at Llama. Nakatuklas sila ng mga interesanteng insight tungkol sa likas na katangian ng nabuong teksto sa pamamagitan ng paggamit ng konsepto ng fractional na dimensyon. Ang kanilang mga natuklasan ay nagbigay-liwanag sa mga likas na pagkakaiba sa pagitan ng tekstong isinulat ng mga tao at tekstong nabuo ng mga modelo ng AI.

Nakatuklas ang Mga Mananaliksik ng Bagong Paraan para Makita ang Tekstong nabuo ng AI — Pinasasalamatan: Metaverse Post (mpost.io)

Basahin: Nangungunang 100+ Mga Salita na Nakikita ng AI Detector

Maaari bang magbigay ng kapaki-pakinabang na impormasyon tungkol sa pinagmulan nito ang dimensyon ng isang point cloud na nagmula sa natural na text ng wika? Ginamit ng mga mananaliksik ang modelong RoBERTa upang kunin ang mga pag-embed ng mga token ng teksto at ilarawan ang mga ito bilang mga punto sa isang multidimensional na espasyo upang siyasatin ito. Tinantya nila ang fractional na dimensyon ng mga point cloud na ito gamit ang mga sopistikadong pamamaraan na inspirasyon ng mga naunang gawa.

Ang mga mananaliksik ay namangha nang matuklasan ang tekstong iyon na nabuo ni GPT-3.5 mga modelo, tulad ng ChatGPT at Davinci, ay may makabuluhang mas mababang average na sukat kaysa sa tekstong isinulat ng tao. Ang nakakaintriga na pattern na ito ay nagpatuloy sa mga domain at kahit na ang mga alternatibong modelo tulad ng GPT-2 o OPT ang ginamit. Kapansin-pansin, kahit na ginagamit ang DIPPER paraphrase, na partikular na idinisenyo upang maiwasan ang pagtuklas, ang dimensyon ay nagbago lamang ng humigit-kumulang 3%. Ang mga pagtuklas na ito ay nagbigay-daan sa mga mananaliksik na lumikha ng isang matatag na detektor na nakabatay sa dimensyon na lumalaban sa mga karaniwang pamamaraan ng pag-iwas.

Kapansin-pansin, nanatiling mataas ang katumpakan ng detector kapag binago ang mga domain at modelo. Sa isang nakapirming threshold, ang katumpakan ng pagtuklas (true positive rate) ay nanatiling higit sa 75% habang ang false positive rate (FPR) ay nanatiling mas mababa sa 1%. Kahit na hinamon ang detection system gamit ang DIPPER technique, ang katumpakan ay bumaba sa 40%, na higit sa mga kasalukuyang detector, kabilang ang mga binuo ng OpenAI.

Higit pa rito, sinaliksik ng mga mananaliksik ang aplikasyon ng mga modelong multilinggwal tulad ng RoBERTa sa maraming wika. Nagbigay-daan ito sa kanila na bumuo ng mga katulad na detector para sa mga wika maliban sa Ingles. Bagama't ang average na panloob na dimensyon ng mga pag-embed ay nag-iiba-iba sa iba't ibang wika, ang dimensyon ng mga nabuong teksto ay nanatiling mas mababa kaysa sa tekstong isinulat ng tao para sa bawat partikular na wika.

Gayunpaman, ang detector ay nagpakita ng ilang mga kahinaan, lalo na kapag nahaharap sa mataas na henerasyon na temperatura at primitive mga modelo ng generator. Sa mas mataas na temperatura, ang panloob na dimensyon ng mga nabuong teksto ay maaaring lumampas sa tekstong isinulat ng tao, na ginagawang hindi epektibo ang detector. Sa kabutihang palad, ang mga naturang modelo ng generator ay nakikita na gamit ang mga alternatibong pamamaraan. Bukod pa rito, kinilala ng mga mananaliksik na may puwang para sa paggalugad ng mga alternatibong modelo para sa pagkuha ng mga pag-embed ng teksto sa kabila ng RoBERTa.

Pagkakaiba sa Pagitan ng Teksto ng Tao at AI-Written

Noong Enero, OpenAI anunsyado ang paglulunsad ng bagong classifier na idinisenyo upang makilala ang pagitan ng text na isinulat ng mga tao at ng text na binuo ng AI system. Nilalayon ng classifier na ito na tugunan ang mga hamon na dulot ng pagtaas ng pagkalat ng nilalamang binuo ng AI, gaya ng mga kampanya ng maling impormasyon at kawalan ng katapatan sa akademiko.

Bagama't isang kumplikadong gawain ang pag-detect ng lahat ng text na nakasulat sa AI, nagsisilbing mahalagang tool ang classifier na ito upang mabawasan ang mga maling pag-aangkin ng pagiging may-akda ng tao sa tekstong binuo ng AI. Sa pamamagitan ng mahigpit na pagsusuri sa isang hanay ng mga English na teksto, nalaman ng mga developer na tumpak na kinikilala ng classifier na iyon ang 26% ng AI-written text bilang "malamang na AI-written" (true positives), habang paminsan-minsan ay binibigyang label ang teksto ng human-written bilang AI-generated (false). positibo) ng 9%. Mahalagang tandaan na ang pagiging maaasahan ng classifier ay bumubuti habang ang haba ng input text ay tumataas. Kung ikukumpara sa mga nakaraang classifier, ang bagong bersyon na ito ay nagpapakita ng mas mataas na pagiging maaasahan sa text na nabuo ng mas kamakailang mga AI system.

Upang makakuha ng mahalagang feedback sa pagiging kapaki-pakinabang ng mga hindi perpektong tool tulad ng classifier na ito, ginawa ito ng mga developer pampublikong magagamit. Maaari mong subukan ang aming work-in-progress classifier nang libre. Gayunpaman, mahalagang maunawaan ang mga limitasyon nito. Dapat gamitin ang classifier bilang pandagdag na tool, sa halip na isang pangunahing mapagkukunan sa paggawa ng desisyon, para sa pagtukoy sa pinagmulan ng isang text. Nagpapakita ito ng mataas na hindi mapagkakatiwalaan sa mga maiikling teksto, at may mga pagkakataon kung saan ang tekstong isinulat ng tao ay maaaring maling label bilang AI-generated.

Kapansin-pansin na ang mga tekstong lubos na nahuhulaang ay hindi maaaring palaging matukoy, gaya ng isang listahan ng unang 1,000 prime number. Ang pag-edit ng text na binuo ng AI ay maaari ding makatulong na maiwasan ang classifier, at habang maaari naming i-update at muling sanayin ang classifier batay sa matagumpay na pag-atake, ang pangmatagalang bentahe ng detection ay nananatiling hindi sigurado. Higit pa rito, ang mga classifier batay sa neural network ay kadalasang hindi maganda ang pagkaka-calibrate sa labas ng kanilang data ng pagsasanay, na humahantong sa matinding kumpiyansa sa mga maling hula para sa mga input na makabuluhang naiiba sa set ng pagsasanay.

Tags:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.

Mas marami pang artikulo

Damir Yalalov

Hot Stories

Opisyal na Naglilipat ang Lisk Sa Ethereum Layer 2 At Inilabas ang Core v4.0.6

by Alisa Davidson

Mayo 08, 2024

Bagong Meme Coins ng Mayo 2024: 7 Pinili para sa Crypto Fans

by Viktoriia Palchik

Mayo 08, 2024

Isinasama ng Synternet ang Peaq sa Layer ng Data Nito Para Mapagana ang Mga DApp na Hinihimok ng Kaganapan Gamit ang Real-Time na Data ng DePIN

by Alisa Davidson

Mayo 08, 2024

Ang Napakalaking Crypto Mining Operations ng Iran ay Nagdulot ng Direktang Banta sa Pambansang Seguridad ng US, Hinihimok ng mga Senador ang Agarang Aksyon ng Pamahalaan

by Viktoriia Palchik

Mayo 08, 2024

Pinakabagong Balita

Opisyal na Naglilipat ang Lisk Sa Ethereum Layer 2 At Inilabas ang Core v4.0.6

by Alisa Davidson

Mayo 08, 2024

Bagong Meme Coins ng Mayo 2024: 7 Pinili para sa Crypto Fans

by Viktoriia Palchik

Mayo 08, 2024

Isinasama ng Synternet ang Peaq sa Layer ng Data Nito Para Mapagana ang Mga DApp na Hinihimok ng Kaganapan Gamit ang Real-Time na Data ng DePIN

by Alisa Davidson

Mayo 08, 2024

Pinasimulan ng Zeta Markets ang Komunidad Airdrop, Naglalaan ng 1% Ng Z Token Supply Sa Solana Communities

by Alisa Davidson

Mayo 08, 2024

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa