Buletin de stiri Tehnologia
21 Iunie, 2023

Cercetătorii descoperă o nouă modalitate de a detecta textul generat de AI

Pe scurt

Cercetătorii au dezvoltat o metodă de detectare a textului generat de inteligență artificială folosind modelul Roberta, care extrage înglobările de jetoane de text și le vizualizează ca puncte într-un spațiu multidimensional.

Au descoperit acel text generat de GPT-3.5 modele, cum ar fi ChatGPT și Davinci, au avut dimensiuni medii semnificativ mai mici decât textul scris de om.

Cercetătorii au creat un detector robust bazat pe dimensiuni, care a fost rezistent la tehnicile comune de evaziune.

Precizia detectorului a rămas constant ridicată atunci când domeniile și modelele au fost schimbate, cu un prag fix și o scădere a preciziei de 40% atunci când a fost provocat cu tehnica DIPPER.

Cercetătorii au investigat domeniul textului generat de AI și a dezvoltat o metodă de detectare a conținutului generat de AI modele precum GPT și Llama. Ei au descoperit perspective interesante despre natura textului generat utilizând conceptul de dimensiune fracțională. Descoperirile lor pun în lumină diferențele inerente dintre textul scris de oameni și textul generat de modelele AI.

Cercetătorii descoperă o nouă modalitate de a detecta textul generat de AI
Credit: Metaverse Post (mpost.io)
Citi: Top 100+ cuvinte detectabile de detectoare AI

Poate dimensiunea unui nor de puncte derivat din textul în limbaj natural să ofere informații utile despre originea acestuia? Cercetătorii au folosit modelul Roberta pentru a extrage înglobări de jetoane de text și pentru a le vizualiza ca puncte într-un spațiu multidimensional pentru a investiga acest lucru. Ei au estimat dimensiunea fracțională a acestor nori de puncte folosind tehnici sofisticate inspirate din lucrările anterioare.

Cercetătorii au fost uimiți să descopere acel text generat de GPT-3.5 modele, cum ar fi ChatGPT și Davinci, au avut dimensiuni medii semnificativ mai mici decât textul scris de om. Acest model intrigant a persistat în toate domeniile și chiar și atunci când modele alternative, cum ar fi GPT-2 sau OPT au fost folosite. În special, chiar și atunci când se utilizează parafraza DIPPER, care este special concepută pentru a evita detectarea, dimensiunea s-a schimbat doar cu aproximativ 3%. Aceste descoperiri le-au permis cercetătorilor să creeze un detector robust bazat pe dimensiuni, care este rezistent la tehnicile comune de evaziune.

În special, precizia detectorului a rămas constant ridicată atunci când domeniile și modelele au fost schimbate. Cu un prag fix, acuratețea detectării (rata adevărată pozitivă) a rămas peste 75%, în timp ce rata fals pozitivă (FPR) a rămas mai mică de 1%. Chiar și atunci când sistemul de detectare a fost contestat cu tehnica DIPPER, precizia a scăzut la 40%, depășind detectoarele existente, inclusiv cele dezvoltate de OpenAI.

În plus, cercetătorii au explorat aplicarea unor modele multilingve precum Roberta multilingvă. Acest lucru le-a permis să dezvolte detectoare similare pentru alte limbi decât engleza. În timp ce dimensiunea internă medie a înglobărilor a variat în diferite limbi, dimensiunea textelor generate a rămas constant mai mică decât cea a textului scris de om pentru fiecare limbă specifică.

Cu toate acestea, detectorul a prezentat unele slăbiciuni, în special atunci când se confruntă cu temperaturi de generație ridicate și primitive modele de generatoare. La temperaturi mai ridicate, dimensiunea internă a textelor generate ar putea depăși pe cea a textului scris de om, făcând detectorul ineficient. Din fericire, astfel de modele de generatoare sunt deja detectabile folosind metode alternative. În plus, cercetătorii au recunoscut că există loc pentru explorarea modelelor alternative pentru extragerea înglobărilor de text dincolo de RoBERTa.

Diferențierea între textul uman și textul scris prin inteligență artificială

În ianuarie, OpenAI a anunțat lansarea unui nou clasificator conceput pentru a face distincția între textul scris de oameni și textul generat de sistemele AI. Acest clasificator își propune să abordeze provocările generate de prevalența tot mai mare a conținutului generat de inteligență artificială, cum ar fi campaniile de dezinformare și neonestitatea academică.

Deși detectarea întregului text scris prin IA este o sarcină complexă, acest clasificator servește ca un instrument valoros pentru a atenua afirmațiile false ale autorul uman în textul generat de AI. Prin evaluări riguroase asupra unui set de texte în limba engleză, dezvoltatorii au descoperit că acel clasificator identifică cu acuratețe 26% din textul scris prin IA ca fiind „probabil scris prin IA” (adevărate pozitive), în timp ce ocazional etichetează greșit textul scris de oameni ca fiind generat de AI (fals). pozitive) cu 9%. Este important de reținut că fiabilitatea clasificatorului se îmbunătățește pe măsură ce lungimea textului introdus crește. În comparație cu clasificatoarele anterioare, această nouă versiune demonstrează o fiabilitate semnificativ mai mare pe textul generat de sistemele AI mai recente.

Pentru a aduna feedback valoros cu privire la utilitatea instrumentelor imperfecte precum acest clasificator, dezvoltatorii l-au creat public. Puteți încerca gratuit clasificatorul nostru de lucru în curs. Cu toate acestea, este esențial să înțelegem limitările sale. Clasificatorul ar trebui să fie folosit ca un instrument suplimentar, mai degrabă decât o resursă primară de luare a deciziilor, pentru a determina sursa unui text. Prezintă o lipsă de încredere ridicată pe textele scurte și există cazuri în care textul scris de oameni poate fi etichetat incorect ca fiind generat de AI.

Este de remarcat faptul că textele foarte previzibile nu pot fi identificate în mod consecvent, cum ar fi o listă a primelor 1,000 de numere prime. Editarea textului generat de AI poate ajuta, de asemenea, la evitarea clasificatorului și, în timp ce putem actualiza și reinstrui clasificatorul pe baza atacurilor de succes, avantajul pe termen lung al detectării rămâne incert. În plus, clasificatoare bazate pe rețele neuronale sunt adesea prost calibrate în afara datelor lor de antrenament, ceea ce duce la o încredere extremă în predicțiile incorecte pentru intrări semnificativ diferite de setul de antrenament.

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Apetitul instituțional crește față de ETF-urile Bitcoin pe fondul volatilității

Dezvăluirile prin dosarele 13F dezvăluie investitori instituționali de seamă care se amestecă în ETF-uri Bitcoin, subliniind o acceptare tot mai mare a...

Aflați mai multe

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Lisk trece oficial la Ethereum Layer 2 și dezvăluie Core v4.0.6
Buletin de stiri Tehnologia
Lisk trece oficial la Ethereum Layer 2 și dezvăluie Core v4.0.6
8 Mai, 2024
Noi monede meme din mai 2024: 7 alegeri pentru fanii criptografiei
rezumat pieţe Tehnologia
Noi monede meme din mai 2024: 7 alegeri pentru fanii criptografiei
8 Mai, 2024
Synternet integrează Peaq în stratul său de date pentru a alimenta DApp-uri bazate pe evenimente cu date DePIN în timp real
Afaceri Buletin de stiri Tehnologia
Synternet integrează Peaq în stratul său de date pentru a alimenta DApp-uri bazate pe evenimente cu date DePIN în timp real
8 Mai, 2024
Operațiunile masive de exploatare criptografică ale Iranului reprezintă o amenințare directă la adresa securității naționale a SUA, senatorii îndeamnă la acțiunea imediată a guvernului
pieţe Povești și recenzii Tehnologia
Operațiunile masive de exploatare criptografică ale Iranului reprezintă o amenințare directă la adresa securității naționale a SUA, senatorii îndeamnă la acțiunea imediată a guvernului
8 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.