Novinová správa Technológia
Júna 21, 2023

Výskumníci objavujú nový spôsob detekcie textu generovaného AI

Stručne

Výskumníci vyvinuli metódu na detekciu textu generovaného AI pomocou modelu RoBERTa, ktorý extrahuje vložené textové tokeny a vizualizuje ich ako body vo viacrozmernom priestore.

Zistili, že text vygenerovaný GPT-3.5 modely, ako napr ChatGPT a Davinci, mal výrazne nižšie priemerné rozmery ako text písaný človekom.

Výskumníci vytvorili robustný rozmerovo založený detektor, ktorý bol odolný voči bežným únikovým technikám.

Presnosť detektora zostala konzistentne vysoká, keď sa zmenili domény a modely, s pevným prahom a 40% poklesom presnosti, keď sa vyvolala technika DIPPER.

Výskumníci skúmali oblasť textu generovaného AI vyvinula metódu na zisťovanie obsahu generovaného AI modely ako napr GPT a Llama. Využitím konceptu zlomkovej dimenzie objavili zaujímavé poznatky o povahe generovaného textu. Ich zistenia vrhajú svetlo na základné rozdiely medzi textom napísaným ľuďmi a textom generovaným modelmi AI.

Výskumníci objavujú nový spôsob detekcie textu generovaného AI
kredit: Metaverse Post (mpost.io)
Prečítajte si: Top 100+ slov detekovateľných pomocou AI detektorov

Môže rozmer mračna bodov odvodený z textu v prirodzenom jazyku poskytnúť užitočné informácie o jeho pôvode? Výskumníci použili model RoBERTa na extrahovanie vložení textových tokenov a ich vizualizáciu ako body vo viacrozmernom priestore, aby to preskúmali. Pomocou sofistikovaných techník inšpirovaných predchádzajúcimi prácami odhadli zlomkový rozmer týchto mračien bodov.

Výskumníci boli ohromení, keď zistili, že text vygeneroval GPT-3.5 modely, ako napr ChatGPT a Davinci, mal výrazne nižšie priemerné rozmery ako text písaný človekom. Tento zaujímavý vzor pretrvával naprieč doménami a dokonca aj vtedy, keď alternatívne modely, ako napr GPT-2 alebo OPT. Je pozoruhodné, že aj pri použití parafrázy DIPPER, ktorá je špeciálne navrhnutá tak, aby sa vyhla detekcii, sa rozmer zmenil iba o 3 %. Tieto objavy umožnili výskumníkom vytvoriť robustný detektor založený na rozmeroch, ktorý je odolný voči bežným únikovým technikám.

Pozoruhodné je, že presnosť detektora zostala konzistentne vysoká, keď sa zmenili domény a modely. Pri pevne stanovenom prahu zostala presnosť detekcie (skutočná pozitívna miera) nad 75 %, zatiaľ čo miera falošnej pozitivity (FPR) zostala nižšia ako 1 %. Aj keď bol detekčný systém napadnutý technikou DIPPER, presnosť klesla na 40 %, čím prekonala existujúce detektory, vrátane tých, ktoré vyvinula OpenAI.

Okrem toho výskumníci skúmali aplikáciu viacjazyčných modelov, ako je viacjazyčný RoBERTa. To im umožnilo vyvinúť podobné detektory pre iné jazyky ako angličtinu. Zatiaľ čo priemerná vnútorná dimenzia vloženia sa v rôznych jazykoch líšila, dimenzia generovaných textov zostala v každom konkrétnom jazyku stále nižšia ako dimenzia textu napísaného človekom.

Detektor však vykazoval určité nedostatky, najmä keď čelil vysokým generačným teplotám a primitívnym modely generátorov. Pri vyšších teplotách by vnútorný rozmer generovaných textov mohol prevýšiť rozmer človeka písaného textu, čím by bol detektor neúčinný. Našťastie, takéto modely generátorov sú už zistiteľné pomocou alternatívnych metód. Okrem toho výskumníci uznali, že existuje priestor na skúmanie alternatívnych modelov na extrahovanie vložení textu mimo RoBERTa.

Rozlišovanie medzi textom napísaným človekom a AI

V januári, OpenAI oznámila, spustenie nového klasifikátora určeného na rozlíšenie medzi textom napísaným ľuďmi a textom generovaným systémami AI. Cieľom tohto klasifikátora je riešiť problémy, ktoré predstavuje rastúca prevalencia obsahu generovaného AI, ako sú dezinformačné kampane a akademická nečestnosť.

Zatiaľ čo detekcia celého textu napísaného AI je zložitá úloha, tento klasifikátor slúži ako cenný nástroj na zmiernenie nepravdivých tvrdení ľudské autorstvo v texte generovanom AI. Prostredníctvom prísnych hodnotení na súbore anglických textov vývojári zistili, že tento klasifikátor presne identifikuje 26 % textu napísaného AI ako „pravdepodobne napísaný AI“ (skutočné pozitíva), pričom občas nesprávne označí text napísaný človekom ako vygenerovaný AI (nepravdivé pozitívne) o 9 %. Je dôležité poznamenať, že spoľahlivosť klasifikátora sa zvyšuje so zvyšujúcou sa dĺžkou vstupného textu. V porovnaní s predchádzajúcimi klasifikátormi táto nová verzia demonštruje výrazne vyššiu spoľahlivosť textu generovaného novšími systémami AI.

Vývojári to urobili, aby získali cennú spätnú väzbu o užitočnosti nedokonalých nástrojov, ako je tento klasifikátor verejne dostupné. Náš nedokončený klasifikátor si môžete vyskúšať zadarmo. Je však dôležité pochopiť jeho obmedzenia. Klasifikátor by sa mal na určenie zdroja textu používať skôr ako doplnkový nástroj než ako primárny zdroj rozhodovania. Pri krátkych textoch vykazuje vysokú nespoľahlivosť a existujú prípady, kedy môže byť text napísaný človekom nesprávne označený ako vygenerovaný AI.

Stojí za zmienku, že vysoko predvídateľné texty nemožno dôsledne identifikovať, ako napríklad zoznam prvých 1,000 XNUMX prvočísel. Úprava textu vygenerovaného AI môže tiež pomôcť vyhnúť sa klasifikátoru a hoci klasifikátor môžeme aktualizovať a preškoliť na základe úspešných útokov, dlhodobá výhoda detekcie zostáva neistá. Ďalej klasifikátory založené na neurálne siete sú často zle kalibrované mimo svojich tréningových údajov, čo vedie k extrémnej dôvere v nesprávne predpovede pre vstupy výrazne odlišné od tréningovej sady.

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Hot Stories
Pridajte sa k nášmu newsletteru.
Novinky

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Orbiter Finance spolupracuje so sieťou Bitcoin Layer 2 Zulu a nasadzuje na Is Lwazi Testnet
firmy Novinová správa Technológia
Orbiter Finance spolupracuje so sieťou Bitcoin Layer 2 Zulu a nasadzuje na Is Lwazi Testnet 
Môže 7, 2024
Crypto Exchange Bybit integruje USDe spoločnosti Ethena Labs ako kolaterál, umožňuje obchodné páry BTC-USDe a ETH-USDe
trhy Novinová správa Technológia
Crypto Exchange Bybit integruje USDe spoločnosti Ethena Labs ako kolaterál, umožňuje obchodné páry BTC-USDe a ETH-USDe
Môže 7, 2024
Bitget Wallet predstavuje GetDrop Airdrop Platforma a spúšťa prvé podujatie s meme mincami s cenovým fondom 130,000 XNUMX dolárov
trhy Novinová správa Technológia
Bitget Wallet predstavuje GetDrop Airdrop Platforma a spúšťa prvé podujatie s meme mincami s cenovým fondom 130,000 XNUMX dolárov
Môže 7, 2024
Od jednoduchého reflexu k učiacim sa agentom: Pozrite si rôzne typy agentov AI a ich úlohy v moderných aplikáciách
Životný štýl Softvér Príbehy a recenzie Technológia
Od jednoduchého reflexu k učiacim sa agentom: Pozrite si rôzne typy agentov AI a ich úlohy v moderných aplikáciách
Môže 7, 2024
CRYPTOMERIA LABS PTE. LTD.