Kesäkuu 21, 2023

Tutkijat löytävät uuden tavan havaita tekoälyn luomaa tekstiä

Julkaistu: 21. kesäkuuta 2023 klo 1 Päivitetty: 33. maaliskuuta 21 klo 2024

Muokattu ja faktatarkistettu: 21 klo 2023

Lyhyesti

Tutkijat ovat kehittäneet menetelmän tekoälyn tuottaman tekstin havaitsemiseen RoBERTa-mallilla, joka poimii tekstitunnisteiden upotukset ja visualisoi ne pisteinä moniulotteisessa tilassa.

He huomasivat, että teksti on luotu GPT-3.5 mallit, kuten ChatGPT ja Davincin keskimääräiset mitat olivat huomattavasti pienemmät kuin ihmisten kirjoittaman tekstin.

Tutkijat loivat vankan mittapohjaisen ilmaisimen, joka kesti yleisiä evaasiotekniikoita.

Ilmaisimen tarkkuus pysyi jatkuvasti korkeana, kun alueita ja malleja muutettiin, kiinteällä kynnysarvolla ja 40 %:n tarkkuuspudotus DIPPER-tekniikalla.

Tutkijat ovat tutkineet tekoälyn luoman tekstin ja kehitti menetelmän tekoälyn tuottaman sisällön havaitsemiseksi malleja, kuten GPT ja Llama. He löysivät mielenkiintoisia oivalluksia luodun tekstin luonteesta käyttämällä murto-osan käsitettä. Heidän havaintonsa valaisevat luontaisia eroja ihmisten kirjoittaman tekstin ja tekoälymallien luoman tekstin välillä.

Tutkijat löytävät uuden tavan havaita tekoälyn luomaa tekstiä — Pistetilanne: Metaverse Post (mpost.io)

Lue: Yli 100 parasta tekoälytunnistimen havaittavaa sanaa

Voiko luonnollisen kielen tekstistä johdettu pistepilven ulottuvuus antaa hyödyllistä tietoa sen alkuperästä? Tutkijat käyttivät RoBERTa-mallia poimimaan tekstitunnisteiden upotuksia ja visualisoimaan ne pisteinä moniulotteisessa tilassa tutkiakseen tätä. He arvioivat näiden pistepilvien murto-osan mittasuhteet käyttämällä kehittyneitä tekniikoita, jotka ovat saaneet vaikutteita aikaisemmista teoksista.

Tutkijat olivat hämmästyneitä huomatessaan, että teksti on luotu GPT-3.5 mallit, kuten ChatGPT ja Davincin keskimääräiset mitat olivat huomattavasti pienemmät kuin ihmisten kirjoittaman tekstin. Tämä kiehtova malli säilyi eri aloilla ja jopa silloin, kun vaihtoehtoisia malleja, kuten GPT-2 tai OPT:tä. On huomattava, että jopa käytettäessä DIPPER-parafraasia, joka on erityisesti suunniteltu estämään havaitseminen, mitta muuttui vain noin 3 %. Näiden löytöjen ansiosta tutkijat pystyivät luomaan vankan mittapohjaisen ilmaisimen, joka kestää yleisiä evaasiotekniikoita.

Erityisesti ilmaisimen tarkkuus pysyi jatkuvasti korkeana, kun alueita ja malleja muutettiin. Kiinteällä kynnysarvolla havaitsemistarkkuus (tosi positiivinen määrä) pysyi yli 75 prosentissa, kun taas väärien positiivisten prosenttiosuus (FPR) pysyi alle 1 prosentissa. Jopa silloin, kun havaitsemisjärjestelmä oli haastettu DIPPER-tekniikalla, tarkkuus putosi 40 prosenttiin, mikä ylitti olemassa olevat ilmaisimet, mukaan lukien OpenAI.

Lisäksi tutkijat tutkivat monikielisten mallien, kuten monikielisen RoBERTan, soveltamista. Tämä antoi heille mahdollisuuden kehittää samanlaisia ilmaisimia muille kielille kuin englanniksi. Vaikka upotusten keskimääräinen sisäinen ulottuvuus vaihteli eri kielillä, luotujen tekstien ulottuvuus pysyi jatkuvasti alhaisempana kuin ihmisen kirjoittaman tekstin kunkin kielen osalta.

Ilmaisimessa oli kuitenkin joitain heikkouksia, etenkin kun se kohtasi korkeita sukupolven lämpötiloja ja primitiivistä generaattori mallit. Korkeammissa lämpötiloissa luotujen tekstien sisäinen ulottuvuus voi ylittää ihmisen kirjoittaman tekstin, jolloin ilmaisin ei toimi. Onneksi tällaiset generaattorimallit ovat jo havaittavissa vaihtoehtoisilla menetelmillä. Lisäksi tutkijat myönsivät, että on tilaa tutkia vaihtoehtoisia malleja tekstin upottamiseen RoBERTan lisäksi.

Ihmisten ja tekoälyn kirjoittaman tekstin erottaminen toisistaan

Tammikuussa, OpenAI ilmoitti lanseerattiin uusi luokitin, joka on suunniteltu erottamaan ihmisten kirjoittama teksti ja tekoälyjärjestelmien luoma teksti. Tällä luokittelulla pyritään vastaamaan tekoälyn tuottaman sisällön kasvavan yleistymisen aiheuttamiin haasteisiin, kuten väärään tietoon ja akateemiseen epärehellisyyteen.

Vaikka kaiken tekoälyn kirjoittaman tekstin havaitseminen on monimutkainen tehtävä, tämä luokitin toimii arvokkaana työkaluna lieventämään vääriä väitteitä ihmisen kirjoittaminen tekoälyn luomassa tekstissä. Englanninkielisten tekstien tiukoissa arvioinneissa kehittäjät ovat havainneet, että tämä luokitin tunnistaa tarkasti 26 % tekoälyn kirjoittamasta tekstistä "todennäköisesti tekoälyn kirjoitetuksi" (oikeat positiiviset asiat), mutta toisinaan merkitsee ihmisen kirjoittaman tekstin väärin tekoälyn luomaksi (väärä). positiivisia) 9 %. On tärkeää huomata, että luokittelijan luotettavuus paranee syötetyn tekstin pituuden kasvaessa. Verrattuna aikaisempiin luokittelijoihin tämä uusi versio osoittaa huomattavasti paremman luotettavuuden uusimpien tekoälyjärjestelmien luomassa tekstissä.

Kehittäjät ovat tehneet sen kerätäkseen arvokasta palautetta tämän luokituksen kaltaisten epätäydellisten työkalujen hyödyllisyydestä julkisesti saatavilla. Voit kokeilla keskeneräisten töiden luokitteluamme ilmaiseksi. On kuitenkin tärkeää ymmärtää sen rajoitukset. Luokittelijaa tulisi käyttää täydentävänä työkaluna, ei ensisijaisena päätöksenteon resurssina tekstin lähteen määrittämisessä. Se on erittäin epäluotettava lyhyissä teksteissä, ja on tapauksia, joissa ihmisen kirjoittama teksti voidaan merkitä virheellisesti tekoälyn luomaksi.

On syytä huomata, että erittäin ennustettavia tekstejä ei voida tunnistaa johdonmukaisesti, kuten luetteloa ensimmäisistä 1,000 alkuluvusta. Tekoälyn luoman tekstin muokkaaminen voi myös auttaa välttämään luokittelua, ja vaikka voimme päivittää ja kouluttaa luokituksen onnistuneiden hyökkäysten perusteella, havaitsemisen hyöty pitkällä aikavälillä on epävarma. Lisäksi luokitukset perustuvat hermoverkkoihin ovat usein huonosti kalibroituja harjoitustietojensa ulkopuolella, mikä johtaa äärimmäiseen luottamukseen virheellisiin ennusteisiin syötteille, jotka eroavat merkittävästi harjoitussarjasta.

Tunnisteet:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.

lisää artikkeleita

Damir Yalalov