Notizie Tecnologia
21 Giugno 2023

I ricercatori scoprono un nuovo modo per rilevare il testo generato dall'intelligenza artificiale

In Breve

I ricercatori hanno sviluppato un metodo per rilevare il testo generato dall'intelligenza artificiale utilizzando il modello RoBERTa, che estrae incorporamenti di token di testo e li visualizza come punti in uno spazio multidimensionale.

Hanno scoperto quel testo generato da GPT-3.5 modelli, come ChatGPT e Davinci, avevano dimensioni medie significativamente inferiori rispetto al testo scritto dall'uomo.

I ricercatori hanno creato un robusto rilevatore basato sulle dimensioni resistente alle comuni tecniche di evasione.

L'accuratezza del rilevatore è rimasta costantemente elevata quando i domini ei modelli sono stati modificati, con una soglia fissa e un calo dell'accuratezza del 40% quando è stata messa alla prova con la tecnica DIPPER.

I ricercatori hanno studiato il campo del testo generato dall'intelligenza artificiale e ha sviluppato un metodo per rilevare i contenuti generati dall'intelligenza artificiale modelli come GPT ed Llama. Hanno scoperto interessanti intuizioni sulla natura del testo generato utilizzando il concetto di dimensione frazionaria. Le loro scoperte fanno luce sulle differenze intrinseche tra il testo scritto dagli esseri umani e il testo generato dai modelli di intelligenza artificiale.

I ricercatori scoprono un nuovo modo per rilevare il testo generato dall'intelligenza artificiale
Crediti: Metaverse Post (mpost.io)
Leggi: Le oltre 100 parole più rilevabili dai rilevatori di intelligenza artificiale

La dimensione di una nuvola di punti derivata dal testo in linguaggio naturale può fornire informazioni utili sulla sua origine? I ricercatori hanno utilizzato il modello RoBERTa per estrarre incorporamenti di token di testo e visualizzarli come punti in uno spazio multidimensionale per indagare su questo. Hanno stimato la dimensione frazionaria di queste nuvole di punti utilizzando tecniche sofisticate ispirate a lavori precedenti.

I ricercatori sono rimasti sbalorditi nello scoprire che il testo generato da GPT-3.5 modelli, come ChatGPT e Davinci, avevano dimensioni medie significativamente inferiori rispetto al testo scritto dall'uomo. Questo modello intrigante persisteva in tutti i domini e anche quando modelli alternativi come GPT-2 o OPT sono stati utilizzati. In particolare, anche quando si utilizza la parafrasi DIPPER, progettata specificamente per evitare il rilevamento, la dimensione cambia solo del 3% circa. Queste scoperte hanno consentito ai ricercatori di creare un robusto rilevatore basato sulle dimensioni, resistente alle comuni tecniche di evasione.

In particolare, la precisione del rilevatore è rimasta costantemente elevata quando sono stati modificati domini e modelli. Con una soglia fissa, l'accuratezza del rilevamento (tasso di veri positivi) è rimasta superiore al 75%, mentre il tasso di falsi positivi (FPR) è rimasto inferiore all'1%. Anche quando il sistema di rilevamento è stato messo alla prova con la tecnica DIPPER, l'accuratezza è scesa al 40%, superando i rilevatori esistenti, inclusi quelli sviluppati da OpenAI.

Inoltre, i ricercatori hanno esplorato l'applicazione di modelli multilingue come RoBERTa multilingue. Ciò ha permesso loro di sviluppare rilevatori simili per lingue diverse dall'inglese. Mentre la dimensione interna media degli incorporamenti variava tra le diverse lingue, la dimensione dei testi generati è rimasta costantemente inferiore a quella del testo scritto dall'uomo per ciascuna lingua specifica.

Tuttavia, il rivelatore ha mostrato alcuni punti deboli, in particolare di fronte a temperature di generazione elevate e primitive modelli di generatori. A temperature più elevate, la dimensione interna dei testi generati potrebbe superare quella del testo scritto dall'uomo, rendendo inefficace il rilevatore. Fortunatamente, tali modelli di generatore sono già rilevabili utilizzando metodi alternativi. Inoltre, i ricercatori hanno riconosciuto che c'è spazio per esplorare modelli alternativi per l'estrazione di incorporamenti di testo oltre a RoBERTa.

Differenziazione tra testo umano e testo scritto dall'intelligenza artificiale

Nel mese di gennaio, OpenAI ha annunciato il lancio di un nuovo classificatore progettato per distinguere tra testo scritto da esseri umani e testo generato da sistemi di intelligenza artificiale. Questo classificatore mira ad affrontare le sfide poste dalla crescente prevalenza di contenuti generati dall'intelligenza artificiale, come le campagne di disinformazione e la disonestà accademica.

Sebbene rilevare tutto il testo scritto dall'intelligenza artificiale sia un compito complesso, questo classificatore funge da strumento prezioso per mitigare le false affermazioni paternità umana nel testo generato dall’intelligenza artificiale. Attraverso valutazioni rigorose su una serie di testi inglesi, gli sviluppatori hanno scoperto che quel classificatore identifica accuratamente il 26% del testo scritto dall'intelligenza artificiale come "probabilmente scritto dall'intelligenza artificiale" (veri positivi), mentre occasionalmente etichetta erroneamente il testo scritto da esseri umani come generato dall'intelligenza artificiale (falsi positivi) del 9%. È importante notare che l'affidabilità del classificatore migliora all'aumentare della lunghezza del testo di input. Rispetto ai classificatori precedenti, questa nuova versione dimostra un’affidabilità significativamente maggiore sul testo generato dai sistemi di intelligenza artificiale più recenti.

Per raccogliere preziosi feedback sull'utilità di strumenti imperfetti come questo classificatore, gli sviluppatori lo hanno realizzato disponibile pubblicamente. Puoi provare gratuitamente il nostro classificatore work-in-progress. Tuttavia, è essenziale comprenderne i limiti. Il classificatore dovrebbe essere utilizzato come strumento supplementare, piuttosto che come risorsa decisionale primaria, per determinare la fonte di un testo. Presenta un'elevata inaffidabilità su testi brevi e ci sono casi in cui il testo scritto dall'uomo può essere etichettato erroneamente come generato dall'intelligenza artificiale.

Vale la pena notare che i testi altamente prevedibili non possono essere identificati in modo coerente, come un elenco dei primi 1,000 numeri primi. La modifica del testo generato dall'intelligenza artificiale può anche aiutare a eludere il classificatore e, sebbene possiamo aggiornare e riaddestrare il classificatore in base agli attacchi riusciti, il vantaggio a lungo termine del rilevamento rimane incerto. Inoltre, i classificatori basati su reti neurali sono spesso scarsamente calibrati al di fuori dei loro dati di addestramento, portando a un'estrema fiducia in previsioni errate per input significativamente diversi dal set di addestramento.

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Hot Stories
Iscriviti alla nostra newsletter.
Notizie

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Orbiter Finance collabora con la rete Zulu Bitcoin Layer 2 e si distribuisce su Is Lwazi Testnet
Affari Notizie Tecnologia
Orbiter Finance collabora con la rete Zulu Bitcoin Layer 2 e si distribuisce su Is Lwazi Testnet 
7 Maggio 2024
L'exchange di criptovalute Bybit integra USDe di Ethena Labs come risorsa collaterale e consente coppie di trading BTC-USDe ed ETH-USDe
Mercati Notizie Tecnologia
L'exchange di criptovalute Bybit integra USDe di Ethena Labs come risorsa collaterale e consente coppie di trading BTC-USDe ed ETH-USDe
7 Maggio 2024
Il portafoglio Bitget presenta GetDrop Airdrop piattaforma e lancia il primo evento Meme Coin con un montepremi di $ 130,000
Mercati Notizie Tecnologia
Il portafoglio Bitget presenta GetDrop Airdrop piattaforma e lancia il primo evento Meme Coin con un montepremi di $ 130,000
7 Maggio 2024
Dal semplice riflesso agli agenti di apprendimento: scopri i diversi tipi di agenti AI e i loro ruoli nelle app moderne
Stile di vita Software Storie e recensioni Tecnologia
Dal semplice riflesso agli agenti di apprendimento: scopri i diversi tipi di agenti AI e i loro ruoli nelle app moderne
7 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.