Rapport de nouvelles Technologie
Le 21 juin 2023

Des chercheurs découvrent une nouvelle façon de détecter le texte généré par l'IA

En bref

Les chercheurs ont développé une méthode pour détecter le texte généré par l'IA à l'aide du modèle RoBERTa, qui extrait les incorporations de jetons de texte et les visualise sous forme de points dans un espace multidimensionnel.

Ils ont découvert que le texte généré par GPT-3.5 modèles, tels que ChatGPT et Davinci, avaient des dimensions moyennes significativement inférieures à celles du texte écrit par l'homme.

Les chercheurs ont créé un détecteur dimensionnel robuste qui résiste aux techniques d'évasion courantes.

La précision du détecteur est restée constamment élevée lorsque les domaines et les modèles ont été modifiés, avec un seuil fixe et une baisse de précision de 40 % lorsqu'ils ont été mis au défi avec la technique DIPPER.

Des chercheurs ont étudié le domaine du texte généré par l'IA et développé une méthode de détection de contenu généré par l'IA des modèles tels que GPT ainsi que les Llama. Ils ont découvert des informations intéressantes sur la nature du texte généré en utilisant le concept de dimension fractionnaire. Leurs découvertes ont mis en lumière les différences inhérentes entre le texte écrit par des humains et le texte généré par des modèles d'IA.

Des chercheurs découvrent une nouvelle façon de détecter le texte généré par l'IA
Crédit: Metaverse Post (mpost.io)
Lire: Top 100+ des mots détectables par les détecteurs d'IA

La dimension d'un nuage de points dérivé d'un texte en langage naturel peut-elle fournir des informations utiles sur son origine ? Les chercheurs ont utilisé le modèle RoBERTa pour extraire les incorporations de jetons de texte et les visualiser sous forme de points dans un espace multidimensionnel pour étudier cela. Ils ont estimé la dimension fractionnaire de ces nuages ​​de points à l'aide de techniques sophistiquées inspirées de travaux antérieurs.

Les chercheurs ont été stupéfaits de découvrir que le texte généré par GPT-3.5 modèles, tels que ChatGPT et Davinci, avaient des dimensions moyennes nettement inférieures à celles du texte écrit par l'homme. Ce modèle fascinant a persisté dans tous les domaines et même lorsque des modèles alternatifs tels que GPT-2 ou OPT ont été utilisés. Notamment, même en utilisant la paraphrase DIPPER, spécialement conçue pour éviter la détection, la dimension n'a changé que d'environ 3 %. Ces découvertes ont permis aux chercheurs de créer un détecteur dimensionnel robuste, résistant aux techniques d’évasion courantes.

Notamment, la précision du détecteur est restée constamment élevée lorsque les domaines et les modèles ont été modifiés. Avec un seuil fixe, la précision de détection (taux de vrais positifs) est restée supérieure à 75 % tandis que le taux de faux positifs (FPR) est resté inférieur à 1 %. Même lorsque le système de détection a été mis au défi avec la technique DIPPER, la précision a chuté à 40 %, surpassant les détecteurs existants, y compris ceux développés par OpenAI.

De plus, les chercheurs ont exploré l'application de modèles multilingues comme RoBERTa multilingue. Cela leur a permis de développer des détecteurs similaires pour des langues autres que l'anglais. Alors que la dimension interne moyenne des incorporations variait selon les langues, la dimension des textes générés restait systématiquement inférieure à celle du texte écrit par l'homme pour chaque langue spécifique.

Cependant, le détecteur présentait certaines faiblesses, en particulier face à des températures de génération élevées et à des modèles de générateur. À des températures plus élevées, la dimension interne des textes générés pourrait dépasser celle du texte écrit par l'homme, rendant le détecteur inefficace. Heureusement, de tels modèles de générateurs sont déjà détectables à l'aide de méthodes alternatives. De plus, les chercheurs ont reconnu qu'il était possible d'explorer des modèles alternatifs pour extraire les incorporations de texte au-delà de RoBERTa.

Différencier le texte écrit par l'homme et par l'IA

En Janvier, OpenAI annoncé le lancement d'un nouveau classificateur conçu pour faire la distinction entre le texte écrit par des humains et le texte généré par des systèmes d'IA. Ce classificateur vise à relever les défis posés par la prévalence croissante du contenu généré par l'IA, tels que les campagnes de désinformation et la malhonnêteté académique.

Bien que la détection de tous les textes écrits par l'IA soit une tâche complexe, ce classificateur constitue un outil précieux pour atténuer les fausses allégations de paternité humaine dans le texte généré par l'IA. Grâce à des évaluations rigoureuses sur un ensemble de textes anglais, les développeurs ont découvert que ce classificateur identifie avec précision 26 % des textes écrits par l'IA comme étant « probablement écrits par l'IA » (vrais positifs), tout en étiquetant parfois à tort les textes écrits par l'homme comme étant générés par l'IA (faux). positifs) de 9%. Il est important de noter que la fiabilité du classificateur s'améliore à mesure que la longueur du texte saisi augmente. Par rapport aux classificateurs précédents, cette nouvelle version démontre une fiabilité nettement supérieure sur le texte généré par les systèmes d’IA plus récents.

Pour recueillir des commentaires précieux sur l'utilité d'outils imparfaits comme ce classificateur, les développeurs l'ont fait Disponible publiquement. Vous pouvez essayer gratuitement notre classificateur de travail en cours. Cependant, il est essentiel de comprendre ses limites. Le classificateur doit être utilisé comme un outil supplémentaire, plutôt que comme une ressource décisionnelle principale, pour déterminer la source d'un texte. Il présente un manque de fiabilité élevé sur les textes courts, et il existe des cas où le texte écrit par l'homme peut être incorrectement étiqueté comme généré par l'IA.

Il convient de noter que les textes hautement prévisibles ne peuvent pas être identifiés de manière cohérente, comme une liste des 1,000 XNUMX premiers nombres premiers. L'édition de texte généré par l'IA peut également aider à échapper au classificateur, et bien que nous puissions mettre à jour et recycler le classificateur en fonction des attaques réussies, l'avantage à long terme de la détection reste incertain. De plus, les classificateurs basés sur les réseaux de neurones sont souvent mal calibrés en dehors de leurs données d'apprentissage, ce qui conduit à une confiance extrême dans des prédictions incorrectes pour des entrées significativement différentes de l'ensemble d'apprentissage.

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Lisk passe officiellement à Ethereum Layer 2 et dévoile Core v4.0.6
Rapport de nouvelles Technologie
Lisk passe officiellement à Ethereum Layer 2 et dévoile Core v4.0.6
8 mai 2024
Nouvelles pièces Meme de mai 2024 : 7 choix pour les fans de crypto
Digérer Marchés Technologie
Nouvelles pièces Meme de mai 2024 : 7 choix pour les fans de crypto
8 mai 2024
Synternet intègre Peaq dans sa couche de données pour alimenter les DApps basées sur des événements avec des données DePIN en temps réel
La Brochure Rapport de nouvelles Technologie
Synternet intègre Peaq dans sa couche de données pour alimenter les DApps basées sur des événements avec des données DePIN en temps réel
8 mai 2024
Les opérations massives d'extraction de cryptomonnaies en Iran constituent une menace directe pour la sécurité nationale des États-Unis, les sénateurs demandent une action immédiate du gouvernement
Marchés Histoires et critiques Technologie
Les opérations massives d'extraction de cryptomonnaies en Iran constituent une menace directe pour la sécurité nationale des États-Unis, les sénateurs demandent une action immédiate du gouvernement
8 mai 2024
CRYPTOMERIA LABS PTE. LTD.