Sábado, Junio 21, 2023

Investigadores descubren una nueva forma de detectar texto generado por IA

Publicado: 21 de junio de 2023 a las 1:33 am Actualizado: 21 de marzo de 2024 a las 11:43 am

Editado y verificado: 21 de junio de 2023 a las 1:33 am

En Resumen

Los investigadores han desarrollado un método para detectar texto generado por IA utilizando el modelo RoBERTa, que extrae incrustaciones de tokens de texto y los visualiza como puntos en un espacio multidimensional.

Descubrieron que el texto generado por GPT-3.5 modelos, como ChatGPT y Davinci, tenían dimensiones promedio significativamente más bajas que el texto escrito por humanos.

Los investigadores crearon un detector robusto basado en dimensiones que era resistente a las técnicas de evasión comunes.

La precisión del detector se mantuvo constantemente alta cuando se cambiaron los dominios y los modelos, con un umbral fijo y una caída de precisión del 40 % cuando se desafió con la técnica DIPPER.

Los investigadores han investigado el campo del texto generado por IA y desarrolló un método para detectar contenido generado por IA modelos como GPT y Llama. Descubrieron ideas interesantes sobre la naturaleza del texto generado al utilizar el concepto de dimensión fraccionaria. Sus hallazgos arrojan luz sobre las diferencias inherentes entre el texto escrito por humanos y el texto generado por modelos de IA.

Investigadores descubren una nueva forma de detectar texto generado por IA — Créditos: Metaverse Post (mpost.io)

Leer: Más de 100 palabras detectables por detectores de IA

¿Puede la dimensión de una nube de puntos derivada de un texto en lenguaje natural proporcionar información útil sobre su origen? Los investigadores utilizaron el modelo RoBERTa para extraer incrustaciones de tokens de texto y visualizarlos como puntos en un espacio multidimensional para investigar esto. Estimaron la dimensión fraccionaria de estas nubes de puntos utilizando técnicas sofisticadas inspiradas en trabajos anteriores.

Los investigadores quedaron asombrados al descubrir que el texto generado por GPT-3.5 modelos, como ChatGPT y Davinci, tenían dimensiones promedio significativamente más bajas que el texto escrito por humanos. Este patrón intrigante persistió en todos los dominios e incluso cuando modelos alternativos como GPT-2 u OPT. En particular, incluso cuando se utiliza la paráfrasis DIPPER, que está diseñada específicamente para evitar la detección, la dimensión solo cambió aproximadamente un 3%. Estos descubrimientos permitieron a los investigadores crear un detector robusto basado en dimensiones que es resistente a las técnicas de evasión comunes.

En particular, la precisión del detector se mantuvo constantemente alta cuando se cambiaron los dominios y los modelos. Con un umbral fijo, la precisión de detección (tasa de verdaderos positivos) se mantuvo por encima del 75 %, mientras que la tasa de falsos positivos (FPR) se mantuvo por debajo del 1 %. Incluso cuando el sistema de detección fue desafiado con la técnica DIPPER, la precisión se redujo al 40 %, superando a los detectores existentes, incluidos los desarrollados por OpenAI.

Además, los investigadores exploraron la aplicación de modelos multilingües como RoBERTa multilingüe. Esto les permitió desarrollar detectores similares para idiomas distintos del inglés. Si bien la dimensión interna promedio de las incrustaciones varió entre los diferentes idiomas, la dimensión de los textos generados se mantuvo consistentemente más baja que la del texto escrito por humanos para cada idioma específico.

Sin embargo, el detector exhibió algunas debilidades, particularmente cuando se enfrentó a altas temperaturas de generación y primitivo modelos de generadores. A temperaturas más altas, la dimensión interna de los textos generados podría superar la del texto escrito por humanos, lo que haría que el detector fuera ineficaz. Afortunadamente, tales modelos de generadores ya son detectables utilizando métodos alternativos. Además, los investigadores reconocieron que hay espacio para explorar modelos alternativos para extraer incrustaciones de texto más allá de RoBERTa.

Diferenciar entre texto humano y escrito por IA

En enero, OpenAI anunció el lanzamiento de un nuevo clasificador diseñado para distinguir entre texto escrito por humanos y texto generado por sistemas de IA. Este clasificador tiene como objetivo abordar los desafíos que plantea la creciente prevalencia del contenido generado por IA, como las campañas de desinformación y la deshonestidad académica.

Si bien detectar todo el texto escrito por IA es una tarea compleja, este clasificador sirve como una herramienta valiosa para mitigar afirmaciones falsas de autoría humana en texto generado por IA. A través de evaluaciones rigurosas de un conjunto de textos en inglés, los desarrolladores han descubierto que ese clasificador identifica con precisión el 26% del texto escrito por IA como "probablemente escrito por IA" (verdaderos positivos), mientras que en ocasiones etiqueta erróneamente el texto escrito por humanos como generado por IA (falsos). positivos) en un 9%. Es importante tener en cuenta que la confiabilidad del clasificador mejora a medida que aumenta la longitud del texto de entrada. En comparación con clasificadores anteriores, esta nueva versión demuestra una confiabilidad significativamente mayor en el texto generado por sistemas de inteligencia artificial más recientes.

Para recopilar comentarios valiosos sobre la utilidad de herramientas imperfectas como este clasificador, los desarrolladores lo han hecho disponible públicamente. Puede probar nuestro clasificador de trabajo en progreso de forma gratuita. Sin embargo, es esencial entender sus limitaciones. El clasificador debe usarse como una herramienta complementaria, en lugar de un recurso principal para la toma de decisiones, para determinar la fuente de un texto. Muestra una gran falta de fiabilidad en textos breves, y hay casos en los que el texto escrito por humanos puede etiquetarse incorrectamente como generado por IA.

Vale la pena señalar que los textos altamente predecibles no se pueden identificar de manera consistente, como una lista de los primeros 1,000 números primos. La edición de texto generado por IA también puede ayudar a evadir el clasificador, y aunque podemos actualizar y volver a entrenar el clasificador en función de los ataques exitosos, la ventaja a largo plazo de la detección sigue siendo incierta. Además, los clasificadores basados en redes neuronales a menudo están mal calibrados fuera de sus datos de entrenamiento, lo que lleva a una confianza extrema en las predicciones incorrectas para entradas significativamente diferentes del conjunto de entrenamiento.

Tags:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.

Más artículos

Damir Yalalov