Cómo engañar a los sistemas de PNL mediante el intercambio de palabras

Por Bruce Schneier
Publicado el 28 de abril de 2020
Título original: «Fooling NLP Systems Through Word Swapping»
Fuente: https://www.schneier.com/blog/archives/2020/04/fooling_nlp_sys.html

Algunos investigadores del MIT han creado un sistema capaz de engañar a los sistemas de procesamiento de lenguaje natural (PLN) mediante el intercambio de palabras con sinónimos:

Este software, desarrollado por un equipo del MIT, busca cuáles son las palabras de una oración más importantes para un clasificador de PNL y las sustituye por un sinónimo que un ser humano consideraría como natural. Por ejemplo, cambiar la frase «los personajes, proyectados en situaciones imposibles, están totalmente alejados de la realidad» por «los personajes, proyectados en circunstancias imposibles, están totalmente alejados de la realidad» no modifica en absoluto la forma en que la leemos. Pero las modificaciones hicieron que la inteligencia artificial (IA) interpretase las oraciones de forma completamente diferente.

Los resultados de este ataque de aprendizaje automático antagónico son impresionantes.

Por ejemplo, BERT, la potente red neuronal de Google, disminuyó en un factor entre cinco y siete su capacidad de identificar si las críticas en Yelp eran positivas o negativas.

Este es el artículo:

Resumen
Los algoritmos de aprendizaje automático suelen ser vulnerables a ejemplos antagónicos que contienen alteraciones imperceptibles respecto de los homólogos originales, pero son capaces de engañar a los modelos más avanzados. Es útil evaluar o incluso mejorar la robustez de estos modelos mediante la exposición de los ejemplos antagónicos elaborados con malicia. En este documento, presentamos TextFooler, una herramienta simple pero sólida para generar textos antagónicos con lenguaje natural. Mediante su aplicación a dos tareas fundamentales del lenguaje natural, la clasificación de textos y la vinculación textual, atacamos eficazmente tres modelos objetivos, entre los que se incluyen la potente red neuronal preentrenada BERT y las redes neuronales convolucional y recurrentes ampliamente utilizadas. Demostramos las ventajas de este entorno de tres formas diferentes:

(1) Es eficaz: tiene un rendimiento superior al de los ataques más modernos en términos de tasa de éxito y tasa de perturbación.

(2) Conserva la utilidad: mantiene el contenido semántico y la gramática, y su clasificación sigue siendo correcta para los humanos.

(3) Es eficiente: genera un texto antagónico con una complejidad computacional lineal a la longitud del texto.

Published

Cómo engañar a los sistemas de PNL mediante el intercambio de palabras

Share the joy

Recent Posts

Categories

Archives

Contact

Telephone

Office Hours

Address

E-mail

Published

Cómo engañar a los sistemas de PNL mediante el intercambio de palabras

Share the joy

Recent Posts

Categories

Tags

Archives

Contact

Telephone

Office Hours

Address

E-mail