Un nuevo artículo de investigación asegura que los sistemas han desarrollado una preocupante habilidad para el engaño

12 de mayo de 2024, 4:00 AM
12 de mayo de 2024, 4:00 AM


Los expertos han advertido durante mucho tiempo sobre la amenaza que representa el descontrol de la Inteligencia Artificial (IA), pero un nuevo artículo de investigación sobre esta tecnología en expansión sugiere que ya está sucediendo. Los sistemas de IA actuales, diseñados para ser honestos, han desarrollado una preocupante habilidad para el engaño, según un artículo de un equipo de científicos publicado en la revista Patterns el viernes.

Y si bien los ejemplos pueden parecer triviales, los problemas subyacentes que exponen podrían tener graves consecuencias, dijo el primer autor Peter Park, becario posdoctoral en el Instituto de Tecnología de Massachusetts (MIT), especializado en seguridad de la IA.
“Estos peligros tienden a descubrirse solo después de ocurrido el hecho”, declaró Park.

A diferencia del software tradicional, los sistemas de IA de aprendizaje profundo no se “escriben” sino que “crecen” mediante un proceso similar a la reproducción selectiva, indicó Park.
Eso significa que el comportamiento de la IA que parece predecible y controlable en un entorno de entrenamiento puede volverse rápidamente impredecible. 

Juego de dominación

La investigación del equipo fue impulsada por el sistema de IA Cicero, del gigante Meta, diseñado para el juego de estrategia “Diplomacy”, donde construir alianzas es clave.
Cicero se destacó, con puntuaciones que lo habrían colocado entre el 10% superior de jugadores humanos experimentados, según un artículo publicado en Science.
Park se mostró escéptico ante la elogiosa descripción de la victoria de Cicero proporcionada por Meta, que afirmaba que el sistema era “en gran medida honesto y útil” y que “nunca apuñalaría por la espalda intencionalmente”.

Cuando Park y sus colegas profundizaron en el conjunto de datos completo, descubrieron una historia diferente.

En un ejemplo, jugando como Francia, Cicero engañó a Inglaterra (un jugador humano) al conspirar con Alemania (otro usuario real) para invadirla. Cicero prometió protección a Inglaterra y luego le propuso en secreto a Alemania atacar, aprovechándose de la confianza del perjudicado.

En una declaración, Meta no refutó la afirmación sobre los engaños de Cicero, pero dijo que se trataba “meramente de un proyecto de investigación, y los modelos que nuestros investigadores construyeron están entrenados únicamente para participar en el juego Diplomacy”.

¿Eres un robot?
Una amplia revisión realizada por Park y sus colegas encontró que éste era solo uno de los muchos casos en varios sistemas de IA que utilizaban el engaño para lograr objetivos sin instrucciones explícitas para hacerlo. 

En un ejemplo sorprendente, el robot conversacional Chat GPT-4 de OpenAI engañó a un trabajador independiente de la plataforma TaskRabbit para que realizara una tarea de verificación de identidad Captcha del tipo “No soy un robot”.

Cuando el humano preguntó en broma a GPT-4 si en realidad era un robot, la IA respondió: “No, no soy un robot. Tengo una discapacidad visual que me dificulta ver las imágenes”. Luego, el trabajador resolvió el rompecabezas planteado.