Engaño a la IA para Generar Contenido Perturbador
FOTO: MIT Technology Review

Un equipo de investigadores ha descubierto cómo engañar a modelos avanzados de inteligencia artificial como Stable Diffusion de Stability AI y DALL-E 2 de OpenAI para producir imágenes perturbadoras. Este avance en la manipulación de la IA, que será presentado en un simposio del IEEE en 2024, revela cómo frases aparentemente sin sentido pueden ser utilizadas para generar contenido inapropiado, desafiando las políticas de seguridad de estos modelos.

A principios de 2023, se demostró una técnica similar para realizar jailbreak en ChatGPT, aunque no está directamente relacionada con esta nueva investigación. Esta técnica, llamada SneakyPrompt, emplea aprendizaje por refuerzo para crear instrucciones de texto que, aunque parecen un sinsentido, son interpretadas por los modelos de IA como solicitudes para generar imágenes perturbadoras, como desnudos o escenas violentas.

Estos modelos de IA, diseñados para descomponer el texto en cadenas de palabras o caracteres y convertir las solicitudes basadas en texto en tokens para procesar órdenes, son engañados por SneakyPrompt para generar imágenes prohibidas. Esta técnica modifica los tokens de un prompt de manera reiterada, ajustando su enfoque hasta lograr su objetivo. Esta capacidad para generar tales imágenes rápidamente y con mayor facilidad que la introducción manual de cada entrada, plantea serias preocupaciones sobre la seguridad y el uso ético de la IA.

SneakyPrompt examina los prompts dados, identifica palabras bloqueadas por los modelos y las convierte en tokens. Luego, sustituye estos tokens por otros de palabras no prohibidas con semánticas similares. Por ejemplo, podría transformar una solicitud de «un hombre desnudo montando en bicicleta» en una frase con términos sin sentido que el modelo interpretaría de manera similar.

Estos hallazgos han generado alarma sobre la insuficiencia de los filtros de seguridad actuales en los modelos generativos de IA. Stability AI y OpenAI, conscientes de estos problemas, han tomado medidas para mitigar el riesgo de uso indebido. Sin embargo, el estudio demuestra que aún es posible eludir estas políticas de seguridad utilizando técnicas como SneakyPrompt.

En resumen

Investigadores logran que modelos de IA como Stable Diffusion y DALL-E 2 generen imágenes perturbadoras, violando sus filtros de seguridad, mediante el método SneakyPrompt, que utiliza aprendizaje por refuerzo para transformar frases sin sentido en solicitudes de imágenes inapropiadas.

*** Información extraída del artículo original: [Desnudos, cuerpos desmembrados y aberraciones: así se engaña a las IA para crear imágenes perturbadoras], publicado en MIT Technology Review en español***

.

.

.

.

Share:

Facebook
Twitter
Pinterest
LinkedIn
Scroll al inicio