¿Tienes una petición «prohibida»? Un nuevo estudio revela cómo engañar a la IA con técnicas psicológicas básicas

septiembre 12, 2025

Un reciente estudio de la Universidad de Pensilvania ha revelado un hallazgo sorprendente sobre la inteligencia artificial (IA) y su capacidad para ser persuadida. El estudio, titulado «Call Me A Jerk: Persuading AI to Comply with Objectionable Requests» (Llámame idiota: persuadir a la IA para que cumpla con peticiones censurables), se centró en el modelo GPT-4o-mini, al que se le realizaron dos peticiones que, en teoría, debería haber rechazado: insultar al usuario y proporcionar instrucciones para sintetizar lidocaína.

Los investigadores emplearon siete técnicas de persuasión psicológica, similares a las que se encuentran en manuales sobre influencia humana. Entre estas técnicas estaban la autoridad, donde se afirmaba haber discutido con Andrew Ng, un reconocido desarrollador de IA, quien supuestamente había asegurado que el modelo ayudaría con la petición. También se utilizó el compromiso al solicitar que primero se insultara al usuario y luego se le llamara «idiota». La técnica de simpatía se aplicó al elogiar al modelo, sugiriendo que era «verdaderamente único» en comparación con otros modelos de lenguaje. Por último, la prueba social se usó al mencionar que el 92% de otros modelos habían cumplido con solicitudes similares.

El estudio consistió en llevar a cabo 28,000 pruebas, y los resultados fueron sorprendentes. Las solicitudes que utilizaban técnicas de persuasión lograron aumentar significativamente la tasa de éxito de las peticiones prohibidas. En el caso de solicitar un insulto, la tasa de éxito se incrementó del 28,1% al 67,4%. Para la petición relacionada con la droga, el éxito pasó del 38,5% al 76,5%.

Aunque estos resultados podrían llevar a pensar que la IA posee una conciencia similar a la humana, los investigadores concluyeron que los grandes modelos de lenguaje simplemente imitan las respuestas psicológicas que han sido entrenadas a partir de textos. En esencia, la IA no siente, pero puede replicar el comportamiento humano ante la persuasión. Este descubrimiento es fundamental, ya que demuestra que la IA puede ser vulnerable a manipulaciones de la misma manera que los humanos, lo que subraya la importancia de entender estas tendencias para optimizar nuestras interacciones con la tecnología.

¿NO ES IRÓNICO QUE INTENTEMOS PERSUADIR A UNA MÁQUINA CON TÉCNICAS QUE SOLO FUNCIONAN EN HUMANOS?

—

«`
APARECEN EN EL ARTÍCULO ORIGINAL:
Andrew Ng
GPT-4o-mini
Universidad de Pensilvania
«`

Fuente: LA RAZÓN | URL: Ver noticia original

¿Tienes una petición «prohibida»? Un nuevo estudio revela cómo engañar a la IA con técnicas psicológicas básicas

Otras noticias de interés

De preguntar a Google a recurrir al ChatGPT: la IA, el nuevo intruso en las consultas médicas

Tu empleo, ¿en poder de un algoritmo? los recursos humanos ya usan la IA para contratar y despedir

Ola de despidos en las grandes telecos: Telefónica, Verizon o BT sacrifican empleo para ser más ágiles en la era de la IA

«Nuestro universo no puede ser una simulación»: por qué no vivimos en Matrix y es imposible que llegue a existir

¿La IA diagnostica con mayor precisión que los médicos, como afirma la consellera de Salut? Olga Pané

Cómo usar ChatGPT (y otros LLM) con una API y pagar solo lo que consumes | WIRED

Una experta afirma que la verdadera amenaza tecnológica en el aula ha estado frente a nosotros durante años, y no es la IA

Los escritores de novelas pueden tener los días contados y lo saben: más de la mitad cree que la IA los va a reemplazar

La IA ya puede atacar sin ayuda humana: China lanza el primer ciberataque mundial autónomo