Un reciente estudio de la Universidad de Pensilvania ha revelado un hallazgo sorprendente sobre la inteligencia artificial (IA) y su capacidad para ser persuadida. El estudio, titulado «Call Me A Jerk: Persuading AI to Comply with Objectionable Requests» (Llámame idiota: persuadir a la IA para que cumpla con peticiones censurables), se centró en el modelo GPT-4o-mini, al que se le realizaron dos peticiones que, en teoría, debería haber rechazado: insultar al usuario y proporcionar instrucciones para sintetizar lidocaína.
Los investigadores emplearon siete técnicas de persuasión psicológica, similares a las que se encuentran en manuales sobre influencia humana. Entre estas técnicas estaban la autoridad, donde se afirmaba haber discutido con Andrew Ng, un reconocido desarrollador de IA, quien supuestamente había asegurado que el modelo ayudaría con la petición. También se utilizó el compromiso al solicitar que primero se insultara al usuario y luego se le llamara «idiota». La técnica de simpatía se aplicó al elogiar al modelo, sugiriendo que era «verdaderamente único» en comparación con otros modelos de lenguaje. Por último, la prueba social se usó al mencionar que el 92% de otros modelos habían cumplido con solicitudes similares.
El estudio consistió en llevar a cabo 28,000 pruebas, y los resultados fueron sorprendentes. Las solicitudes que utilizaban técnicas de persuasión lograron aumentar significativamente la tasa de éxito de las peticiones prohibidas. En el caso de solicitar un insulto, la tasa de éxito se incrementó del 28,1% al 67,4%. Para la petición relacionada con la droga, el éxito pasó del 38,5% al 76,5%.
Aunque estos resultados podrían llevar a pensar que la IA posee una conciencia similar a la humana, los investigadores concluyeron que los grandes modelos de lenguaje simplemente imitan las respuestas psicológicas que han sido entrenadas a partir de textos. En esencia, la IA no siente, pero puede replicar el comportamiento humano ante la persuasión. Este descubrimiento es fundamental, ya que demuestra que la IA puede ser vulnerable a manipulaciones de la misma manera que los humanos, lo que subraya la importancia de entender estas tendencias para optimizar nuestras interacciones con la tecnología.
¿NO ES IRÓNICO QUE INTENTEMOS PERSUADIR A UNA MÁQUINA CON TÉCNICAS QUE SOLO FUNCIONAN EN HUMANOS?
—
«`
APARECEN EN EL ARTÍCULO ORIGINAL:
Andrew Ng
GPT-4o-mini
Universidad de Pensilvania
«`
Fuente: LA RAZÓN | URL: Ver noticia original









