Algunas IA sacan matrícula… pero haciendo trampa: un estudio español desmonta su supuesto razonamiento»

febrero 20, 2025

Investigadores españoles descubren el truco que usan las IA para sacar tan buenas notas: “Es verdadera kriptonita”

Nuevos métodos revelan cómo las IA obtienen altas calificaciones sin razonar
Elon Musk presenta Grok 3 mientras estudios cuestionan la evaluación de chatbots
Investigación española expone las limitaciones de los tests actuales para IA

**Las IA actuales destacan más por memorización que por razonamiento auténtico, según revela un estudio español.**
Un equipo de investigadores españoles ha demostrado que los modelos de inteligencia artificial, como el recientemente anunciado Grok 3 de **Elon Musk**, suelen obtener altas calificaciones en pruebas estándar debido a la memorización de respuestas disponibles en línea, en lugar de un verdadero razonamiento. Al modificar las opciones de respuesta en los tests para incluir «Ninguna de las anteriores», se observó una disminución promedio del 50% al 57% en la precisión de estos modelos, evidenciando sus limitaciones en comprensión y razonamiento genuino.

En un entorno donde las empresas tecnológicas compiten ferozmente por demostrar la superioridad de sus modelos de inteligencia artificial, **Elon Musk** ha proclamado recientemente a Grok 3, desarrollado por su empresa **xAI**, como «la IA más inteligente del mundo». Simultáneamente, **Sam Altman**, de **ChatGPT**, destacó avances en GPT-4.5, describiéndolo como una experiencia cercana a una IA con sentido común. Sin embargo, estas afirmaciones han sido cuestionadas por una investigación española que pone en entredicho la eficacia de las evaluaciones actuales de estos modelos.

El equipo, liderado por **Julio Gonzalo**, catedrático de Lenguajes y Sistemas Informáticos de la **UNED**, ha identificado que los modelos de IA suelen depender de la memorización de respuestas previamente disponibles en línea, en lugar de emplear un razonamiento auténtico. Para evidenciar esta dependencia, los investigadores modificaron las pruebas estándar sustituyendo la respuesta correcta por una opción general: «Ninguna de las anteriores». Esta alteración obligaba a los modelos a analizar y razonar sobre cada opción, en lugar de reconocer patrones previamente almacenados.

Los resultados fueron reveladores. Todos los modelos evaluados mostraron una disminución significativa en su precisión, con caídas promedio del 50% al 57%, y variaciones entre el 10% y el 93% según el modelo específico. Este descenso en el rendimiento sugiere que, aunque las IA pueden manejar grandes volúmenes de información, su capacidad para generalizar y aplicar razonamiento lógico es limitada. **Gonzalo** señaló que este sencillo cambio en las pruebas «quita un velo a la experimentación con benchmarks y nos permite ver el progreso real en las … de los sistemas sin el ruido … «.

Además, la investigación destacó diferencias en el rendimiento de los modelos según el idioma. Las pruebas realizadas en español mostraron resultados inferiores en comparación con las realizadas en inglés, lo que indica una necesidad urgente de desarrollar modelos más equitativos y pruebas más rigurosas que reflejen con precisión las capacidades de razonamiento de las IA en diversos contextos lingüísticos.

Este estudio pone de manifiesto la importancia de diseñar evaluaciones que midan verdaderamente la comprensión y el razonamiento de las inteligencias artificiales, más allá de su capacidad para memorizar y reproducir información. En un momento donde las afirmaciones de superioridad en el campo de la IA son frecuentes, investigaciones como esta ofrecen una perspectiva crítica y fundamentada sobre las reales capacidades y limitaciones de estos sistemas avanzados.

·····················
Este es un resumen comentado, basado en la noticia original de **Jordi Pérez Colomé** publicada en **EL PAÍS** el **20 de febrero de 2025**.
Puedes leer el artículo completo aquí: **elpais.com/tecnologia/2025-02-20/investigadores-espanoles-descubren-el-truco-que-usan-las-ia-para-sacar-tan-buenas-notas-es-verdadera-kriptonita.html**
·····················
.
.
.
.

Algunas IA sacan matrícula… pero haciendo trampa: un estudio español desmonta su supuesto razonamiento»

Otras noticias de interés

De preguntar a Google a recurrir al ChatGPT: la IA, el nuevo intruso en las consultas médicas

Tu empleo, ¿en poder de un algoritmo? los recursos humanos ya usan la IA para contratar y despedir

Ola de despidos en las grandes telecos: Telefónica, Verizon o BT sacrifican empleo para ser más ágiles en la era de la IA

«Nuestro universo no puede ser una simulación»: por qué no vivimos en Matrix y es imposible que llegue a existir

¿La IA diagnostica con mayor precisión que los médicos, como afirma la consellera de Salut? Olga Pané

Cómo usar ChatGPT (y otros LLM) con una API y pagar solo lo que consumes | WIRED

Una experta afirma que la verdadera amenaza tecnológica en el aula ha estado frente a nosotros durante años, y no es la IA

Los escritores de novelas pueden tener los días contados y lo saben: más de la mitad cree que la IA los va a reemplazar

La IA ya puede atacar sin ayuda humana: China lanza el primer ciberataque mundial autónomo