Un reciente estudio llevado a cabo por la Universitat Politècnica de València (UPV) y la Universidad de Cambridge ha revelado una tendencia preocupante: los modelos de lenguaje de inteligencia artificial, como GPT-4, son cada vez menos fiables en comparación con sus versiones anteriores, como GPT-3. El equipo de investigadores, liderado por el instituto VRAIN de la UPV y el red team de GPT-4, ha encontrado que estos modelos tienden a fallar incluso en tareas sencillas que, según la percepción humana, deberían ser fáciles de resolver.
José Hernández-Orallo, uno de los investigadores principales, señala que existe una desconexión entre la percepción humana de la dificultad de una tarea y el rendimiento de la IA. Los modelos pueden resolver problemas complejos de alto nivel, pero fallan en tareas simples del mismo dominio. Esto evidencia una falta de fiabilidad que no puede ser compensada por supervisión humana, según concluyen los investigadores.
Otro aspecto clave del estudio es la sensibilidad de los modelos a cómo se formulan las preguntas. Los investigadores encontraron que los «prompts» efectivos en tareas complejas pueden producir errores en tareas más simples, agravando la desconexión entre la expectativa y el resultado. Además, los modelos más recientes son propensos a dar respuestas incorrectas en lugar de abstenerse de responder cuando no están seguros.
El estudio no se limita a los modelos de OpenAI, sino que también incluye a otras familias de modelos como LLaMA de Meta y BLOOM, destacando que el problema de la falta de fiabilidad es generalizado en todas las versiones recientes de IA. Ante esta situación, los investigadores proponen un rediseño de los modelos de IA, especialmente para aquellas aplicaciones de alto riesgo en las que los errores pueden tener consecuencias graves.
¿Es posible que estemos avanzando demasiado rápido en el desarrollo de la IA sin asegurar primero la fiabilidad de sus resultados? ¿Podrán las futuras generaciones de modelos de IA superar estas limitaciones y recuperar la confianza de los usuarios?
·····················
Este texto es un resumen comentado basado en la noticia original de EFE publicada en EFE el 25 de septiembre de 2024. Puedes leer el artículo completo aquí: https://efe.com/ciencia-y-tecnologia/2024-09-25/estudio-lenguaje-ia-fiables/
····
····
····
····