iconoOpenThinker-32B vs DeepSeek; el nuevo modelo de IA de código abierto que desafía a DeepSeek

OpenThinker-32B redefine el razonamiento en IA con menos datos y mayor precisión.OpenThinker-32B es un modelo de inteligencia artificial de código abierto desarrollado por el equipo de Open Thoughts para abordar los desafíos en tareas de razonamiento complejo. Con 32,8 mil millones de parámetros y una capacidad de contexto de 16.000 tokens, ha sido entrenado utilizando el conjunto de datos OpenThoughts-114k, que contiene 114.000 ejemplos de alta calidad. A pesar de utilizar solo el 14% de los datos empleados por su competidor DeepSeek, OpenThinker-32B ha logrado una precisión del 90,6% en el benchmark MATH500, superando el 89,4% obtenido por DeepSeek. Este avance demuestra que es posible alcanzar un rendimiento superior en tareas de razonamiento matemático y científico con una cantidad significativamente menor de datos de entrenamiento.

 

El desarrollo de modelos de inteligencia artificial capaces de realizar razonamientos complejos ha sido un desafío constante en el campo de la IA. Muchos modelos existentes enfrentan dificultades en la resolución de problemas avanzados, especialmente en áreas como matemáticas, programación y razonamiento científico. Estas limitaciones suelen estar relacionadas con la calidad de los datos, la arquitectura del modelo y la escalabilidad de los procesos de entrenamiento.

Para abordar estos desafíos, el equipo de **Open Thoughts** ha desarrollado **OpenThinker-32B**, un modelo de razonamiento de datos abiertos de última generación. Este modelo ha sido afinado a partir de **Qwen2.5-32B-Instruct** utilizando el conjunto de datos **OpenThoughts-114k**, que contiene 114.000 ejemplos cuidadosamente seleccionados. A pesar de utilizar solo una fracción de los datos empleados por modelos propietarios como **DeepSeek**, OpenThinker-32B ha logrado resultados sobresalientes en benchmarks de razonamiento complejo.

Desde un punto de vista técnico, **OpenThinker-32B** cuenta con 32,8 mil millones de parámetros y admite una longitud de contexto de 16.000 tokens, lo que le permite manejar tareas que requieren un análisis profundo y sostenido. Su entrenamiento se realizó en **AWS SageMaker** durante tres ciclos, empleando el framework **LLaMa-Factory** con una tasa de aprendizaje de **1e-5** y un programador de tasa de aprendizaje cosenoidal. La infraestructura utilizada incluyó cuatro nodos con ocho GPU **H100** cada uno, en un proceso que duró aproximadamente 90 horas.

Las pruebas de rendimiento han demostrado que **OpenThinker-32B** supera a otros modelos de razonamiento de datos abiertos en múltiples benchmarks. Alcanzó un **90,6% de precisión en MATH500** y un **61,6% en GPQA-Diamond**, destacando su capacidad para resolver problemas matemáticos y científicos de alta complejidad.

En términos de impacto, OpenThinker-32B representa una contribución importante al campo de la inteligencia artificial. Su metodología de entrenamiento optimizada y su alto rendimiento lo convierten en una herramienta valiosa para investigadores y desarrolladores. Al ser un modelo de código abierto, fomenta la innovación y permite a la comunidad explorar nuevas aplicaciones en sistemas de razonamiento avanzado.

 


Este es un resumen comentado, basado en la noticia original de Sana Hassan publicada en MarkTechPost el 12/02/2025.

Puedes leer el artículo completo aquí: www.marktechpost.com/2025/02/12/meet-openthinker-32b-a-state-of-the-art-open-data-reasoning-model/


.

.

.

.

«`

Scroll al inicio
Verificado por MonsterInsights