iconoLa nueva IA de Google para robots puede doblar delicados origamis y cerrar bolsas con cremallera sin dañarlas

Google DeepMind ha presentado Gemini Robotics, un modelo de inteligencia artificial que permite a los robots realizar tareas complejas con precisión y adaptabilidad, acercando la posibilidad de contar con asistentes robóticos humanoides en el futuro.

El 12 de marzo de 2025, Google DeepMind anunció dos nuevos modelos de inteligencia artificial diseñados para controlar robots: Gemini Robotics y Gemini Robotics-ER. Estos modelos buscan mejorar la capacidad de los robots para comprender e interactuar con el mundo físico de manera más efectiva y delicada que los sistemas anteriores, allanando el camino para aplicaciones como asistentes robóticos humanoides.

La industria de la robótica ha avanzado en el desarrollo de hardware, pero la creación de modelos de IA capaces de pilotar robots de forma autónoma en situaciones novedosas con seguridad y precisión ha sido un desafío. El llamado «IA encarnada» es un objetivo ambicioso para empresas como Nvidia y se considera un logro que podría convertir a los robots en trabajadores de uso general en el mundo físico.

Los nuevos modelos de Google se basan en su modelo de lenguaje grande Gemini 2.0, añadiendo capacidades específicas para aplicaciones robóticas. Gemini Robotics incorpora habilidades de «visión-lenguaje-acción» (VLA), lo que le permite procesar información visual, comprender comandos de lenguaje y generar movimientos físicos. Por otro lado, Gemini Robotics-ER se centra en el «razonamiento encarnado» con una comprensión espacial mejorada, permitiendo a los roboticistas conectarlo a sus sistemas de control de robots existentes.

Por ejemplo, con Gemini Robotics, se puede pedir a un robot que «recoja el plátano y lo ponga en la cesta», y este utilizará una cámara para reconocer el plátano y guiar un brazo robótico para realizar la acción con éxito. También podría doblar una figura de origami utilizando su conocimiento sobre cómo manipular el papel cuidadosamente para completar la tarea.

En 2023, Google presentó RT-2, que representó un paso notable hacia capacidades robóticas más generalizadas al utilizar datos de Internet para ayudar a los robots a comprender comandos de lenguaje y adaptarse a nuevas situaciones, duplicando el rendimiento en tareas no vistas en comparación con su predecesor. Dos años después, Gemini Robotics parece haber dado otro salto sustancial, no solo en la comprensión de qué hacer, sino en la ejecución de manipulaciones físicas complejas que RT-2 no podía manejar explícitamente.

Mientras que RT-2 estaba limitado a reutilizar movimientos físicos que ya había practicado, Gemini Robotics demuestra una destreza significativamente mejorada que permite tareas previamente imposibles, como doblar origami y empacar bocadillos en bolsas con cierre hermético. Este cambio de robots que solo entienden comandos a robots que pueden realizar tareas físicas delicadas sugiere que DeepMind podría haber comenzado a resolver uno de los mayores desafíos de la robótica: lograr que los robots conviertan su «conocimiento» en movimientos cuidadosos y precisos en el mundo real.

Según DeepMind, el nuevo sistema Gemini Robotics demuestra una generalización mucho más fuerte, o la capacidad de realizar tareas novedosas para las que no fue específicamente entrenado, en comparación con sus modelos de IA anteriores. La compañía afirma que Gemini Robotics «más que duplica el rendimiento en un punto de referencia integral de generalización en comparación con otros modelos de visión-lenguaje-acción de vanguardia». La generalización es importante porque los robots que pueden adaptarse a nuevas situaciones sin entrenamiento específico para cada una podrían trabajar algún día en entornos impredecibles del mundo real.

Para avanzar en este objetivo, Google ha anunciado una asociación con Apptronik, con sede en Austin, Texas, para «construir la próxima generación de robots humanoides con Gemini 2.0». Aunque entrenado principalmente en una plataforma de robot bimanual llamada ALOHA 2, Google afirma que Gemini Robotics puede controlar diferentes tipos de robots, desde brazos robóticos Franka orientados a la investigación hasta sistemas humanoides más complejos como el robot Apollo de Apptronik.

Para consideraciones de seguridad, Google menciona un «enfoque holístico en capas» que mantiene medidas tradicionales de seguridad robótica como la evitación de colisiones y las limitaciones de fuerza. La compañía describe el desarrollo de un marco de «Constitución Robótica» inspirado en las Tres Leyes de la Robótica de Isaac Asimov y la publicación de un conjunto de datos llamado «ASIMOV» para ayudar a los investigadores a evaluar las implicaciones de seguridad de las acciones robóticas.

«¿Cómo afectará la integración de modelos de inteligencia artificial avanzados como Gemini Robotics en la robótica humanoide al mercado laboral y a la interacción humana en el futuro?»

. .
.

Este es un resumen comentado, basado en el artículo : «Google’s new robot AI can fold delicate origami, close zipper bags without damage» de Benj Edwards publicado en Ars Technica el 12 de marzo de 2025.
. .

Scroll al inicio
Verificado por MonsterInsights