En este video, Carlos Santana explica cómo se ha convertido una de las inteligencias artificiales más avanzadas en una especie de «puente de San Francisco». La interpretabilidad de modelos busca entender las activaciones y conexiones neuronales en las IA. Un experimento de Antropic revela una IA obsesionada con el puente, utilizando autoencoders para descomponer activaciones neuronales. Esto permite una mejor comprensión y control de los modelos de lenguaje. Además, se destaca cómo OpenAI ha adoptado técnicas similares para mejorar la interpretabilidad y seguridad de sus modelos.