Estamos llegando a un punto donde la combinación de los modelos de Deep Learning de visión y lenguaje nos están ofreciendo herramientas realmente increíbles. Hoy hablaremos de CLIP, un potente modelo capaz de comprender el contenido de imágenes y asociarlas con su descripción correspondiente. ¿Para qué sirve esto? Mira el vídeo y descubre el potencial que hay tras la unión de la visión por computador y el procesamiento del lenguaje natural.
INDICE DEL VÍDEO
00:00 Intro
01:38 Problemas de la Visión por Computador
04:51 ¿Qué es CLIP?
07:50 Pausa para el café
08:10 ¿Qué nos aporta CLIP?
10:03 Demo de CLIP
10:55 Modelos más versátiles
11:51 Visualizando las neuronas de CLIP
14:13 StyleCLIP
15:28 Ataques Tipográficos
16:24 Final