[MUSIC] Hola, soy Pablo Arbeláez. En este video hablaremos acerca de una familia de métodos de aprendizaje automático. Llamados métodos de aprendizaje profundo, o de deep learning en inglés. Y que han revolucionado en la última década la disciplina de la visión por computadora. La organización de este video es la siguiente. Primero hablaremos del contexto histórico en el que aparecieron los métodos de aprendizaje profundo. Después describiremos su impacto en el área del aprendizaje automático. Luego, hablaremos de las redes neuronales convolucionales. Que son unas técnicas de deep learning especializadas para el análisis de imágenes. A continuación, describiremos cómo estas técnicas fueron utilizadas en todas las tareas de visión por computador. Desencadenando una verdadera revolución en la disciplina. Más adelante, haremos una breve introducción a los transformers visuales. Que son una familia de técnicas de aprendizaje profundo con un inmenso potencial. Finalmente, se plantearán algunas conclusiones. [MUSIC] Hablemos primero del contexto histórico de la aparición del aprendizaje profundo. Las redes neuronales convolucionales son un método de aprendizaje supervisado clásico. Que fue propuesto en los años 1980 por Yann LeCun para la clasificación de dígitos manuscritos. Sin embargo, su auge no se dio sino hasta 30 años después y esto gracias a dos factores clave. Por un lado, el avance exponencial del poder computacional. Y, por otro lado, la aparición de grandes bases de datos públicas. Desde los comienzos de la computación para fines civiles en los años 60. La industria de los semiconductores se trazó una hoja de ruta para su desarrollo conocida, como la ley de Moore. Y que planteaba duplicar la capacidad de los computadores. En términos del número de transistores, cada 18 meses. En los últimos 50 años, este crecimiento exponencial del poder computacional. Ha permitido que por ejemplo, el procesador de nuestros teléfonos celulares. Sea órdenes de magnitud superior a los mainframes de los años 70 que ocupaban varias habitaciones. [MUSIC] En el caso del aprendizaje profundo, las tecnologías computacionales claves son. Las General Purpose Graphic Processing Units o GPGPUs, por su sigla en inglés. [MUSIC] Las GPUs fueron originalmente desarrolladas para la industria de los videojuegos. Y en vez de poseer unos pocos procesadores poderosos. Su característica principal era que poseían un gran número de procesadores pequeños que operaban en paralelo. Esta forma de procesamiento es ideal para el análisis de imágenes. Puesto que permite analizar simultáneamente todo el contenido visual. Las GPUs modernas cuentan con miles de procesadores. Que son casi tan poderosos como los de los computadores de escritorio. Es decir, una sola de estas tarjetas gráficas tiene el poder conjunto de miles de computadores corrientes. El segundo factor que favoreció la popularización de las técnicas de aprendizaje profundo. Fue la aparición de grandes bases de datos disponibles para el público general, a través de Internet. La más importante de la historia de la visión por computador se llama ImageNet. Y es un desafío de reconocimiento visual a gran escala. En el cual los computadores debe clasificar 1 millón de imágenes. Pertenecientes a 1.000 categorías de objetos distintas. La existencia de computadores cada día más poderosos, y de grandes base de datos públicas. Permitió el desarrollo de modelos mucho más grandes y complejos que los que había hasta ese momento. De ahí el nombre de aprendizaje profundo o de deep learning. Este diagrama muestra un ejemplo de clasificador supervisado, llamado red neuronal. Que combina las entradas de la izquierda por medio de múltiples capas ocultas. Hasta producir un resultado a la derecha. Gracias entonces, a las GPUs, y a bases de datos como ImageNet. Podemos entrenar modelos como estos, con millones de parámetros libres. Lo cual nos permite, por supuesto, estudiar problemas mucho más complejos. En el caso específico de las imágenes, esta complejidad adicional. La utilizamos para aprender directamente patrones en dos dimensiones en las imágenes. Como en el ejemplo que observamos a la derecha. Estas son las llamadas redes neuronales convolucionales, y contienen muchas capas de procesamiento. Las primeras capas analizan porciones pequeñas de la imagen mediante operaciones de convolución. Y las capas siguientes analizan los resultados de las primeras. De esta manera, vamos obteniendo una comprensión cada vez más global de la imagen. Hasta poder tomar una decisión final, como por ejemplo, la clasificación en una categoría. Este fue precisamente el modelo propuesto con éxito por Yann LeCun en los años 80. Para el reconocimiento de dígitos manuscritos. Y que luego fue extendido en el 2012 para la clasificación de las 1.000 categorías de imágenes en ImageNet. Las redes convolucionales representan un cambio radical en el paradigma. Respecto a los otros clasificadores supervisados clásicos. Antes del deep learning, el procedimiento usual era extraer a partir de la imagen un vector de características visuales. Representando, por ejemplo, el color, la forma o la textura de los objetos. Sobre este espacio de representación se entrenaba, entonces, un método de clasificación supervisada usual. Como las máquinas de soporte vectorial o los bosques aleatorios. Con el fin de asignarle una etiqueta de categoría visual a la imagen. Las redes convolucionales, por el contrario, toman como entrada directamente la imagen original. Sin ningún preprocesamiento y sin ningún espacio de representación intermedia. Esto permite que las CNNs por su sigla en inglés. Aprendan internamente un espacio de representación óptimo. Para realizar la tarea de clasificación deseada. La red neuronal más famosa de la historia de la visión por computador. Se llama AlexNet, en honor a su inventor Alex Krizhevsky. Quien junto con su asesor Geff Hinton desarrolló en 2012 una red convolucional. Que venció por un amplio margen a todos los métodos previos de clasificación de imágenes en ImageNet. En el diagrama que observan, la imagen original está a la izquierda y los distintos rectángulos. Representan bloques de procesamiento cada vez más profundos y complejos de la información visual. Hasta llegar a la derecha a una clasificación en 1.000 categorías de objetos. El éxito de AlexNet disparó la popularidad del aprendizaje profundo. Convirtiéndolo en uno de los términos más buscados en los motores de Internet. El éxito del aprendizaje profundo en el problema de reconocimiento visual. Pronto se extendió a los otros dos grandes problemas de la visión por computador. El reagrupamiento perceptual y la reconstrucción tridimensional. Reconocimiento, reagrupamiento y reconstrucción, son llamadas las 3 Rs de Malik. En honor a uno de los principales investigadores de la disciplina. Históricamente, estos problemas habían sido estudiados de manera independiente. Con técnicas específicas para cada uno de ellos. Sin embargo, el deep learning se convirtió rápidamente en una tecnología transversa. Que permitió estudiarlos simultáneamente y que dio origen a nuevos problemas. Como el de la segmentación semántica, que se encuentra en la intersección entre reconocimiento y reagrupamiento. Puesto en que consiste en asignarle una etiqueta de categoría visual a cada píxel de la imagen. [MUSIC] Naturalmente, las arquitecturas de las redes convolucionales. Evolucionaron hasta adaptarse a estas nuevas tareas. Por ejemplo, en el caso de la segmentación semántica. you no es suficiente tener un codificador como el de AlexNet para predecir una categoría en toda la imagen. Necesitamos ahora una red gemela, llamada decodificador. Que convierte esa información global de categoría visual. En una predicción más fina, a nivel de cada uno de los píxeles. Otro ejemplo, es el del flujo óptico o el del análisis de movimiento. En el que queremos predecir el movimiento aparente de cada píxel entre dos cuadros de un video. En este caso, necesitamos dos codificadores que analicen simultáneamente los dos cuadros del video. Y, luego, un módulo que correlacione esta información para predecir en cada píxel un vector de movimiento. [MUSIC] Además de permitir grandes progresos en las tareas clásicas de visión. El aprendizaje profundo ha permitido también definir nuevas tareas visuales. [MUSIC] Además de la segmentación semántica, en la cual asignamos una etiqueta de categoría a cada píxel. Ahora tenemos también la segmentación panóptica. Que permite analizar ocnjuntamente todas las categorías visuales. Otros problemas importantes son, por ejemplo, el rastreo de objetos en los videos. Y, desde hace pocos años, la generación de imágenes. Que permite al computador inventar por ejemplo, caras de personas que nunca han existido. Por otro lado, nuevas modalidades de adquisición han permitido que el aprendizaje profundo. Redefina las tareas de reconstrucción tridimensional. Finalmente, otro problema en el cual se han realizado inmensos progresos recientes. Es el de reconocimiento facial de los seres humanos. [MUSIC] En la última década, el aprendizaje profundo ha revolucionado de manera paralela. Todas las otras ramas de la inteligencia artificial. Permitiendo así una convergencia de las técnicas y la definición de problemas más complejos. Un ejemplo de esto son los transformers visuales, la última novedad del reconocimiento. Estas técnicas fueron planteadas en 2018 para procesamiento de lenguaje natural. Y se basan en los llamados mecanismos de autoatención. En los que, en cada etapa de procesamiento, todas las entradas de la etapa anterior se comparan entre sí. Para determinar su importancia relativa respecto a la tarea final. De esta manera, los transformers aprenden cuáles son las partes clave de los datos de entrada a las que hay que prestar atención. Esta manera de operar es muy distinta a la de las redes convolucionales. Puesto que los transformers no se basan en operaciones de convolución. Hoy en día, los transformers obtienen mejores resultados que las redes convolucionales. En las tareas principales de reconocimiento. En esta gráfica, la línea azul muestra el método del estado del arte en ImageNet, desde el año 2014 hasta la actualidad. Y podemos observar cómo desde el 2021 el mejor método es un transformer visual. En conclusión, el avance computacional junto con la creación de grandes bases de datos. Impulsó el desarrollo de la visión por computador. Mientras que las redes neuronales convencionales, trabajan con datos de una sola dimensión. Las redes convolucionales procesan datos en dos dimensiones directamente. Sin necesidad de crear un descriptor de apariencia intermedio. Por otro lado, no solo hemos experimentado inmensos avances para la clasificación. Sino que la visión se ha diversificado hacia otras áreas como la segmentación. La generación de imágenes, el seguimiento de objetos, entre otras. Finalmente, en la actualidad, nuevas familias de métodos están siendo desarrolladas. Y, entre ellas, los transformers visuales you están imponiendo un nuevo estándar para las tareas de visión. Muchas gracias por su atención. [MUSIC] [MUSIC]