Hola, soy Pablo Arbeláez. En este video hablaremos acerca de la historia de la visión por computador como disciplina científica. La organización de este video es la siguiente. Como introducción hablaremos acerca de la primera tesis en visión por computador. Después, describiremos los primeros 40 años de esta disciplina, desde los años 1960 hasta los años 1990. Hablaremos de los enfoques de bajo, medio y alto nivel con los que se estudió la visión artificial. Y describiremos sus primeros progresos. A continuación, hablaremos de la década de los años 2000 y del estudio de la visión como una ciencia empírica. Luego, cubriremos la última decada. Y veremos cómo las técnicas de aprendizaje profundo han permitido redefinir el estudio de la visión por computador. Finalmente, concluiremos con un resumen de lo aprendido. El inicio de la visión por computador tiene una fecha muy específica. Pues fue en 1963 cuando Lawrence Roberts, de la Universidad de MIT en Estados Unidos publicó la primera tesis doctoral en el área de la percepción visual. Su título es, Percepción de máquina de sólidos tridimensionales. Y su enfoque tuvo una gran influencia en el desarrollo de la disciplina. Enfrentado a un problema tan complejo como lo es el modelamiento del mundo visual y teniendo a su disposición la tecnología primitiva de los años 60. La solución de Roberts fue muy elegante, pues constituyó en crear un mundo simplificado, llamado un mundo de bloques. Y compuesto de figuras geométricas tridimensionales, como las que observan a la izquierda. La metodología que propuso Roberts fue dividir el problema en subproblemas más sencillos. Y proponer algoritmos concretos y específicos para abordarlos. El primer paso del procesamiento que propuso fue extraer los contornos de los objetos mediante operaciones de diferenciación. Esta detección de contornos es la primera abstracción que permite identificar en un catálogo de objetos tridimensionales, cuáles están presentes en la imagen y cuál es su pose o su punto de vista en la escena. Una vez se ha obtenido esta comprensión global del mundo visual, es posible representar los mismo objetos desde un punto de vista distinto. Como muestra la imagen de la derecha. Hoy en día, 60 años después de la tesis doctoral pionera de Lawrence Roberts. los investigadores seguimos tratando de resolver estos mismos problemas, esta comprensión de la imagen, pero ya no en un mundo de bloques, sino en el mundo real. Después de estos inicios, los siguientes 40 años fueron testigos del desarrollo de la visión por computador, como una de las ramas principales dentro de la inteligencia artificial. La metodología propuesta por Roberts, la de dividir el gran problema de la interpretación de la imagen. en problemas más concretos y abordables, se impuso en la comunidad de investigadores. y se separaron las distintas tareas visuales en tres grandes categorías. que emulan los conocimientos gruesos que teníamos en esa época acerca del funcionamiento del córtex visual humano. Primero, están las tareas de bajo nivel, semejantes a las que resuelven las etapas primarias, tempranas de nuestro córtex visual. Entre ellas está la detección de bordes. y también la reconstrucción de la geometría en tres dimensiones del mundo real. Después, están las tareas de medio nivel, como la segmentación y el agrupamiento. Que buscan poder extraer distintos objetos o regiones de interés de la imagen. Finalmente, están las tareas de alto nivel, como es el reconocimiento de individuos o de categorías de objetos. Esta edición de bajo, medio y alto nivel fue adoptada en los libros de texto de la disciplina y se convirtió en el paradigma principal para el modelamiento de la información visual en el siglo XX. Y una línea de tiempo que resume las distintas aproximaciones clásicas a la visión en el siglo XX. La inteligencia artificial ha estado en el corazón de las ciencias de la computación desde sus inicios, pues la creación de máquinas inteligentes era el objetivo último de Alan Turing cuando concibió sus máquinas de computación universal, así las llamaba él, en la Segunda Guerra Mundial. En la decada de los 60, cuando apenas empezaban a explorarse las aplicaciones civiles de los computadores, surgieron las primeras aproximaciones al procesamiento de imágenes digitales y al reconocimiento de patrones. Como la tesis doctoral de Roberts en 1963. Más adelante, en la década de los 70, se realizó un trabajo teórico fundacional en la formación de la imagen. Pioneros como Horn, Koenderink y Longuet-Higgins desarrollaron las herramientas matemáticas. que nos permiten entender cómo un mundo en tres dimensiones se proyecta en una imagen bidimensional. En los años 80, la comunidad de investigación de la visión por computador tuvo un rápido crecimiento. Y la disciplina se empezó a estudiar como una nueva rama de las matemáticas aplicadas. En esta década, se incluyeron herramientas conceptuales muy variadas, como el análisis geométrico, el análisis multiescala, el modelamiento probabilístico y la teoría de control y optimización. Después, en los años 90, la visión se fusionó con los gráficos. Y es el nacimiento de la realidad virtual como disciplina. En esta década, el análisis geométrico que permite la reconstrucción de un mundo tridimensional. Ahora a partir de múltiples imágenes, se completó en buena medida. Además de esto, en esta década se realizaron grandes progresos en el área del aprendizaje estadístico o machine learning. Las técnicas que hoy en día utilizamos, como las máquinas de soporte vectorial, los bosques aleatorios o las redes neuronales convolucionales, fueron todas desarrolladas en los años 90. El nuevo siglo trajo un nuevo paradigma para la visión por computador. Pues esta dejó de ser un área teórica para convertirse en una ciencia empírica. Y esto gracias a la emergencia de los marcos de referencia estandarizados, o benchmarks en inglés. Un benchmark es un marco experimental para estudiar un problema específico. ya no queremos resolver el gran problema abstracto del modelamiento de la percepción visual, sino que nos vamos a enfocar en un problema concreto. Como, por ejemplo, la detección de peatones de gran importancia histórica. Lo primero que necesitamos es una gran cantidad de imágenes del mundo real. Que sean representativas de la variedad esperada de la tarea visual que estamos estudiando. Frecuentemente, los datos originales para los marcos de referencia se descargan de Internet. En nuestro ejemplo, necesitamos recolectar imágenes mostrando peatones en los distintos escenarios en los que se encuentran habitualmente. Luego, necesitamos anotaciones realizadas por seres humanos para estudiar cada tarea. Estas anotaciones nos servirán para enseñarle al computador la categoría de objetos que queremos reconocer. Y también para evaluar su aprendizaje. En nuestro ejemplo, las anotaciones serían un rectángulo alrededor de cada uno de los peatones que aparecen en las imágenes. Además de esto, es necesario estandarizar los marcos experimentales y definir métricas de evaluación cuantitativa, que nos permitirán medir el desempeño de las máquinas. En nuestro caso, necesitamos una manera de cuantificar las detecciones correctas e incorecctas de peatones. Finalmente, el paradigma de los marcos de referencia se complementa con la filosofía del código abierto. Pues todos los recursos son públicos, los datos, las anotaciones, los códigos fuente, etc. De esta manera, se ha estandarizado el estudio de cada una de las tareas de la visión por computador, lo cual ha sido central para el gran éxito de esta disciplina en las últimas décadas. En la ultima década, el surgimiento de unas nuevas técnicas llamadas de aprendizaje profundo, o deep learning en inglés, ha significado una verdadera revolución de la visión por computador. Los tres niveles clásicos de aproximación en bajo, medio y alto nivel. dejaron de ser ramas aisladas que se estudiaban individualmente y se reorganizaron en tres grandes problemas, llamadas las tres Rs de Malik. En honor a Jitendra Malik, uno de los pioneros de esta disciplina. Estas tres Rs son la reconstrucción de la geometría tridimensional, la reorganización perceptual o segmentación, aquella que permite separar a los objetos del fondo. Y el reconocimiento, que permite poner en contacto la información visual percibida con mi conocimiento previo del mundo. Gracias a las técnicas de aprendizaje profundo. Estos tres grandes problemas se estudian hoy en día de manera conjunta. Y, además de eso, han aparecido nuevos problemas en su intersección, como por ejemplo, la segmentación semántica, que busca you no solo clasificar la imagen o extraer sus objetos de manera independiente. Sino que además busca asignarle una categoría de objeto visual a cada pixel de la imagen. En este ejemplo, queremos identificar a cada uno de los pixeles que pertenecen a los árboles, al pasto o al tigre. En conclusión, el acceso público de bases de datos, anotaciones y código disparó los avances de la visión por computador en el siglo XXI. El deep learning permitió el desarrollo de nuevos métodos de reconocimiento, reconstrucción y reorganización de manera unificada. Hoy en día, la visión por computador está en pleno crecimiento exponencial. Y todos los que trabajamos en esta área tenemos una inmensa ilusión por las maravillas que nos traerá la visión por computador en el futuro cercano. Muchas gracias por su atención.