[MUSIK] Bienvenidos de nuevo en este último módulo del curso de clasificación de imágenes, en el que vamos a ver temas que no son estrictamente en back-off words, pero que son relevantes para el proceso de clasificación de imágenes. Hasta el momento lo que tenÃamos era nuestra estructura de clasificación. TenÃamos una fase de extracción de caracterÃsticas, con detección, descripción, una fase de representación, una fase de pirámides espaciales y una fase final de clasificación. Se conoce como esquema de bag-of-words. habitualmente la mayorÃa de bibliografÃa, en la idea de obtener una representación para la imagen compacta en un único vector, que viene representada por el histograma de las palabras más representativas para cada uno de los puntos. Cogemos un punto, vemos que palabra es la más representativa de ese punto. Asà para todos los puntos de esa imagen y vemos cuántas de cada una de las palabras hemos obtenido en esa imagen, y eso es nuestro descriptor. Hay una fase previa que es la construcción de ¿cuál es el vocabulario que vamos a usar? Bien, esta idea de histogramas de las palabras es lo que incluirá el esquema de bag-of-words. Después la fase de clasificación, es una fase tÃpica que se puede aplicar a un montón de programas. En este vÃdeo vamos a intentar modificar el comportamiento de esta construcción de vocabulario de representación de la imagen, este esquema de bag-of-words. De ahà el más allá de bag-of-words. Vamos a intentar hacer lo mismo pero saliendo del esquema de histograma. La primera propuesta es usar lo que se llama Soft assignment, y lo que vemos es que en Kmeans tenemos dividido el espacio en regiones que son excluyentes. La primera observación es que si cogemos un punto de la imagen y lo ponemos en nuestro espacio de palabras, este punto lo asociaremos a una palabra pero vemos que está cercano a otras palabras. Y por qué n,o estas palabras pueden también entrar en la representación de este punto. ¿Cómo hacerlo?, es lo que vamos a proponer como primer punto. La siguiente fase es por qué no pasamos a un nivel superior y en lugar de decir tenemos áreas que son excluyentes de forma, lo que llamamos dura hard encoding, por qué no hacemos que estas zonas sean más suaves. De manera que si tenemos un montón de puntos, nuestra nube de puntos que extraemos de la imagen. Lo que vamos a hacer es intentar hacer un tipo de Kmeans, en la que la decisión de dónde separo, no sea binaria, si o no, estás o no estás. Con lo cual lo que vamos a obtener van a a ser distribuciones de cuál es la probabilidad de que ese punto esté representado por esta palabra, por esta palabra o por esta palabra. Bien, la siguiente propuesta es utilizar un esquema en que mezclemos la parte de asignar más o menos suave y construir más o menos suave. Lo que hacemos es usar la evidencia de que, si un punto lo deberÃamos asignar a esta palabra. Cuanto más se aleje el punto del centro de del centro de la palabra, más difÃcil es que esta palabra explique el punto, dé información del punto. Pero esto no es cierto siempre. Si nos vemos en esta dirección, no es cierto porque el punto este va a ser unÃvocamente descrito por esta palabra y no por estas dos palabras de aquÃ. Con lo cual vamos a tener un modelo un poco más complejo. La simplificación de este modelo es tomar la estructura de Kmeans que you tenÃamos y usar esta misma idea. Mirar a que distancia está cada uno de los puntos de este centro. Esta misma idea, pero muy simplificada, será simplemente tomar el centro de de la palabra, el centroide, y restarlo del punto, integrarlo de alguna forma. El punto final, el tema final que vamos a tratar, es un tema que está muy en boga hoy en dÃa. Está saliendo en mass media continuamente, que son las redes convulsionales. Las redes neuronales convulsionales que son los que están explorando los resultados de la inteligencia artificial. Con un esquema que intenta mimetizar, intenta simular lo que serÃa el comportamiento de las neuronas en el cerebro humano, en el cerebro de algún ser vivo. La desventaja que tienen es su complejidad y la cantidad enorme de datos que van a necesitar. Esperamos que los siguientes videos sean de vuestro interés.