Hola. En este video vamos a hablar de diferentes problemas y técnicas que vamos a ver a lo largo de este curso. Vamos a introducir algunos conceptos, algo más técnicos, alrededor de lo que ya hemos estado comentando de un modo más genérico. Para empezar, vamos a distinguir dos enfoques en los diferentes tipos de problemas que vamos a hallar a lo largo del curso, y que vamos a tratar en este bloque de Data Science. Por un lado, tenemos los problemas que se enfocan en el marco de la modelización. Estos también son reconocidos como los problemas supervisados en el lenguaje de Machine Learning. Hay que decir que para el enfoque que hemos dado a este curso, estos dos conceptos van a ir muy ligados, en el sentido de que vamos a utilizar las técnicas desde dos diferentes puntos de vista. Otro tipo de problemas que hallamos en este campo son los que llamamos de segmentación o lo que correspondería, del mismo modo que antes, a las técnicas no supervisadas de Machine Learning. La diferencia entre ambas es ya entendida si tenéis cierto conocimiento en algunos de los campos pero, de modo más genérico, podemos pensar que los problemas de Modelización se enfocan en aquellos problemas que nuestro objetivo, nuestro problema, es modelar o intentar entender algún tipo de variable objetivo. En el caso de los algoritmos, o métodos no supervisados o de segmentación, nuestro objetivo es más de entender la estructura o complejidad de los datos. De este modo, problemas más relevantes como intentar entender o clasificar ciertas tipologías, construirlas o hacer algún tipo de clasificación de los datos, irían enmarcados en este aspecto de la segmentación. Para que quede un poco más claro estos conceptos, quizás, es interesante entrar así, de modo más general, en alguna de las técnicas desde el punto de vista de cada uno de estos enfoques. Para el caso de la modelización, podemos hablar de las técnicas clásicas en estadísticas, como regresión lineal, logística, que serían las que se enmarcarían en un enfoque más genérico, así como técnicas de árboles de regresión, random forest, redes neurales. Estos serían algoritmos o metodologías en Machine Learning supervisadas, o técnicas estadísticas que tienen por objetivo la modelización. Por otro lado, técnicas que se enfocan más en el marco no supervisado o de segmentación, tendríamos técnicas de clustering, así como otras basadas en métodos o extensiones de métodos de análisis de componentes principales o análisis factorial. Una vez aclarado cuál sería la clasificación de los diferentes métodos basándonos en el tipo de problema que tenemos, nos podríamos centrar un poco más en entender cuál es el tipo de objetivo de nuestro problema objetivo en modelizar. Basándonos en esto, tenemos dos enfoques básicos que vienen dados desde el mundo de la estadística o del mundo de entender los datos. Esta clasificación consiste en tener muy claro si el objetivo es explicar o predecir. Es muy importante entrar en detalle en que, dependiendo de este tipo de clasificación de nuestro problema, tendremos unas técnicas u otras a tener en cuenta, puesto que no todas las técnicas que hay hoy en el mercado o, de algún modo, se exponen en el mundo del aprendizaje, permiten hacer modelos explicativos. Esto es algo más complicado, así que hay que entrar en detalle que cuando nuestros objetivos de estudio se centren en entender ciertas causalidades o ciertas estructuras que dan sentido a nuestra solución del problema, deberemos hallarlo con métodos explicativos. Con los modelos predictivos es la modelización más general, la cual consiste simplemente en poder otorgar un valor a cierto objetivo. Estos dos enfoques, remarcar que es una clasificación que hacemos dentro del mundo de la modelización. Otra clasificación interesante a tener en cuenta es cómo clasificamos los diferentes problemas en base a cuál es nuestra variable objetivo, nuestro objetivo de respuesta. En función de si este objetivo es de carácter cuantitativo, hablamos de problemas de regresión. Cuando este objetivo es más de tipo cualitativo, hablamos de problemas de clasificación. Así, diferentes conceptos, como medida cuantitativa, escala, tasa, recuento, eso se identifica con un modelo de regresión, y en los otros casos en que las categorías o los "labels" de la respuesta sean un nombre finito, un nombre coherente de categorías, entonces hablamos de problemas de clasificación. Esta distinción entre regresión y clasificación es muy importante tenerla en cuenta, pues va a determinar cuáles van a ser nuestras metodologías de trabajo. Aquí resumimos los conceptos que acabamos de introducir, sobre todo, entrar en énfasis del tema de supervisado, el concepto que va relacionado con modelización y el no supervisado, con el de segmentación. Y como puntos claves, cuando hablamos de modelización o procedimientos supervisados, tenemos explicativos o predictivos y eso va en función de nuestro objetivo. Resumiendo el tema de no supervisado o el tema de segmentación, tenemos como dos puntos claves, si queremos construir tipologías o si queremos reducir la dimensión. Dependiendo de cada uno de estos casos, tenemos diferentes técnicas que aquí en este esquema puedes ver brevemente resumidas, pero simplemente a modo de ejemplo de algunas de las técnicas más habituales. Por último en cuanto a la nomenclatura que vamos a utilizar, fijar que cuando tenemos una variable objetivo, que tenemos en el campo de la regresión, a menudo se utilizan diferentes nomenclaturas o terminología para describirla. Es por esto que, a menudo, cuando queremos utilizar diferentes manuales, libros o cualquier referencia bibliográfica que esté a nuestro alcance para resolver algún tipo de problema de referencia, nos puede ser difícil de seguir. Así que algunas indicaciones pueden ser las siguientes, y es tener presente de que cuando hablamos de variable objetivo, también lo hallaremos como "respuesta" o "target" o "output", label, son diferentes conceptos que hacen referencia al mismo significado, pero en diferentes campos. Lo mismo sucede con todos aquellos valores que tenemos o toda aquella información que tenemos en nuestros datos que atentan a intentar modelar o predecir o simplemente entender la estructura de nuestros datos. Estas variables, mucho más genéricas que se apartan del objetivo, se resumen de varios modos dependiendo del ámbito. A veces hablamos de "features", de "inputs", a veces de variables predictoras, explicativas, co-variables y hay muchos conceptos más que vienen a referirse a exactamente al mismo elemento en nuestro trabajo como modelización. Para terminar, algunos casos prácticos más concretos que podéis ver aquí detallados y que os pueden servir de reflexión para intentar pensar cómo enfocaríais, cómo clasificaríais, según lo que hemos comentado hoy, cada uno de los casos. Por ejemplo, analizar la eficacia de un tratamiento o reconocer los dígitos manuscritos. Fijaros en este caso, es un clásico ejemplo que encontramos en este campo. Simplemente, uno tiene que tener en mente que los "inputs" o "features" son imágenes y los "output" o "variable objetivo" va a ser reconocer si esa imagen corresponde a un "uno", un "dos" o a diferentes dígitos. En este caso, fijémonos o remarquemos que tendríamos una variable objetivo y sería un problema de clasificación, pues nuestro problema no tiene complejidad en la variable objetivo, no podemos pensar que es cuantitativa, a pesar de que refleja un "uno" o un "dos", sino que es una categoría, si es la categoría que refleja el "uno", categoría que refleja el "dos". Así es un breve ejemplo de que, a veces, hay que pensar bastante el problema, antes de empezar a enfocar cómo vamos a resolverlo. Pues dejamos que acabéis de pensar cada uno de estos casos que tenemos aquí expuestos, y en el próximo video veremos cómo empezar a hacer nuestro análisis.