[AUDIO_EN_BLANCO] [SONIDO] >> Hola, esta sección la vamos a dedicar a hablar de los árboles de clasificación. you hemos visto tanto a modo más genérico los conceptos básicos en arboles de regresión, así como un ejemplo con vuestro trabajo que estáis realizando con la plataforma Júpiter. Ahora vamos a hacer lo mismo, pero con los arboles de clasificación. Remarcad que básicamente las dos metodologías son las mismas, simplemente la diferencia está en que el objetivo está medido de forma cualitativa y eso hace que tengamos que estimar o representar el resultado de un modelo de un modo diferente. Y consecuentemente vamos a tener que hacer también la evaluación del modelo o la medición de la incertidumbre en base a esta nueva estimación. Esto a comportar esencialmente el cambio de algunos puntos que hemos ido comentando en los otros dos, en el caso de los árboles de regresión. Así que lo que haremos es ir repasando los pasos que habíamos comentado you anteriormente y vamos a dar énfasis a justamente a los cambios que suceden cuando estamos tratando de clasificación. Pero siempre con la referencia de que os ha quedado claro el caso de árbol de regresión. Bien, para empezar, recordemos el concepto de árbol, you lo remarcamos que no deja de ser un modelo que será en minería de datos lo que encontramos en big data y que al final responde siempre al mismo patrón de dado un objetivo, en este caso cualitativo, construir una respuesta utilizando un modelo y la medición de la incertidumbre de dicho modelo. Así que, en este mismo paradigma de siempre, otra vez el hecho de ser un árbol, volvemos a tener la misma representación a modo de ramificaciones como habíamos visto con el árbol de regresión y otra vez en abstracto podemos volver a pensar en los mismos tres pasos. Por un lado, que los vértices de dicha representación deben sugerir que representan particiones del conjunto de los datos, que cada nodo terminal nos está dando una parte del modelo del árbol, y que para hacer una nueva predicción requerimos de recorrer el árbol desde la raíz hasta un nodo terminal en función de cuáles sean las características de las variables predictoras de este nuevo caso. Así que, el esquema de actuación es el mismo y ahora simplemente vamos a entrar en detalle, en cómo se construye y por dónde, cuál va a ser la modificación que hay que hacer cuando estamos en clasificación, en lugar de regresión. Del mismo modo, fijémonos que ahora la idea de pensar que los vértices representan subconjuntos de la base de datos, esto va a ser lo mismo, solo que en este caso, en nuestros conjuntos de datos, van tener como variable respuesta una variable cualitativa, que tome categorías. Y you no vas a pensar en su comportamiento numérico, sino en cuántas veces aparece cada uno de los casos y cuando hacemos una partición de algún modo lo que estamos haciendo es variar esa proporción en que aparece cada uno de los valores que toma la variable respuesta en función de cuál haya sido la partición. Del mismo modo que decíamos que cada nodo igual que tenía un subconjunto de dos datos asociados, tenía un modelo relativamente sencillo, que en el caso de regresión correspondía a ser el promedio de la variable respuesta que observábamos en ese subconjunto de los datos. Ahora, con el modelo de clasificación es el mismo escenario, el modelo este sencillo, va a requerir calcular cuál es la proporción que observamos de cada uno de los valores de la variable respuesta en este subconjunto de los datos. Así que, a modo visual o en abstracto, pues tienes que pensar que en cada nodo la representación del modelo viene dado por un conjunto de valores, cada uno de los cuales haciendo referencia a la proporción observada de cada uno de los valores que toma la variable respuesta. A esto, fijaros que requiere cierta complejidad you de pensarlo, porque you no estamos viendo un cinco como veíamos antes, sino que vemos ciertos valores que corresponde cada uno de ellos a la probabilidad de que ese elemento pertenezca a cierta clase. Del mismo modo para hacer una predicción requerimos recorrer el modelo y a otra vez, hay que tener en cuenta que cuando estamos hablando de errores de clasificación o de regresión no estamos hablando de cómo son las variables predictoras, estos criterios para ir tomando diferentes decisiones podrían ser de tipo numérico, o de tipo categórico. Bueno pues entonces a modo esquemático repasando el concepto de árbol tal como lo habíamos visto, pues volviendo ahora a una dimensión mayor, pensando you en big data, teníamos una variable respuesta, teníamos un conjunto de variables predictoras y teníamos un conjunto de datos observados, de casos, o de filas en la tabla o individuos. Por la misma dimensión que tome, tanto por el número de variables como por el número de casos que observamos, pues tomaré la decisión de cuál es la partición que debemos hacer, va a ser realmente compleja, igual que pasaba en el caso de regresión. Así que la complejidad de cálculo no la vamos a entrar en detalle porque sigue siendo la misma, pero sí que ahora podemos entrar algo más en detalle en decir cuál va a ser el punto diferente, pues justamente este criterio de partición. Criterio de partición en el caso de las variables en un modelo de regresión nos quedaba, era muy claro desde el punto de vista didáctico, era muy fácil de entender, que lo explica que fuéramos a medir ese error, a través, pues como lo hacíamos de la suma de cuadrados. Ahora en el caso de las clasificaciones será el punto clave, cambiar este criterio. Igualmente, fijad que siguen habiendo dos retos, a la hora de decidir un árbol, uno de ellos es decidir cuál es el criterio de partición y el otro decidir cuál es el criterio para detenerse. Para poder pensar o para poder definir a un modo general cuál es el criterio de partición o qué opciones tenemos como criterio de partición en un árbol de clasificación es necesario introducir el concepto de pureza de un nodo. La pureza de un nodo a idea intuitiva viene a decir algo así como que si en un nodo terminal el número de clases que hay representadas es pequeño, es decir cuanto más homogeneidad observemos en un nodo mejor será el modelo. Puesto que dará menos incertidumbre o al menos intuitivamente vemos que va a ser más fácil utilizar el modelo para hacer la predicción. Así que, una manera de medir o de poder cuantificar cuál es el nivel de incertidumbre cada vez que hacemos una partición a fin de evaluar el método y utilizarlo como criterio de partición es utilizar alguna manera de medir esta pureza. Para hacer esta medición de la pureza existen varias maneras, la principal que hoy vamos a comentar es la del índice de Gini porque suele ser la que viene por defecto en la mayoría de algoritmos que tenemos en los softwares que utilizamos habitualmente. En el índice de Gini, por ejemplo, consiste en lo siguiente, vamos a calcular o sea os voy a explicar lo qué es la idea de cómo se calcula el índice de Gini en un nodo, en solo un nodo. El índice de que lo podríamos haber introducido cuando hicimos, cuando hacíamos regresión logística, pero que lo que es más interesante hacerlo en este contexto y así podemos enlazar el concepto de pureza de un nodo y el concepto de pureza de un árbol. La pureza de un nodo consiste en, dado cada nodo terminal observamos una serie de proporciones o de valores que corresponden a la proporción o la probabilidad de haber observado cada una de las categorías o clases de la variable respuesta. Pues bien, estos valores que le imputamos en cada nodo terminal si los hacemos al cuadrado y sumamos, este valor complementario, es decir, uno menos la suma de dos cuadrados de dichas proporciones, esto es el índice de Gini, por definición. Fijaros que, si estas proporciones son elevadas este valor realmente va a tomar un valor, o sea el índice de Gini realmente nos va a marcar cómo de puro es el nodo, cuanto más puro sea el nodo, menos clases vamos a ver representadas y más fácil dígamos va a ser tomar la decisión de cuál de ellas debería tomar. Otras medidas que se utilizan habitualmente es la entropía, conceptos de entropía, diferentes medidas de entropía y de deviance. Siguiendo, una vez se ha introducido este concepto, pues lo más importante en cuanto al concepto de modelo, o sea, árbol de clasificación como modelo y analizando su incertidumbre la diferencia clave con lo que you habíamos visto con los arboles de regresión, consiste justamente en la pureza de un árbol. Puedes entender cuál es la pureza de un árbol, pues aquí la idea es otra vez muy sencilla, igual que pasábamos el concepto de residuos en regresión de un árbol a analizar residuos de cada uno de los nodos terminales, aquí se hace del mismo modo. La suma de las purezas, las sumas de los índices de Gini, por ejemplo, de cada uno de los nodos va a corresponder o nos va a dar indicación de cuál es la pureza del árbol. Ahora bien, la suma de estos índices se debe hacer ponderada, ponderada por realmente el peso que tenga cada uno de los nodos. Y el peso que tiene cada uno de los nodos es del número de casos que contiene cada uno de los nodos. Es decir, en función de cómo de grande sea el nodo, en relación a cuántos datos contiene como subconjunto de los datos iniciales, este peso deberá ser trasladado como un peso en esta suma de los índices de Gini de cada uno de los nodos, índice de Gini o cualquier otra medida que utilicemos. Otra cosa importante y quizá la final you para remarcar, bueno quitando, o sea dejando claro que no dejamos de estar en un modelo de clasificación y que las técnicas que hemos comentado como la curva de error, es necesario especificar sensibilidad en cualquiera de estos que hemos ido viendo complementario con matrices de confusión y errores de mala clasificación hay que tenerlos en cuenta. Estos conceptos entendemos que los hemos venido repasando y que lo vamos a ver en más detalle en la práctica, así que ahora solo que para terminar remarcar el hecho de que en este contexto la variación externa toma una relevancia muy importante. Así que bueno en general los arboles, no olvidemos que es importante no solo hacer validación interna, sino también validación externa. [SONIDO] [AUDIO_EN_BLANCO]