Hola. Vamos a seguir con el temario de esta semana, que consiste en entender un poco cuáles son los puntos clave en las técnicas de minería que se utilizan en Big Data. Los modelos que estamos viendo o que estamos introduciendo tienen cierta complejidad, pero a pesar de ello vamos a intentar dar algunos puntos claves o algunas pautas para entender de algún modo qué hacen estos algoritmos cuando intentan calibrar este tipo de modelos. En concreto, nos vamos a dedicar, para empezar, a los árboles de regresión. Nos centramos en este punto porque es el más sencillo desde el punto de vista didáctico. Y hoy lo que vamos a hacer va a ser centrarnos exclusivamente en ese punto clave que consiste en cuál es el diseño, de algún modo que está latente en un árbol de regresión. Para entender esto, vamos primero a introducir o vamos a hablar un poco del tema de qué es un árbol. Un árbol de regresión, como un método, como un árbol en general, como modelo de predicción, ya era utilizado hacia los años 63 en el ámbito de las ciencias sociales, pero no fue hasta el año 84 cuando realmente adquirió cierta complejidad de formulación para aportar a una solidez desde el punto de vista estadístico. Y fue en el año 93 donde se introdujo este concepto en el ámbito del "machine learning". En general, no vamos a centrarnos en hablar de la historia de los modelos, pero aquí es interesante para que veamos nuevamente que estas estructuras que utilizamos habitualmente en el mundo de Big Data son realmente muy antiguas y están fundamentadas desde las ideas básicas que nacieron hace muchos años y en ámbitos muy diversos. Para simplificar un poco más también, cuando hablemos de árboles, siempre vamos a centrarnos en los árboles binarios. Un árbol, si vemos un poco el gráfico, consiste en este proceso como de ramificación que podéis ver. Cuando decimos "binarios", es porque la ramificación es de dos en dos cada vez. Pero podríamos construir cosas mucho más complejas. Pero vamos a centrarnos en el caso más sencillo para poder entender un poco la metodología. La principal ventaja que tiene un árbol, en general, y por eso su largo recorrido histórico, ha sido la fácil interpretación de los resultados. Quizá más allá de que sea fácil, es sencillo de entender cuál es exactamente el impacto de los diferentes covariables o variables predictoras que intervienen en el modelo. Para poder entender los árboles. vamos a centrarnos en esta sesión en lo que introducía, que es entender cuáles van a ser los puntos claves en un árbol o en el proceso de modelo de un árbol. Y lo vamos a hacer repasando qué es lo que hacíamos cuando hacíamos un modelo lineal. Cuando hacíamos un modelo lineal, recordemos que teníamos una variable predictora X, una variable respuesta u objetivo Y, y a través del modelo construíamos unos valores predichos que venían de imputar según el valor de X, un valor para la variable Y en función de cuál era el valor que le correspondía en esta recta que podéis ver en el gráfico. La manera de medir la incertidumbre de este modelo, recordad que era a través de sumar la diferencia de cuadrados entre el valor real de la variable y el valor predicho. Entonces esto si queréis gráficamente, representa a sumar las instancias verticales que podéis ver entre cada uno de los puntos y del correspondiente punto en la recta. En la medida que utilizábamos global para medir la incertidumbre de este modelo, era el "Mean Square Error", que consistía en hacer la suma de los cuadrados de estas diferencias y promediarlo. Así que, recordad que teníamos un valor de 5 para "Mean Square Error". Lo que vamos a introducir o la metodología más básica en el mundo de los árboles es, ahora no pensaremos en el "Mean Square Error" porque interviene el concepto de promedio, que significa que tengo que utilizar la información de cuántos individuos estoy observando y esto me podría producir ciertos sesgos. Me voy a centrar simplemente en la suma de los cuadrados. Así que, en el modelo lineal teníamos una suma de cuadrados que llamaremos "residuales", SCR, que obteníamos que era de 59,6. Así que, ahora no voy a pensar en el 5 de promedio, sino el 59,6. Ese va a ser mi valor de referencia como manera de evaluar el error. ¿Y en base a qué voy a poder decidir si es un buen resultado o malo? En base a compararlo con el modelo más sencillo que se hizo. ¿Recordáis? El modelo más sencillo que llegamos a hacer el primer día era el modelo que consistía en poner como valor predicho el promedio de la variable respuesta. Entonces, si el valor predicho en este caso de la variable respuesta es 6, podéis ver en la columna gris como este modelo tan sencillo se puede representar del mismo modo que lo hemos hecho con el caso lineal, poniendo para cada valor predicho el valor 6, siempre el mismo. Del mismo modo, haremos la suma de los cuadrados de las diferencias y obtendremos en este caso un valor de 74,7. El hecho de que sea el modelo más sencillo hace que ese valor 74,7 se vuelva un valor de referencia y es el que vamos a llamar suma de cuadrados totales. De algún modo, puedo cuantificar cómo de bueno es el modelo lineal, comparando cómo ha variado este suma cuadrados totales, es decir, si mi error de algún modo era como un 74, en abstracto, ahora con el modelo lineal obtenía un 59. La proporción de mejora ha sido de un 20 por ciento. He reducido un 20 por ciento. Fijaros, no tengo que pensar en qué unidades estoy midiendo y solo me preocupo del porcentaje de variación. Este R cuadrado es el porcentaje de variación, y se denomina coeficiente de determinación, que también coincide con el cuadrado del eficiente de correlación, que es muy conocido en el ámbito de la estadística. Esta va a ser la metodología para medir, para evaluar y siguiendo siempre el marco que habíamos introducido con modelos lineales. Algo que podemos encontrar entre ese modelo tan sencillo y este modelo más complicado, el modelo lineal, sería este que estáis viendo aquí, que consiste en decir "vamos a construir un modelo que sea casi tan sencillo, pero añadiendo un poco de complejidad". ¿Cómo? Fijémonos, la idea va a ser, en este caso, el ejemplo que se ha escogido es vamos a partir el conjunto de datos en 2 trozos. Uno, aquellos individuos que tengan un valor de la predictora X menor que 2,5 y otro conjunto de puntos que tengan un valor de X como variables predictoras mayor que 2,5. Así que podéis ver que están separados por esta línea naranja en dos conjuntos y para cada uno de los conjuntos puedo promediar la respuesta del valor de Y, ahora en lugar de tener un modelo tan sencillo, este modelo sencillo que solo imputaba un valor de 6 para todos, ahora imputo dos valores diferentes. En este caso, por un lado, tengo el 4,7, y para el otro conjunto tengo el 6,8. Este es un modelo casi tan sencillo como el anterior. Del mismo modo, sumemos el cuadrado de las diferencias y veamos cuál es la suma de cuadrados residuales y evaluemos cuál ha sido la mejora del modelo. En este caso tenemos un valor de 61 y eso corresponde a un R cuadrado, un 18 por ciento. Con el modelo lineal teníamos un R cuadrado, una capacidad explicativa de un 20 por ciento y ahora un 18 por ciento. Claro que es menor, pero tampoco hay tanta diferencia. En general, el modelo, pensad, tengamos en mente que este modelo es mucho más sencillo. Ahora ha escogido el punto 2,5 de punto de corte. Podría cambiarlo, podría tomar otro punto de corte. Fijémonos que ahora en este otro ejemplo se toma el valor de 5,1 como punto de corte y en base a esto se vuelve a construir 2 conjuntos de datos. Para cada uno de ellos se promedia el valor de la variable y vuelvo a obtener un modelo casi tan sencillo como el de promediar la variable respuesta ahora con 2 promedios. En este caso, podemos observar que al final, en base a la suma de cuadrados residuales, que fijémonos que ha descendido muy poquito, ahora sigue siendo un 71. Es decir, siempre el valor de referencia, mi suma de cuadrados totales, que era un 74. Y ahora tengo 71. Es como que he mejorado o soy capaz de explicar con este modelo un 4 por ciento, es muy poquito. Así que, ya vemos intuitivamente que entre las 2 particiones que acabamos de ver, entre partir entre el 2,5 y el siguiente, el anterior era mejor. El modelo es sencillo y simplemente escogiendo un buen punto de corte, quizás puede obtener un resultado casi tan bueno como con el modelo lineal. Y este es un poco la idea básica para construir los árboles. En la próxima sesión vamos a ver cómo este concepto tan importante que es construir modelos casi tan sencillos, como el de promediar la respuesta, va a permitirnos realmente construir modelos mucho más complejos que un modelo lineal.