Hola. Esta semana estamos tratando el tema de la modelización desde un punto de vista didáctico con escenarios muy sencillos, así que vamos a pasar en este vídeo a hablar del resultado de la modelización, siempre en este escenario muy general. Esquemáticamente, volvemos a remarcar que el resultado de nuestro trabajo, cuando estamos con datos masivos, se puede generalizar, como respuesta del trabajo que hemos realizado, como dos componentes, el modelo y la incertidumbre. Una vez realizado el modelo, requerimos de unas etapas que son post calibración. Una vez hemos calibrado este modelo, esencialmente, tenemos de algún modo una primera, que es validar el modelo. Validar el modelo consiste en validar esas suposiciones o restricciones que hemos estado haciendo sobre los datos, de modo que no solo validemos como previo a la modelización, sino realmente que después nuestro modelo recoja esa información que le hemos impuesto. Una segunda etapa, que es medir la incertidumbre, es decir, una vez hemos calibrado el modelo, es importante ver qué capacidades tenemos para medir la incertidumbre. Ya hemos visto algún ejemplo en vídeos anteriores, que medir la incertidumbre, a veces, es relativamente sencillo, pero esos escenarios realmente se dan muy pocas veces. Una última etapa, de mejora del modelo. En general, cuando hacemos un modelo y medimos la incertidumbre de un modo u otro, requiere de otras etapas que consisten en mejorar ese modelo. Siguiendo con este ejemplo sencillo que hemos estado viendo en los anteriores vídeos, veamos un resultado muy sencillo del modelo lineal. Recordemos que habíamos hecho un modelo para la variable respuesta "Y" basándonos en "X". ¿Cuáles son, realmente, las piezas claves? Una vez tenemos el modelo, medir de algún modo o intentar validar de algún modo este modelo. Aquí, unas palabras claves o algo que realmente va a ser objetivo de estar observando en estas etapas post calibración son, fijarnos bien, por un lado, para cada valor de "X" tenemos un valor predicho. Es decir, el modelo nos impone un valor para la variable "Y" que no es, necesariamente, el valor "Y" que hemos observado. Unos residuos, que es la diferencia entre esto que realmente corresponde al valor "Y" y el que hemos predicho. Fijémonos que estos residuos, de algún modo, captan la capacidad de nuestro modelo para modelizar estos datos. Y, por último, algún tipo de medida como podría ser, en este caso, la media de los errores cuadráticos que resuman la calidad de estos residuos. Hay varias maneras de hacer esto, pero ésta realmente resulta la más sencilla para que obtengamos un primer ejemplo. Así que, fijémonos que, en este caso, obtenemos que la media de los errores cuadráticos, que simplemente es sumar los residuos, elevarlos al cuadrado y hacer la suma, hacer el promedio, nos da un valor "cinco". Este valor "cinco" nos viene a ejemplificar cuál es el promedio de error de estos datos. Esto realmente es una manera muy sencilla para entrar en el concepto de valor predicho, residuo y medida de error, o alguna manera de cuantificar la calidad de estos residuos. Más en general, entremos en las tres etapas que hemos comentado. La primera sería validación y, aquí, es importante entrar en cuáles son nuestros objetivos. En la etapa de validación, lo primero que uno debe hacer es contrastar esas hipótesis que había hecho sobre el modelo, pues si había supuesto normalidad sobre alguna componente o había supuesto algún tipo de relación, validar exactamente si antes de la calibración se cumplen, eso se debería haber hecho antes del modelo, y post modelo, ver si se siguen cumpliendo estas restricciones con el nuevo valor, con el nuevo modelo que hemos impuesto. Por otro lado, tenemos otro paso a realizar en la validación que iría en función de si nuestro modelo es predictivo o explicativo. Si nuestro modelo es simplemente predictivo, simplemente queremos predecir, pronosticar algún tipo de propiedad sobre la variable y la respuesta, entonces debemos pasar directamente a la etapa de medir la incertidumbre. Pero, si en el contrario, nuestro objetivo era, además de predecir, ser capaces de explicar, eso significa que de algún modo estamos suponiendo que la variable respuesta, además de tener el poder predictivo, o sea, nuestra respuesta de nuestro trabajo, además de tener un poder predictivo, tiene un poder explicativo, que significa que podemos interpretar de algún modo los parámetros que hemos ido obteniendo a modo de dar algún tipo de característica entre las relaciones de las variables, entonces, en este caso, además, necesitaremos contrastar ciertas propiedades o hipótesis que nos llevan a este modelo explicativo. En el caso más sencillo, sería el modelo lineal, que puede tener la capacidad explicativa, siempre y cuando se cumplan ciertas hipótesis del modelo lineal. Estas hipótesis deben contrastarse y se pueden consultar fácilmente en la literatura, pero solo haría hincapié en que en estos escenarios vamos a fijarnos, sobre todo y de modo muy resumido, en dos tipos de gráficos. Uno de los supósitos para que el modelo sea explicativo es la normalidad de los residuos, así que, una manera muy sencilla de chequear si realmente estos residuos son normales es hacer un sencillo histograma, como veis aquí abajo. Fijémonos que, en este caso, el resultado que obtenemos es este histograma que uno puede cuestionar bastante si es normal o no. Otro contraste que debemos hacer es ver, realmente, si los valores predichos por el modelo y los residuos son independientes. Entonces, una manera muy sencilla, no paramétrica, de poder contrastarlo es mirando, simplemente, un gráfico de puntos donde ploteamos, por un lado, el valor pronosticado de la variable con el modelo y, por el otro lado, el residuo de los modelos. Aquí, podéis observar que otra vez no parece ser un gran modelo, puesto que si existía algún patrón en las variables, entre la variable "X" y la variable "Y", no parece que haya desaparecido al observar el pronóstico, es decir, el valor predicho frente a los residuos. En cualquier caso, esto es como dos pruebas muy sencillas que uno puede hacer, como un primer análisis para validar un modelo para que tenga la capacidad explicativa. Vamos al paso de medir la incertidumbre. Así que, fijémonos que este sería el paso más importante en validación si estuviéramos en un escenario de modelo predictivo. Para medir la incertidumbre, debemos comparar de algún modo los valores reales, los valores que tenemos en nuestros datos sobre la respuesta, y los que hemos predicho. Así que este es el objetivo básico, ser capaces de cuantificar esta relación entre valores reales y valores predichos. La manera de hacer estas cuantificaciones dependerá de si nuestro problema es de regresión o de clasificación, porque fijémonos que en un problema de regresión, como hemos hecho antes en este ejemplo tan sencillo, simplemente, para ver los residuos, miramos la diferencia entre el valor real y el valor predicho. Podemos hacer la diferencia, podemos hacer la resta, porque son valores numéricos pero, en general, para un problema de clasificación no podremos hacer eso y debemos contar o cuantificar de algún modo otras propiedades. Así que, como métodos generales, en métodos de regresión podemos hacer la media de los errores cuadráticos, como hemos visto en el ejemplo, y aquí, otros estadísticos importantes que nos cuantifican sería el "R" cuadrado y otros. También tenemos otras medidas como podría ser, en lugar de hacer la media de los errores cuadráticos, mirar cuál es el promedio de los valores, de la diferencia en valor absoluto. Y existen muchas otras medidas. Fijémonos que el hecho de que sean cuantitativas, tanto el valor real como el predicho, nos permite mucho juego en cuanto a ir escogiendo diferentes medidas. Es importante tener en cuenta que estas medidas o la medida que escojamos irá en función de cuál sea nuestro objetivo, y uno debe tener claro desde el principio cuál va a ser su diseño. Veremos, realmente, con algún ejemplo concreto, quizás va a ser un poco más interesante para que podáis entender cuándo debemos tomar este tipo de decisión. Para modelos de clasificación, como os podéis imaginar, si mi valor objetivo toma categorías y el que predice el modelo también toma categorías, la única manera que tengo es, de algún modo, cuantificar esta relación entre lo que era real y lo que he predicho. Y, ¿cómo lo hacemos?, pues, contando, por ejemplo, con diferentes estadísticos que se conocen como prevalencia, especificidad, etcétera. Hay muchos otros conceptos que nos permiten cuantificar diferentes propiedades entre la relación, entre lo observado y lo predicho. Una pieza importante son las matrices de confusión en que nos relaciona, a través de una matriz, cómo se combinan los diferentes recuentos de combinación de casos observados con casos predichos. Por último, en cuanto a medidas de incertidumbre, tener en cuenta que en el proceso de validación que hemos hecho anteriormente, también obtenemos otras medidas, obtenemos algunos valores que nos permiten también medir la incertidumbre, como puede ser lo que se conoce como "accuracy", "precision", "recall". Hay otras palabras que las dejamos así en inglés puesto que son más fáciles de hallar en la literatura así. Por último, las mejoras del modelo. El último paso que uno hace, cuando ya tiene el modelo calibrado y ha hecho este tipo de pruebas, es plantearse mejorar el modelo. ¿Cómo podemos mejorar el modelo? Una de las maneras, que también se hace como previo al análisis, es crear nuevas variables, transformar los datos de algún modo, podemos estandarizar los datos, esto suele ser muy útil en algunos escenarios. Y es interesante contrastar el modelo antes de estandarizar y después de estandarizar, porque nos da algunas pistas de algunos comportamientos de escala de nuestra respuesta. Y otros procesos, con la finalidad de simplificar, de algún modo, la información que hoy tenemos en estos conjuntos de datos. Otra manera de mejorar el modelo podemos hallarla en cambiar la técnica de calibración. Podemos cambiar la técnica de calibración del modelo, obtener otros valores de los parámetros y, probablemente, dependiendo de cuál haya sido el resultado, obtener mejores resultados. Por último, otra técnica importante son las técnicas de penalización. Así, dicho en general, podéis pensar que si hacéis modelos muy complejos, con muchos parámetros, una primera idea es pensar de penalizar de algún modo el modelo, para que utilice muchos parámetros que utiliza algún tipo de penalización, o que de algún modo podamos regularizar cuál es la respuesta del modelo. Cualquiera de estas maneras de imponer información sobre la técnica de los parámetros puede mejorar, puede ayudarnos a mejorar el modelo. Estos serían los puntos más importantes en cuanto a mejoras de modelo, pero, cualquier otro análisis que hagamos que nos aporte información y que seamos capaces de contrastar, también nos va a ayudar. Esto sería todo para esta sesión.