[MÚSICA] [MÚSICA] Hola. Vamos a proseguir ahora con el modelo de Regresión Logística. Si previamente vimos el modelo de Regresión Lineal, ahora el modelo de Regresión Logística es el modelo adecuado, el modelo más empleado en estadística para intentar explicar variables que son binarias, variables de éxito-fracaso, variables cuyos valores son cero y uno. A diferencia del modelo de Regresión Lineal que pretende explicar variables de naturaleza puramente cuantitativa. El modelo de Regresión, para ejecutar el modelo de Regresión Logística necesitamos, lógicamente, primero, capturar los datos y luego llevar a cabo las transformaciones habituales generando las variables complementarias. Podemos proceder describiendo un poco la base de datos. Vemos que la variable de interés Retrasos tiene un 27% de casos positivos, pues un promedio de valores cero y uno. Vemos también que la variable Retraso está altamente relacionada con efectivamente el retraso en términos numéricos y el retraso en la salida. No muestra cierta… una correlación relevante con el día de la semana o con el horario en sí. Si bien Retraso es sí o no, dado que se encuentra registrado como ceros y unos pues podemos físicamente calcular las correlaciones e intentar explicar qué tipo, intentar medir qué tipo de asociación existe entre esta variable y el resto. También podemos representar en términos gráficos la relación entre nuestra relación de Interés y otras variables, por ejemplo, el retraso en la salida. Podemos ver cómo, cuando se produce retraso en la llegada, efectivamente hay un gran retraso en la salida, mientras que si no se produce retraso en la llagada, raras veces se produce un retraso en la salida. Para proceder con el ajuste del modelo de Regresión debemos, como es habitual, empaquetar las variables explicativas, predictoras o inputs, en una única columna que se va a llamar Features. También requerimos renombrar la variable Objetivo como Label. Y, finalmente, necesitamos en este caso que explícitamente la variable Objetivo tenga tipo Double. A continuación podemos mostrar cómo queda configurada la base de datos y podemos proceder a la definición del ajuste. Emplearemos Regresión Logística empleando como variable respuesta Label, como variables explicativas Features. También introducimos un parámetro de punto de corte que comentaremos todo seguido, cuyo valor es 0,5. Tras ejecutar el ajuste podemos observar los coeficientes del modelo. Estos coeficientes permiten generar magnitudes pequeñas o grandes. Estos valores que se van a llamar internamente Row Prediction. son los que, transformados, generan probabilidades de éxito y probabilidades de fracaso. Esta pequeña transformación es la responsable de expresar los coeficientes y los valores predichos a probabilidades. Podemos mostrarlo a partir de esta pequeña tabla comprobando cómo tenemos, disponemos de valores en unidades, en magnitudes, que se convierten a probabilidades. Esas probabilidades, finalmente, también son reconvertidas a valores predichos, empleando el punto de corte comentado anteriormente cuyo valor por defecto es 0,5. A continuación podemos comprobar las características de los datos originales. Vemos que hay un 27% de vuelos con retraso, mientras que la comparación se llevaría a cabo con los valores predichos para los cuales observamos tan solo alrededor de un 10% de valores con retraso. Aquí podríamos detectar que existe cierto decalaje y descompensación. Esto es un error de calibración del modelo. El modelo puede ser recalibrado justamente modificando el valor Punto de Corte en lugar de 0,5 a un valor posiblemente más bajo. El modelo puede ser ahora cuantificado. El ajuste del modelo puede ser cuantificado a partir de distintos índices. Uno de los más habituales es el área bajo la curva ROC. Posteriormente veremos más detalles sobre el concepto curva ROC y lo que significa el área bajo la curva ROC. Pero, ahora mismo, tan solo como medida para cuantificar el ajuste nos podemos quedar con que cuanto más alto, mejor: 0,5 como valor de ajuste es más bien un desastre y valores de 0,9 o más son especialmente buenos e interesantes. De esta forma el ajuste anterior tiene aquí un AUC, Área Under ROC de 0,9. Para el modelo de Regresión Logística también podemos aplicar las herramientas vistas anteriormente de regularización. La regularización nos permite seleccionar variables o despreciar algunas variables que no son de interés o que no contribuyen en exceso a la predicción del criterio de interés. Por este emotivo, en Regresión Logística también podemos indicar un parámetro de regularización: vendría a ser el peso, la magnitud λ, y un parámetro de penalización que permite indicar si queremos un penalización de orden o en norma L1 o en norma L2 o algo entre medio. Tras llevar a cabo el ajuste generamos nuevas predicciones. Aquí, nuevas predicciones. Los coeficientes del nuevo modelo vienen aquí representados para el ajuste en términos de Lasso Regression, de hecho, Lasso Logistic Regression, aquí tenemos un parámetro de regularización pues relativamente bajo para que tenga un peso relativamente pequeño y aquí indicamos justamente el criterio Lasso. Tras el ajuste vemos que los coeficientes finales son de este tipo: aquí tenemos el término independiente y tenemos que, de los nueve coeficientes, los que ocupan las posiciones 0, 1, 2 y 8 son justamente estos valores que hay aquí. Así pues hemos visto los detalles del ajuste de Regresión Logística. Nos queda ver la validación del modelo con un poco más de detalle. [MÚSICA]