Hola, bienvenido a este video tutorial, en el cual aprenderás cómo crear un modelo de regresión polinomial, pero ahora teniendo más de una variable predictora. Para ello, seguiremos los siguientes pasos: primero, prepararemos los datos para el modelado; luego, construiremos el modelo de regresión polinomial; después lo evaluaremos y finalmente vamos a comparar los resultados que obtendremos con los resultados de un modelo de regresión lineal. En este caso, vamos a utilizar de nuevo el conjunto de datos relacionado con la venta de vehículos. Recuerda que este lo usamos en los videotutoriales de los módulos uno y dos. Antes de comenzar, recuerda como siempre, tener Anaconda y Júpiter Notebook instalados en tu computador y el notebook con el conjunto de datos utilizados en este video tutorial, ubicados en la misma carpeta. Para comenzar, vamos a importar las librerías que necesitaremos. Y una vez hecho esto, podemos cargar los datos y confirmamos que es el mismo conjunto de datos de venta de vehículos que ya conocemos. Este tiene alrededor de 8.000 registros y nueve variables. Continuando con la preparación de datos, recuerda que un aspecto muy importante para tener en cuenta son los requerimientos de entrada en los algoritmos de aprendizaje. Cada uno de estos puede trabajar con un tipo de variable y es por esto que vamos a realizar las mismas transformaciones que se realizaron en el notebook de regresión lineal. Además, vamos a ejecutar los mismos pasos de limpieza de datos. Brevemente, para recordar, estos pasos en particular son: la eliminación de datos vacíos y duplicados, luego, la transformación de variables categóricas utilizando variables de dummies y finalmente la eliminación de columnas no significativas. Para la construcción del modelo, primero separamos la variable objetivo precio de las variables explicativas. Y ahora vamos a aplicar la transformación polinomial a las variables de entrada. Como primer paso, creamos un objeto de la clase PolinomikalFeatures desde sklearn y luego ajustamos y transformamos los datos. Antes de ver cuántas variables tenemos ahora, veamos un ejemplo sencillo. En caso de tener dos variables explicativas a y b, la transformación utilizando un grado dos nos retorna las siguientes columnas: primero una columna de unos, la cual es utilizada por el algoritmo de aprendizaje para encontrar el intercepto; luego, las columnas a y b; después a al cuadrado, seguido por la columna a por b, y finalmente la columna b al cuadrado. Como puedes ver, el resultado de la transformación polinomial con grado dos, no solo añade el cuadrado de las variables, sino que también la multiplicación entre ambas variables. Teniendo eso en cuenta, después de la transformación de nuestros datos utilizando un polinomio de grado dos, obtenemos un total de 105 variables explicativas para entender nuestro modelo. Continuando, realizamos la separación de datos obteniendo los conjuntos de datos de entrenamiento y test, y ahora, para entrenar el modelo, primero creamos un objeto de la clase LinearRegression y utilizamos la función fit sobre este objeto con los datos de entrenamiento. Ahora que ya entrenamos el modelo de regresión polinomial, podemos evaluarlo utilizando el conjunto de datos de test. En este caso vamos a utilizar las métricas de MSE, MAE y R cuadrado. Como puedes ver, similarmente que la vez pasada que trabajamos con este set de datos, el MSE, dada su magnitud de valor no es sencillo de interpretar, mientras que si calculamos su raíz cuadrada, es decir, el RMSE, podemos interpretar que el modelo tiene un error promedio de 210.851. Similarmente, con el MAE podemos fácilmente decir que cada predicción tendrá una media de error absoluto de 123.346. Por otro lado, con el R cuadrado, dado que está mucho más cerca a uno que a cero, podemos decir que logró ajustarse bien a los datos. Finalmente, vamos a realizar la comparación de este modelo con uno de regresión lineal. Recuerda que este modelo de regresión lineal lo construimos en el notebook del módulo dos y aquí se siguen los mismos pasos para crearlo y obtener sus métricas. Como puedes ver, el modelo de regresión polinomial presenta unos mucho mejores resultados. En el caso de las métricas relacionadas al error, el modelo de regresión polinomial muestra valores considerablemente menores. Y en el caso del R cuadrado, vemos un valor significantemente mayor, indicando que este modelo de regresión polinomial tiene una superior capacidad de generalización que el de regresión lineal. Listo. Para terminar, recuerda que, como hemos visto antes, la regresión polinomial también se puede hacer con grados distintos a dos, por lo cual te invito a que usando este notebook, que es de nuevo otro modelo de regresión polinomial, pero usando un grado distinto a dos, y que de nuevo compares los modelos por medio de métricas para determinar cual tiene una mejor capacidad de generalización. Dicho lo anterior, aquí se termina este video, con el cual espero ya estés en capacidad de crear modelos de regresión polinomial que involucren una o más variables explicativas. Y te espero en el siguiente video tutorial.