[MUSIC] Bienvenido a tu notebook de introducción a la ciencia de datos. En este notebook, vamos a revisar las pruebas de correlación de Pearson y Spearman. De acuerdo con el caso del uso del sector retail, vamos a desarrollar los temas vistos en las infografÃas y los videos anteriores. Vamos a identificar los diferentes tipos de correlación. Usar las herramientas brindadas por Python para el cálculo de estas medidas y probar las hipótesis propuestas con los temas vistos. En este caso, la organización quiere investigar la relación que tienen los precios con datos relacionados con los envÃos. you que existe una gran demanda de pedidos. Y se quiere conocer cómo generar estrategias comerciales relacionadas con los pedidos. Que permitan ofrecerle mejores precios a los clientes desde el origen del incremento a la venta final, incluido el envÃo. Se le ha pedido al área de ciencia de datos identificar posibles patrones para encontrar dónde focalizar la estrategia correcta. Para esto vamos a utilizar las librerÃas comunes de manejo de datos, que es Pandas. Y para los gráficos vamos a utilizar la librerÃa de matplot. Vamos a cargar los datos y, como siempre, es muy importante que revisemos qué datos hemos cargado con una visualización de estos. Aquà podemos ver todas las columnas que se han importado y apenas las primeras cinco filas del dataset que está cargado. Aquà tenemos las órdenes con su respectivo identificador y todos los datos que son de nuestro interés. También podemos revisar qué tipos de datos estamos cargando, si son object, si son enteros o si son de tipo real. Esta correlación de Pearson es una medida de relación lineal entre dos variables. De manera menos formal, podemos definir el coeficiente de correlación. Como un Ãndice que puede utilizarse para medir el grado de relación de dos variables, siempre y cuando ambas sean cuantitativas y continuas. Es por eso que vamos a revisar el precio y el peso de un producto en una orden. Aquà podemos graficar la relación entre ellos dos en una nube de puntos. Lo que nosotros queremos ver es si existe algún tipo de tendencia que se pueda identificar linealmente de alguna manera. AsÃ, de pronto asÃ, de pronto asÃ. Existen varias maneras en las que nosotros podemos identificar una correlación. Y que un gráfico nos va a decir rápidamente si hay o no correlación. Sin embargo, nos debemos remitir a exactamente el Ãndice para darnos cuenta si existe una relación. Si volvemos a hacer la prueba en este gráfico, de pronto si abajo podrÃa haber algún tipo de relación. Sin embargo, aquà hay una concentración muy grande de puntos. Por lo tanto, deberÃamos revisar con el código la correlación lineal que tienen estos datos. Asà podemos darle una trascendencia más allá de lo gráficamente visto. Vamos a calcular el precio, el valor del flete y el peso, la correlación entre todos ellos. Nosotros podemos utilizar la función corr, y elegir el método que necesitamos. Como estamos viendo, utilizando la correlación de Pearson nos van a salir solamente los Ãndices de correlación de Pearson. Como vemos, la relación es casi cero, no es ni negativa ni positiva. Por lo tanto, nosotros podrÃamos deducir que entre estas tres columnas de una orden no existe una relación lineal. Ahora vamos a revisar el coeficiente correlación de Spearman. En estadÃstica, la correlación de Spearman evalúa la relación monótona entre dos variables continuas u ordinales. En una relación monótona las variables tienden a cambiar al mismo tiempo, pero no necesariamente a un ritmo constante. El coeficiente de correlación de Spearman se basa en los valores jerarquizados de cada variable y no en los datos sin procesar. Ahora vamos a revisar cómo están relacionadas. Las medidas del volumen largo, ancho y alto. Asà como el área y lo vamos a calcular a través de una nueva columna. Generada con operaciones sencillas de las series del dataset, las series son las columnas. Entonces, vamos a multiplicar la longitud por la altura para obtener el área. Y el volumen vamos a multiplicar la longitud, altura y ancho de el producto. Sà revisamos los datos you tenemos incluidas en estas tres variables. En estas. Podemos revisar y you en las últimas columnas están incluidas las variables que acabamos de crear. Estas columnas me contienen el área y el volumen de cada producto. Ahora yo puedo establecer si existe algún tipo de correlación entre el área y el peso. Vemos que no existe una correlación claramente que se pueda ver a través de un gráfico. Sin embargo, debemos hacer la relación de calcular el indicador a través de las fórmulas you definidas. Si volvemos a revisar acá el gráfico, de pronto podrÃan haber unas relaciones si jerarquizamos por intervalos. Donde si están tocando los puntos de los datos, sin embargo, puede que no pase. Para esto, nos remitimos directamente al Ãndice de correlación que vamos a ver más adelante. Por ahora, vamos a graficar otro tipo de relaciones. Que va a ser la longitud con el peso, el ancho con el peso, y la altura con el peso, y verificar si existe alguna correlación. Recordemos que la longitud, ancho y alto de un producto también está muy dado por el empaque que pueda tener. Entonces, de pronto por eso no estamos viendo una correlación tan claramente identificada gráficamente. Si vemos aquà no existen como fácilmente alguna relación. Es muy complicado tratar de verlo asà por encima, a pesar de que pintemos varias relaciones. No es fácil como ajustar los puntos y poder deducir si existe alguna relación. Sin embargo, lo más importante es remitirnos a exactamente el Ãndice Esto lo podemos realizar a través de la función corr que you vimos. Y utilizar el método de Spearman, y revisar si en efecto existe alguna correlación. En este último gráfico, lo que graficamos fue longitud, ancho y alto. Entonces podemos irnos a longitud, ancho y alto contra el peso. Vemos que la correlación es prácticamente nula, porque está muy cercana a 0. Es decir, no están correlacionadas ni linealmente, ni a través de funciones monótonas jerarquizadas de los datos. Sin embargo, vamos a ver en el caso que sà ocurra y donde se puede ver mucho más fácil. Que es haciéndolo con el área en centÃmetros cuadrados, como al final es un múltiplo. Entonces es mucho más fácil identificar una relación y ver que se ajuste de una manera como más sencilla los datos. La gráfica que seguramente nos va a ajustar más fácil podrÃa ser esta. you que está recogiendo los puntos de acá arriba y de acá abajo. Y exactamente igual en esta gráfica. Entonces, nuestros lÃmites si lo pintamos con otro color, pues serÃan como estos más o menos. Y esos serÃan los datos que estarÃa ajustando. Ahora vamos a revisar la matriz de correlaciones, que la calculamos con la función core. Y podemos ver exactamente, pues, qué tan correlacionadas están estas variables que acabamos de graficar. Además de eso. Les voy a dejar un bonus, que es cómo graficar las correlaciones a través de un mapa de calor. Como creamos la función corr más arriba, la matriz corr que es esta, que básicamente es la matriz de correlaciones. Nosotros podrÃamos agregarle un mapa de calor que nos permita identificar rápidamente dónde existe algún tipo de relación lineal. Vemos que el área con la altura con la altura está mucho más cercana a 1. Y es la que mayor correlación tiene con el área, más que nada la altura. Luego sigue el volumen relacionado con la altura. Como les decÃa, estas relaciones van a ser debido a que, al final, son múltiplos. Directos, por lo tanto podrÃa explicarse mucho más fácil esta correlación. Podemos revisar que en efecto las medidas para calcular el volumen y el área no están correlacionadas con el peso. Sin embargo, nos va a permitir eventualmente buscar descuentos con la mensajerÃa según otras medidas. Por ejemplo, en las tablas de correlaciones que existen son entre longitud y altura. Por lo tanto, podrÃamos establecer alguna manera de tarificar el envÃo a través de estas medidas para buscar descuentos. Espero que haya sido de gran utilidad este notebook, que lo utilices en futuros análisis, muchas gracias por vernos. [MUSIC]