¡Hola! Bienvenidos nuevamente al curso Introducción a la Ciencia de Datos. En este video, comenzaremos a estudiar algunos conceptos sobre estadÃstica bivariada con el fin de cuantificar la relación existente entre 2 variables cuantitativas. En el módulo anterior, vimos algunos conceptos orientados al análisis univariado de datos. Sin embargo, en muchos proyectos de ciencia de datos es importante analizar de manera conjunta 2 variables cuantitativas, y establecer si existe una relación entre estas 2 variables. Para tal fin, en este vÃdeo te presentaremos 2 estadÃsticos que nos permitirán medir qué tanta relación hay entre 2 variables cuantitativas. Estos estadÃsticos son el coeficiente de correlación de Pearson y el coeficiente de correlación de Spearman. Antes de iniciar con la definición del coeficiente de correlación de Pearson y Spearman, primero, empecemos por definir qué es la correlación. La correlación estadÃstica es la relación o correspondencia recÃproca entre 2 variables. A manera de ejemplo, te invito a imaginar la siguiente situación: supongamos que se debe realizar un estudio para determinar si existe una relación entre la edad y la talla o la estatura de una población determinada. Si realizamos un gráfico donde en el eje x representamos la variable "edad" y en el eje y representamos la variable "talla" o "estatura" y, si cada punto representa cada individuo obtenemos un gráfico de dispersión. Como podemos observar en este diagrama de dispersión, parece ser que, entre mayor sea la edad, mayor es la estatura o la talla. A este tipo de relación o correspondencia entre 2 variables es los que denominamos correlación. Por otra parte, supongamos que tenemos un gráfico de dispersión donde queremos representar la variable edad en el eje x y la variable peso en el eje y. De manera análoga, podemos determinar que entre mayor sea la variable edad, mayor es el peso de la persona. Finalmente, si construimos un gráfico de dispersión entre la variable talla o estatura representada en el eje x y peso representada en el eje y, similarmente, podemos determinar que entre mayor sea la variable talla o estatura, mayor es el peso. Como pudimos observar en estos 3 gráficos de dispersión, hemos generado una interpretación analÃtica que involucra al mismo tiempo 2 variables cuantitativas. Entre más alto es el valor de una variable x, más alto es el valor de una variable y. Sin embargo, en muchos proyectos de ciencia de datos, muchas de estas relaciones son lineales. AsÃ, nos surgen las siguientes preguntas: ¿cómo podemos determinar si hay una relación lineal entre 2 variables cuantitativas? ¿Cómo podemos cuantificar esta relación lineal? Para tal fin, existe el coeficiente de correlación de Pearson. El coeficiente de correlación de Pearson es una medida adimensional que mide el grado de intensidad de la linealidad entre 2 variables cuantitativas. Cuando nos referimos a que es una medida adimensional, indica que, por ejemplo, si calculamos el coeficiente de correlación de Pearson entre la variable estatura o talla medida en centÃmetros y la variable peso medida en kilogramos, entonces su resultado no tiene unidad de medida. Finalmente, con la presente fórmula se obtiene el coeficiente de correlación de Pearson, que mide la linealidad entre la variable x y la variable y. Asimismo, el coeficiente de correlación de Pearson tiene una serie de propiedades que te mencionaremos a continuación. El coeficiente de correlación de Pearson siempre toma valores entre menos 1 y 1. Si el coeficiente de correlación de Pearson es negativo, entonces la relación entre las 2 variables cuantitativas es inversamente proporcional. Esto quiere decir que, en la medida que una variable crece, entonces la otra variable decrece. Si el coeficiente de correlación de Pearson es positivo, entonces la relación entre las 2 variables cuantitativas es directamente proporcional. Esto quiere decir que, en la medida que una variable crece, entonces la otra variable crece. Si el coeficiente de correlación de Pearson toma un valor cercano a 0, entonces el nivel de relación lineal entre las 2 variables cuantitativas es casi nula. Si el coeficiente de correlación de Pearson es cercano a 1, entonces existe una fuerte relación lineal positiva entre las 2 variables. Esto quiere decir que, en la medida que una variable crece, entonces la otra variable crece linealmente. Si el coeficiente de correlación de Pearson es cercano a menos 1, entonces existe una fuerte relación lineal negativa entre las 2 variables. Esto quiere decir que, en la medida que una variable crece, entonces la otra variable decrece linealmente. A continuación, veamos un ejemplo con el objetivo de afianzar nuestros conocimientos. Supongamos que se decidió validar la hipótesis de "si existe o no una relación lineal entre la altura medida en metros y el peso de 2 estudiantes de un determinado colegio". Para tal fin, organicemos los datos en la siguiente tabla con el objetivo de calcular de manera fácil cada componente del coeficiente de correlación de Pearson. Finalmente, al calcular el coeficiente de correlación de Pearson entre la variable estatura y peso de los 2 estudiantes, se obtuvo un valor de 0,94. Como este valor se encuentra muy cercano a 1, entonces existe una fuerte correlación entre las 2 variables. Es decir, que a medida que la estatura aumenta, el peso tiende a aumentar en la misma proporción. Como se mencionó anteriormente, el coeficiente de correlación de Pearson nos permite evaluar qué tan lineal es la relación entre 2 variables cuantitativas. Sin embargo, en algunos contextos, cuando el cambio entre 2 variables no es constante, entonces se opta por estudiar su relación mediante el uso del coeficiente de correlación de Spearman. El coeficiente de correlación de Spearman mide la relación monótona entre 2 variables cuantitativas. En las relaciones monótonas, las variables tienden a cambiar al mismo tiempo, más no necesariamente a un ritmo constante. De esta forma, el coeficiente de correlación de Spearman se basa en los valores jerarquizados de cada variable y no en los datos crudos sin procesar. El coeficiente de correlación de Spearman se calcula con la presente fórmula. Aunque la fórmula parece un poco compleja para calcular el coeficiente de correlación de Spearman, a continuación te explicaremos el paso a paso para obtener este coeficiente a través de un ejemplo. Supongamos que se tienen las notas de las materias de "Big Data" y "Machine Learning" de los estudiantes que estudian la especialización en ciencia de datos y si desea validar la hipótesis de "si existe o no una relación entre las calificaciones de estas dos asignaturas". Inicialmente, se ordenan los datos de mayor a menor, teniendo en cuenta la primera variable, en este caso la calificación de la asignatura "Big Data". Adicional a ello, se construye una variable que se denomina "Rango Big Data", la cual es el número donde se le asigna la posición. Es decir, se asigna 1 cuando el registro contiene el valor más grande, 2 cuando el registro tiene el segundo valor más grande y asà sucesivamente. A manera de observación, si 2 o más registros tienen el mismo valor, entonces se asigna el promedio de las respectivas posiciones. De la misma forma, a la primera variable, en este caso, calificación Big data, se construye una variable que se denomina "Rango Machine Learning", el cual corresponde a las posiciones de las calificaciones que obtuvieron los estudiantes en la asignatura de "Machine Learning". Se calcula la suma de las diferencias al cuadrado de las variables "Rango Big Data" y "Rango Machine Learning". Finalmente, se calcula el coeficiente de correlación de Spearman. En este caso, se obtuvo un valor de 0,9. Esto quiere decir que, en general, cuando un estudiante obtiene buenas notas en la asignatura Big Data, este también obtiene buenas notas en la asignatura de Machine Learning. En este vÃdeo, estudiamos los conceptos asociados al coeficiente de correlación de Pearson y al coeficiente de correlación de Spearman, los cuales nos ayudan a cuantificar la relación existente entre 2 variables cuantitativas. A continuación, te invitamos a continuar con este módulo, donde aprenderás a obtener estos coeficientes mediante el uso de la herramienta "Jupyter Notebook", y aplicarás estos conocimientos al caso de uso de retail y al caso de uso de Airbnb.