Hola a todos. En este video vamos a hacer una introducción al análisis visual de datos. Empezaremos describiendo el sistema visual humano y sus capacidades, y veremos cómo se relaciona con los atributos de los elementos gráficos que permiten mapear dichas capacidades a las representaciones gráficas. Después, definiremos el análisis exploratorio de datos y veremos, como ejemplo, el cuarteto de Anscombe. Después, presentaremos cómo podemos utilizar la visualización de datos como interfaz y veremos, como ejemplo, el estudio de los supervivientes del Titanic. Finalmente, definiremos unos aspectos a tener en cuenta cuando se utiliza la visualización como herramienta de análisis visual. El sistema visual humano está compuesto por el ojo, el nervio óptico y el córtex visual, de hecho, se considera que todos estos elementos forman parte del cerebro. Es nuestro principal canal de captura de información y se estima que el ancho de banda es de unos 10 megabits por segundo. El sistema visual humano nos permite realizar una detección de características, entre otras, medidas, tendencias, patrones, grupos o, también, "outliers". Y, de hecho, la investigación que se conoce sobre el sistema visual humano nos hace pensar que hace cierta la dicha de que "una imagen vale más que mil palabras". Veamos, ahora, los atributos de los elementos gráficos. Estos son el tamaño, la forma, el color, la textura, la transparencia, la posición, la orientación, la alineación y, en algunas condiciones, el movimiento. Veamos un ejemplo, esta figura muestra los elementos de un conjunto de datos que es el iris de Fisher, muy estudiado. En este conjunto hay elementos de tres clases diferentes. Para representarlos gráficamente, en este caso, se ha utilizado un gráfico de dos dimensiones de dispersión y hay tres atributos que se utilizan para diferenciarlos, en este caso, la forma y el color van asociados, y el otro atributo es la posición. ¿Para qué nos sirve esta representación gráfica? Para ver, por ejemplo, que mediante un hiperplano podemos separar elementos de una clase respecto a las otras dos y que, en cambio, no podemos separar los elementos de las otras dos clases. ¿Qué es el análisis exploratorio de datos? Fue desarrollado por John Tukey en 1977. Tukey propuso el concepto de explorar en el sentido de descubrir, a partir de un conjunto de datos se trata de proponer hipótesis sobre las causas de cierto fenómeno, también evaluar suposiciones para realizar, posteriormente, inferencia estadística. El análisis exploratorio de datos, también, nos ayuda a seleccionar técnicas y herramientas estadísticas apropiadas para lo que estamos realizando y, finalmente, proporciona bases para la recogida de más datos mediante otros mecanismos. El análisis exploratorio de datos se fundamenta en la utilización de elementos gráficos que nos aportan información sobre el conjunto de datos que estamos analizando, y está basado en conceptos estadísticos básicos. Estos conceptos estadísticos son, por ejemplo, el uso de "Box-plots" para representar la media, la mediana, la desviación típica y los "outliers" de una variable de un conjunto de datos. O podemos, también, utilizar histogramas para ver qué forma tiene la distribución de probabilidad subyacente de una variable. También podemos utilizar diagramas de dispersión que nos muestran las relaciones entre dos o tres variables. Y, finalmente, podemos utilizar proyecciones que nos permiten reducir la dimensionalidad y realizar técnicas de "clustering" para observar grupos en los datos. Veamos un ejemplo, que es el cuarteto de Anscombe, fue construido sintéticamente en 1973 por Francis Anscombe. Se trata de cuatro conjuntos de datos que contiene, cada uno de ellos, 11 elementos de dos variables. Estos conjuntos muestran idénticos descriptores estadísticos, entre otros, la media de cada variable es la misma, la varianza de cada variable, la correlación entre las dos variables y la recta de regresión entre las dos variables. Nos podríamos preguntar, en base a esta premisa, si se trata del mismo conjunto de datos, pero si los representamos gráficamente podemos observar que los cuatro conjuntos son realmente diferentes. El conjunto superior a la izquierda sería la típica distribución que se ha podido observar en un experimento, en cambio, el conjunto de arriba a la derecha muestra una relación cuadrática entre las dos variables. El conjunto inferior a la izquierda muestra una relación lineal entre las dos variables con un "outlier" y el conjunto inferior a la derecha muestra este mismo comportamiento, pero en la otra dimensión. Como se puede ver, se trata de cuatro conjuntos de datos completamente diferentes, pero que comparten los mismos descriptores estadísticos. El uso de la visualización nos permite hacernos una idea de qué tipo de datos estamos tratando y, en cada caso, qué tipo de análisis deberíamos realizar. Veamos ahora, cómo podemos utilizar la visualización de datos como interfaz para acceder a los propios datos. La idea es que la visualización tiene una capa interactiva que nos permite realizar operaciones sobre los datos. Estas operaciones suelen ser las de selección, las de filtrado, las de zoom o las de comparación, aunque existen otras en función de los datos que se están manipulando y el objetivo del análisis. Para ello, podemos utilizar herramientas específicas, o bien, navegadores web, dado que hay muchas librerías que nos permiten construir aplicaciones "online" que permiten analizar y visualizar datos. Veamos un ejemplo con los supervivientes del Titanic, se trata de un conjunto de datos para el cual tenemos cuatro variables categóricas, el sexo, sabemos si se trataba de mujeres u hombres; la edad, sabemos si se trataba de niños o adultos; la clase en la cual viajaban, que podría ser primera, segunda, tercera, o bien, eran miembros de la tripulación; y tenemos un atributo que nos define si una persona era superviviente o no. Nos podríamos preguntar si hay alguna relación entre las variables, es decir, si, por ejemplo, las mujeres se salvaron más que los hombres en el hundimiento del Titanic. Si utilizáramos técnicas de estadística tradicional, utilizaríamos tablas de contingencia y, a partir de aquí, haríamos un test "Chi" cuadrado o una "V" de Cramer para ver si existe una asociación entre dos o más variables. Pero también podemos realizar un análisis visual interactivo mediante el uso de una visualización conocida como "parallel sets". Vamos a ver este ejemplo de forma interactiva. Esta visualización, que está realizada con "D3", nos permite comparar las variables que forman el conjunto de datos de los supervivientes del Titanic. Tenemos la variable superviviente, la variable sexo, la variable edad y la variable clase. Esta visualización interactiva nos permite saber, para cada clase, el número de elementos que pertenecen a dicha clase y las combinaciones entre dos o más variables. Cada una de estas barras nos representa la proporción de personas que sobrevivieron o no, de acuerdo a su sexo. En este caso, tenemos 344 mujeres que sobrevivieron al hundimiento del Titanic y, en cambio, esta barra nos dice que 367 hombres sobrevivieron al Titanic. En cambio, esta barra de aquí nos dice que 1364 hombres no sobrevivieron al accidente del Titanic, en comparación a 126 mujeres que no lo hicieron. Esta primera combinación de dos variables ya nos muestra, gráficamente, que la relación entre las variables sexo y sobreviviente es importante, porque el porcentaje de hombres que murieron, respecto al porcentaje de hombres que sobrevivieron, es mucho mayor que el porcentaje de mujeres que murieron, respecto al porcentaje de mujeres que sobrevivieron. De alguna manera, hemos representado, visualmente, la tabla de contingencia. Veamos, ahora, cómo utilizar esta visualización interactiva para combinar otras dos variables. Supongamos, por ejemplo, que queremos ver si hay una relación entre la clase en la cual viajaban los pasajeros y el hecho de sobrevivir, o no, al accidente del Titanic. Podemos irnos a la variable clase, arrastrarla a la primera posición y ver si hay una relación entre las dos variables. También podemos ordenar los valores de las clases para tenerlos ordenados por primera, segunda, tercera clase y tripulación. Como podemos ver, los pasajeros de primera clase, mayoritariamente, sobrevivieron, que es lo que nos representa esta barra, respecto a ésta. Los de segunda clase ya estaban más equilibrados y, en cambio, los pasajeros de tercera clase, principalmente, no sobrevivieron al accidente, así como los miembros de la tripulación. Por lo tanto, de forma visual, sin tener que hacer ningún análisis estadístico, podemos decir que sí, que hay, o parece que hay, una asociación entre las variables "clase" y "sobrevivientes". Veamos, finalmente, algunos aspectos a tener en cuenta cuando se utilizan visualizaciones de datos para realizar análisis visual. Por ejemplo, es mejor utilizar líneas que no ángulos o áreas para la representación de cantidades, dado que el sistema visual humano es mucho mejor estimando distancias que no ángulos y áreas, por lo que hay que evitar representaciones que utilicen dichos elementos como base. Así, es mejor utilizar gráficos de barras que no gráficos de tarta u otras representaciones basadas en áreas. También es importante hacer un buen uso del color y de los degradados o escalas por dos razones. La primera es que puede haber usuarios con discapacidad visual como, por ejemplo, los daltónicos, que no puedan distinguir bien entre diferentes escalas de color. La otra razón es porque, si la escala de color se utiliza como mapeo de una cantidad, puede ser difícil determinar la diferencia entre dos o más atributos mapeados con ese degradado. También, es importante el uso de perspectivas porque, en caso de utilizar proyecciones 3D y 2D, se podría dar el caso que cantidades más lejanas quedaran representadas de forma desproporcionada con otras cantidades que están más cercanas y esto engañara a la percepción del usuario. También, es importante tener en cuenta la sobrecarga cognitiva que puede conllevar la visualización de datos si ésta utiliza muchos atributos gráficos al mismo tiempo. Finalmente, si la interfaz se utiliza como acceso a los datos, es muy importante evaluar su complejidad, ya que puede ser muy difícil de utilizar por usuarios no expertos. Esto es todo en este curso introductorio al análisis visual de datos. Esperemos que haya sido de vuestro interés.