[MUSIC] Hola nuevamente. Seguimos trabajando el tema de la calidad de datos y su efecto en procesos de toma de decisiones. Para ello, recordaré qué es calidad de datos y presentaré escenarios de toma de decisiones. Que se ven afectados en diferentes niveles de calidad de los datos. Problemas tÃpicos de los datos, algunas formas de resolverlos. Y ejemplos de efectos a considerar en el momento de prepararlos. En particular, los relacionados con la dimensión de completitud. Recordemos que la calidad de datos fue definida como la idoneidad de los datos para responder a unos requerimientos del negocio. Y que para su medición es fundamental contar con métricas que definimos dimensiones de calidad. Dentro de los cuales tenemos la completitud de los datos. [MUSIC] Hablemos ahora de lo que puede ocurrir en procesos de toma de decisiones, de acuerdo con el nivel de calidad de los datos. Como siempre, tenemos los dos extremos del espectro. Mejor escenario, cuando los datos están ordenados, hay control sobre ellos y la calidad es muy buena. Pocos valores faltantes, no se tienen registros duplicados, manejamos estándares para variables, entre otros. En este escenario, los análisis sobre los datos son más ágiles y confiables. Y el tomador de decisión puede apoyar sus acciones en los datos para llegar a mejorar indicadores. Por ejemplo, de rendimiento financiero, o en temas de salud, de calidad de vida de los ciudadanos. En el segundo escenario, el pesimista, donde los datos son caóticos. Hay silos al interior de la organización, no son consistentes. Las versiones que nos dan del mismo dato en diferentes dependencias de la organización son distintas. Y el hacer análisis sobre esos datos implica un gran esfuerzo en esta tarea de preparación. Y en muchas ocasiones, si se trabaja con datos de poca calidad, las decisiones no podrán ser apoyadas por datos. Y volveremos a la intuición de los expertos, aumentando el riesgo de decisiones. Que afecte negativamente el rendimiento de las organizaciones. Dentro de estos dos extremos, tenemos toda una gama de opciones. Que pueden afectar de forma negativa la actividad del tomador de decisiones de una organización. Con la claridad del efecto de los problemas de calidad en los análisis, veamos ahora ejemplos de problemas de calidad. Los tÃpicos son datos inconsistentes. Por ejemplo, si seguimos con el caso de tuberculosis. El reportar como número de casos en un mes muchos más que los habitantes del departamento que reporta. O tener un número de casos muy bajo, que es muy poco probable. Valores negativos o no reportar. Este último caso aporta la dimensión de completitud. Pensemos ahora si tenemos los datos del detalle del paciente al cual se le detectó por primera vez tuberculosis. En ese caso, podemos encontrar registros duplicados difÃciles de detectar. Como en la fila 112 y 162, marcadas en azul y morado en la gráfica de la derecha. Donde se ve una falta de estandarización en las direcciones y un inadecuado uso del idioma. Al colocar el nombre con dos ortografÃas distintas en ambas filas. Veamos ahora alternativas para corregir estos problemas, en particular los relacionados con datos incompletos. Podemos identificar la opción de imputación, que consiste en reemplazar un valor faltante por la media de los datos. Una constante, por ejemplo -1, que representa que no hubo reporte de casos, entre otras opciones. En el caso más elaborado, generar modelos analÃticos basados en aprendizaje de máquina. Para estimar dicho valor o eliminar los registros, el menos apropiado. Estas alternativas, aunque son buenas, pueden afectar la distribución de la variable o distorsionar la correlación entre variables. Por esta razón, es importante considerar estos elementos. En el momento de proponer y seleccionar la preparación a utilizar para corregir el problema a identificar. Estos son algunos ejemplos de lo que veremos en esta lección, te invito a pensar en los datos que has manejado o generado. Y relacionarlos con los problemas de calidad que vimos en el video. Para imaginar posibles soluciones, hasta pronto. [MUSIC] [MUSIC]