
Para crear productos de datos, se debe poder recopilar puntos de datos de millones de usuarios y procesar los resultados casi en tiempo real. Hoy en día, muchas organizaciones están luchando con la calidad de sus datos. Los problemas de calidad de datos (DQ) pueden surgir de varias maneras. Aquí están las causas comunes de la mala calidad de los datos:
En este blog, vamos a analizar el mundo del Data Lake y su importancia. Además, veremos algunos de los problemas inherentes como la gestión de la calidad.
Data Lake es un lugar centralizado, como un lago, que le permite almacenar una gran cantidad de datos sin procesar en su formato nativo, estructurado y no estructurado, en cualquier escala. Además, puede almacenar sus datos tal como están, sin tener que estructurar primero los datos o definirlos hasta que sean necesarios. Su propósito es crear paneles de información y visualizaciones, análisis en tiempo real y aprendizaje automático. Además, esto puede guiar mejores decisiones publicitarias programáticas.
En su forma extrema, un Data Lake ingiere datos en su estado original sin procesar, directamente de las fuentes de datos. Esto ocurre sin ningún tipo de limpieza, estandarización, remodelación o transformación. Estas y otras disciplinas de manejo de datos sacrosantos son aplicables sobre la marcha. Además, ayuda a habilitar consultas ad hoc, exploración de datos y análisis orientados al descubrimiento. La ingesta temprana de datos significa que los datos operativos están presentes y se ponen a disposición de los analíticos lo antes posible. Además, el estado sin procesar de los datos garantiza que los analistas de datos, científicos de datos y usuarios similares tengan suficiente materia prima. Pueden reutilizarse en muchos conjuntos de datos diversos, según sea necesario mediante preguntas analíticas no anticipadas.
Es una plataforma que combina una serie de tecnologías avanzadas y complejas de almacenamiento y análisis de datos.
Para simplificar, podríamos agrupar los componentes de un lago de datos en cuatro categorías, que representan las cuatro etapas de la administración de datos:
Data Lakes le permite almacenar datos relacionales (una colección de elementos de datos organizados como un conjunto de tablas descritas formalmente desde las cuales se puede acceder o reensamblar datos de muchas maneras diferentes sin tener que reorganizar las tablas de la base de datos). Bases de datos operativas (datos recopilados en tiempo real), y datos de aplicaciones de línea de negocio, y datos no relacionales como aplicaciones móviles, dispositivos conectados y redes sociales. También le brindan la capacidad de comprender qué datos se encuentran en el lago a través del rastreo, la catalogación y la indexación de datos.
Data Lake permite que los científicos de datos, los desarrolladores de datos y los analistas de operaciones accedan a los datos con su elección de marcos analíticos y herramientas. Esto también incluye marcos de datos de fuente abierta como Apache Hadoop, Presto y Apache Spark, y ofertas comerciales de almacenes de datos y proveedores de inteligencia empresarial. Data Lake le permite ejecutar Analytics sin la necesidad de mover sus datos de un sistema a otro.
Data Lake permitirá a las organizaciones generar diferentes tipos de información operativa y de marketing. Incluye informes sobre datos históricos y aprendizaje automático en los que los modelos producen pronósticos y predicciones.
Un Data Lake puede combinar los datos de los clientes de una plataforma de CRM con el análisis de datos de las redes sociales, así como una plataforma de marketing que incluye el historial de compras para que la empresa pueda comprender a las audiencias más rentables, la raíz de la rotación de clientes y lo que las promociones o recompensas podrían aumentar la lealtad.
Es la incapacidad de los analistas para determinar la calidad de los datos porque no se ha realizado un control exhaustivo. Además, no hay forma de utilizar la información de otros que hayan trabajado con los datos, ya que no hay una explicación del linaje de hallazgos de analistas anteriores. Finalmente, uno de los mayores riesgos de los lagos de datos es la seguridad y el control de acceso. Los datos se pueden colocar en un lago sin ningún tipo de supervisión, y algunos de los datos pueden contener requisitos de privacidad y reglamentarios que otros datos no.
Machine Learning puede cambiar el juego porque puede capturar el conocimiento tácito de las personas que mejor conocen los datos, y luego convertirlos en algoritmos, que se pueden usar para automatizar el procesamiento de datos a gran escala. Esta es exactamente la forma en que Talend está aprovechando el aprendizaje automático de Spark, para aprender de los administradores de datos durante la comparación de datos y la deduplicación de las muestras de datos, y luego aplicarlo a gran escala de datos para miles de millones de registros.
Para que las empresas aprovechen al máximo sus proyectos de transformación digital y creen un lago de datos ágil, deben diseñar procesos de calidad de datos desde el principio. Las organizaciones deben centrarse en estandarizar lo siguiente para mantener la calidad de big data
Otra categoría de marcos se centra en la madurez de los procesos de gestión de la calidad de los datos. Su objetivo es evaluar el nivel de madurez de la gestión de DQ para comprender las mejores prácticas en organizaciones maduras e identificar áreas de mejora. Los ejemplos populares de dichos marcos incluyen la Gestión de la calidad de los datos total (TDQM), la Integración del modelo de madurez de la capacidad (CMMI), los Objetivos de control para la información y la tecnología relacionada (CobiT), la Biblioteca de infraestructura de tecnología de la información (ITIL) y Six Sigma.
Como ejemplo, podemos tomar el framework TDQM.
Un ciclo TDQM consta de cuatro pasos, Definir, Medir, Analizar y Mejorar.
El paso de definir identifica las dimensiones de calidad de datos pertinentes.
Uno puede cuantificarlos usando métricas en el paso Medir. Algunas métricas de ejemplo son el porcentaje de registros de clientes con la dirección incorrecta (precisión), el porcentaje de registros de clientes con fecha de nacimiento faltante (integridad) o un indicador que especifica la última actualización del cliente.
El paso Analizar intenta identificar la causa raíz de los problemas de calidad de los datos. Remediamos los problemas anteriores en el paso de mejora. Las acciones de ejemplo podrían ser la verificación periódica y automática de las direcciones de los clientes, la adición de una restricción que hace que la fecha de nacimiento sea un campo de datos obligatorio y la generación de alertas cuando no se actualizan los datos de los clientes en 6 meses.
Cada vez más compañías están experimentando con lagos de datos, con la esperanza de capturar ventajas inherentes en los flujos de información que son fácilmente accesibles independientemente de la plataforma y el caso de negocios y que cuestan menos para almacenar los datos en los almacenes tradicionales. Sin embargo, al igual que con cualquier implementación de nueva tecnología, las compañías deberán volver a imaginar los sistemas, procesos y modelos de gobierno. Además, si la mejora real de la calidad de los datos no es una opción a corto plazo por razones de restricciones técnicas o prioridades estratégicas, a veces es una solución parcial para anotar los datos con información explícita sobre su calidad. Dichos metadatos de calidad de datos se pueden almacenar en el catálogo, posiblemente con otros metadatos.
¿Te gustó este artículo?
Podemos contactarnos pronto y de manera muy directa a través de las siguientes opciones: