¿Qué es la calidad de los datos?
La calidad de los datos está directamente relacionada con la calidad de la información que se obtiene del análisis de ellos. Para entender la calidad de los datos con los que se trabaja, hay que tener en cuenta varios factores, entre ellos los siguientes:
- Precisión: ¿Con qué exactitud reflejan los datos la realidad?
- Exhaustividad: ¿Los datos son completos?
- Coherencia: ¿Coinciden los datos almacenados en un lugar con el formato de los datos almacenados en otro?
- Puntualidad: ¿Puede acceder a los datos cuando lo necesita?
- Validez: ¿Están los datos en un formato correcto y utilizable?
- Unicidad: ¿Los datos sólo aparecen una vez en la base de datos?
Hay un dicho famoso en el mundo de los datos: «Basura dentro, basura fuera». Se refiere a la idea de que si tus datos no son válidos, tus conclusiones tampoco lo serán.
Los cuatro pilares de la gestión de la calidad de los datos
Para que las organizaciones se aseguren de que sus datos cumplen una norma de alta calidad, necesitan gestionar activamente cómo se crean y almacenan los datos de principio a fin. Esta gestión se basa en cuatro pilares.
1. Elaboración de perfiles de datos
La elaboración de perfiles de datos consiste en revisar los datos existentes en comparación con un conjunto de medidas de calidad. Estas medidas pueden incluir:
- Buscar valores fuera del rango aceptable para una columna. Por ejemplo, si se supone que una columna es un día de la semana, sólo hay siete valores posibles: de lunes a domingo.
- Identificar valores no válidos. Por ejemplo, si un valor está vacío o es una palabra como «Ninguno» cuando debería ser «0».
- Comprobación de formatos diferentes para datos como fechas o números de teléfono. Por ejemplo, las fechas pueden almacenarse como AAAA/MM/DD o MM/DD/AAAA.
- Verificación de datos. Por ejemplo, si el código postal de una columna coincide con el nombre de la ciudad de otra.
- Comprobación de datos complicados.
Este es el punto de partida para gestionar la calidad de los datos, porque no se puede mejorar la calidad de los datos futuros si no se conoce la calidad de los datos existentes.
2. Reglas de calidad de los datos
Una vez que una organización conoce la calidad de sus datos actuales, puede utilizar estos resultados para definir un conjunto de «reglas de calidad». Estas reglas establecen los estándares que deben cumplir los datos para ser considerados de alta calidad.
Estas normas se utilizan para definir el formato de los datos y mantener su coherencia y precisión. Por ejemplo, se decidirá un formato de fecha coherente. Las reglas deben ser específicas y difíciles de incumplir por accidente. Por ejemplo, algunas reglas de calidad de datos que podrían definirse al recopilar datos de códigos postales son las siguientes:
- El código postal sólo puede contener números; ni letras ni caracteres especiales.
- El código postal sólo puede tener una longitud de cinco números.
- El código postal debe coincidir con el código postal de la ciudad indicada.
- El código postal debe existir realmente.
3. Reparación de datos
Uno de los aspectos más importantes de la gestión de la calidad de los datos es identificar la causa raíz de sus problemas. Esto implica identificar cómo y dónde se originan los problemas de datos. Una vez identificada la causa raíz, debe elaborarse un plan de reparación teniendo en cuanto los informes o sistemas que dependan de los datos ya existentes.
4. Enriquecimiento de datos
El último componente de la gestión de la calidad de los datos consiste en incorporar datos externos que no estén directamente relacionados con los datos principales para obtener información adicional. Algunos ejemplos podrían ser los siguientes:
- Combinar datos de clientes internos con datos de censos externos para comprender mejor a sus clientes.
- Combinar datos internos de productos con datos de productos de la competencia.
Al enriquecer sus datos con datos externos, aumenta considerablemente la calidad de la información que se puede extraer de ellos.