Calidad del dato

Cualquier propuesta de diseño o implementación de un Datamart o de un Datawarehouse termina chocando con el concepto de calidad del dato. De nada vale hacer una implementación modélica de los modelos de datos del Datamart o el desarrollo de unos procedimientos ETL que permitan extraer la información de diferentes sistemas o fuentes de información y coloquen los datos en el repositorio listos para ser explotados haciendo uso de las herramientas correspondientes, si al final el problema está en la base, en la información de partida, ya que si el objetivo final de todo Datamart es la explotación de la información con un determinado propósito, el resultado final estará contaminado si los datos de partida están contaminados.

Hace unos días en una reunión volvió a salir este tema, ¿se debe parar el desarrollo de Datamarts sin que los datos de partida estén del todo bien? Mi respuesta a esto es que si el desarrollo de Datamarts es un objetivo de la organización (como es en este caso), no debe parar la iniciativa el recurrente problema de la calidad del dato, ya que entre otras cosas, los Datamarts y las distintas alternativas existentes para explotar la información, tienen la ventaja de que permiten descubrir datos incompletos, inexistentes y erróneos, y además, el problema de la calidad del dato, es un tema que no se soluciona de manera sencilla y que generalmente se afronta como un proceso de mejora continua (en la mayoría de los casos bastante lento).

La calidad del dato está relacionada con la visión que tenga el usuario sobre la información que está grabando en el sistema, es decir, si considera que el sistema de información como un instrumento a corto plazo, en el que introduce unos datos y le proporciona unos servicios (y la calidad del dato no resulta fundamental para obtener el servicio), los datos por regla general no serán buenos, ya que el usuario no tiene conciencia de la utilidad que tiene que los datos estén más o menos completos o más o menos bien.

También existen otros factores, como la usabilidad del sistema de información (cuanto menos usable sea un sistema de información, peores serán los datos), la flexibilidad del sistema (este caso es un poco paradójico, ya que la flexibilidad de un sistema está intimamente ligada a su usabilidad), pero resulta que en un sistema muy flexible (sin apenas controles) se deja prácticamente la responsabilidad de lo que se graba en el usuario y por tanto en la visión que él tenga de la necesidad de grabar datos con calidad.

Otro factor muy importante es la visión corporativa que tenga la organización de la información, es decir, si en la organización no existe conciencia de que una información consistente, coherente y de calidad sobre una determinada temática, requiere de un repositorio de información de procedencia (aunque sea alimentado por distintas fuentes (distintos usuarios)) y que esos repositorios se alimentan a través de sistemas de información, será mucho más difícil que los datos que se graben tengan calidad, ya que la gestión se centra en cumplir con las tareas del día a día y no existen unas instrucciones generales o normativa interna, que por un lado obligue a utilizar los sistemas de información corporativos y por otro que haga que los datos que se introduzcan en ellos sean los más completos y exactos posibles.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: