Los Datamarts y las cocteleras

Construir un Datamart de pequeñas dimensiones es tarea relativamente sencilla, al final, independientemente de la procedencia del dato se consigue construir un ETL y se cargan los datos de la forma más ordenada que se pueda dentro del repositorio de datos.

En muchas ocasiones estos procesos ETL son cocteleras, donde se cogen unas hojas de cálculo por allí, unas bases de datos ofimáticas por allá y también obtendrán datos de sistemas operacionales. Estas cocteleras, si el trabajo se hace bien, funcionarán correctamente, pero el problema está cuando se modifica alguna de las fuentes del dato y sobre todo si no se tiene controlado cuando se produce esa modificación, cuando esto se produce, una o varias entidades de los Datamarts dejarán de actualizarse hasta que se corrija.

Muchos pensaréis, “Bueno, vale, adáptese el ETL a las nuevas características de la fuente del dato y ya está.”, y estaréis en lo cierto, sin embargo, la frecuencia de incidencias de este tipo que se suelen producir sobre un Datamart que tiene un buen número de fuentes de datos de naturaleza ofimática o procedentes de listados ofimáticos generados por un sistema de información, es bastante alta.

Más que soluciones, lo que hay son buenas prácticas, porque si existe la necesidad de una explotación de datos de estas características y existe la posibilidad de hacerlo (es muy importante eso, ya que muchas veces se creen que se poseen los datos que permiten medir indicadores y después no es así o no existe suficiente calidad del dato). Algunas de esas buenas prácticas, en entornos como el descrito (muchas fuentes de datos basadas en soluciones ofimáticas), podrían ser las siguientes:

– Informar a los usuarios que graban datos en herramientas ofimáticas de las consecuencias de variar los formatos en las mismas. También es posible indicarle al responsable de la información que se graba que la información se espera en un determinado formato y que por detrás puede tener la herramienta que quiera y hacerle los cambios que considere convenientes, pero que al final los datos se tienen que entregar en un determinado formato y con la periodicidad que se establezca para las cargas.

– Tener bien documentado todo el proceso que permite la explotación de los datos de un indicador, desde la especificación de la fuente del dato, el departamento que la utiliza, las personas de contacto, un posible cocinado de los datos para adaptarlo al ETL, pasando por las transformaciones que se realizan en el ETL, las secciones del modelo de datos del Datamart que almacenarán los datos del indicador, etc… Y tan importante como documentar, es mantener actualizada dicha documentación (sin documentación o con documentación desactualizada, realizar un mantenimiento de este tipo de soluciones, puede complicarse muchísimo).

– Ser consciente de que problemas como los descritos en este artículo pueden pasar (y van a pasar), por lo que dentro de los servicios de mantenimiento de sistemas, hay que tener en cuenta este tipo de circunstancias.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: