archivo

Archivos diarios: abril 1, 2010

La construcción de un datawarehouse corporativo, sobre todo si la organización es medianamente grande, resulta de gran complejidad cuando existe una gran dispersión de sistemas de información y soluciones implementadas en herramientas ofimáticas que por supuesto no han tenido en cuenta, en la mayoría de los casos, diccionarios de datos comunes entre los mismos. Esta situación da lugar a la existencia de un número significativo de fuentes de información que habrá que localizar y tratar de integrar en los procesos ETL.

Si para la estrategia de desarrollo del datawarehouse se ha optado por su construcción a través de distintos datamarts, hay que tener en cuenta (ya que no siempre se hace y después puede haber problemas a la hora de integrar y relacionar datos) tanto los datamart ya construidos como los que se estén construyendo para propiciar que la estrategia de modelado de los mismos sea consistente y coherente (para ello es necesario la implantación de una metodología y de tener bien documentado todo lo que se ha hecho, de lo contrario estos objetivos si se consiguen lo serán por casualidad, por mucho control que se tenga sobre estos proyectos y el equipo de trabajo que lo haya llevado a cabo sea el mismo) y se hayan establecido mecanismos para permitir integrar información (un ejemplo muy simple de esto último es la posibilidad de que múltiples fuentes del dato utilicen un diccionario distinto para las provincias y los municipios. Si eso no se normaliza en el paso al datawarehouse, no podré relacionar variables distintas por esas dimensiones ya que no tendré garantía de que sean iguales, trasladando el problema existente en los sistemas operaciones al almacén de datos).

A los problemas de las fuentes heterogéneas y cambiantes (digo cambiantes, porque los sistemas de información y las soluciones basadas en software ofimático, tienden a tener mantenimiento correctivo y/o evolutivo que pueden tener consecuencias sobre el modelado de los datos, lo cual resultará perjudicial para los procesos ETL que de alguna u otra manera tendrán que cambiar), de la existencia de una metodología común y de una documentación accesible y dinámica de los distintos trabajos que se vayan realizando en este sentido y del establecimiento de unos mecanismos de integración de la información (esto resulta esencial, aunque es necesario señalar que, en ocasiones, los datos de entrada no permitirán que determinado tipo de información se pueda integrar con otras) hay que sumar la dificultad de la determinación de los distintos indicadores que se quieran medir y que responderán a distintos objetivos estratégicos, tácticos e incluso operativos a los que se le quiere realizar un seguimiento.

En el siguiente artículo, nos centraremos en ver los principales problemas que nos solemos encontrar con la búsqueda y selección de los indicadores y de las estrategias que podrían aplicarse en estos casos.