Un proyecto de construcción de Datamart para la explotación de indicadores de gestión y de estado II

Una vez elaborada la primera versión del catálogo de indicadores, se dividirá en una serie de partes que se encargarán de trabajar por separado diferentes subequipos del equipo de proyecto, cada uno de los cuales está formado por personal experto en la temática o temáticas en que se ha dividido y ellos a su vez se encargarán de forma autónoma de recabar la información suficiente con otros expertos de la casa para afinar lo máximo posible su subcatálogo. Una vez trabajadas cada una de esas partes se volverán a consolidar en un solo documento y a partir de ahí se empezará una ronda de entrevistas con los responsables de cada centro directivo.

Es importante señalar que se van a descartar aquellos posibles indicadores que aún siendo interesantes, no tengan clara su obtención a partir de una fuente de datos accesible, de esta manera no perdemos energía y tiempo en estudiar aquellos que no van a poder producir resultados. En todo proyecto de construcción de Datamarts sobre procesos de negocio que afectan a diferentes departamentos de una organización, las principales dificultades van a estar en localizar las fuentes de información y, por supuesto, en la definición de indicadores que sean útiles. Por este motivo, indicadores y fuentes deben ir de la mano.

Aunque las fuentes sean accesibles, hay que valorar la complejidad de diseñar los procedimientos ETL (Extracción, Transformación y Carga) a partir de las mismas.

Cuando las fuentes sean sistemas de información, la implementación de esos procedimientos es bastante simple, aunque hay que tener en cuenta que si la base son modelos de datos y no servicios, la modificación de estos, implicará una necesaria modificación de los ETL. Por este motivo, es importante no sólo desarrollar los ETL sino también documentar perfectamente la fuente de la información y las transformaciones que se hacen sobre la misma antes de cargar el dato.

Cuando las fuentes sean ficheros, la complejidad de los ETL por término medio se incrementa y en algunos casos no será posible hacer un ETL sobre alguno de ellos. Esos ficheros pueden estar en diversos formatos: OpenOffice.org Writer, OpenOffice.org Calc, Excel, Word, Access, pdf, etc… y en muchos casos no estarán estructurados. En estos casos hay que valorar la importancia del indicador, la posibilidad de que el fichero a cargar pueda ser entregado por la fuente de manera normalizada en un formato fácilmente tratable informáticamente o bien la disponibilidad de un equipo que haga estas tareas de “precocinado” previo antes de aplicar el ETL (entendiéndose el concepto de ETL como algo absoluto, es decir, como el conjunto de operaciones que se realizan sobre el juego de datos de entrada, para extraerlo y transformarlo, hasta su carga, muchos consideran que ese precocinado es parte propia del ETL, independientemente de que después ese “precocinado” tenga un tratamiento informático posterior para terminar de transformarlo y cargarlo. Yo personalmente, aunque tal vez no sea lo más ortodoxo del mundo, distingo entre las tareas previas manuales o semimanuales para preparar los datos para el ETL, del propio proceso de ETL).

¿Por qué es necesario considerar esos factores? Pues principalmente porque el presupuesto del proyecto es limitado y si nos ponemos a construir ETL complejos sobre un número elevado de indicadores, nos vamos a comer el dinero en esto, algo que no es ni práctico, ni conveniente. Además, tenemos el handicap de que podemos invertir en hacer estos ETL complejos, pero en el momento en que nos cambien el la estructura de los datos en los ficheros de entrada o su formato, la inversión realizada en el ETL complejo no habrá servido y habrá que realizar modificaciones sobre el mismo o incluso implementar uno nuevo (si los cambios en la fuente de entrada han sido importantes) ¿Que habrá que construir algún que otro ETL complejo sobre algunos ficheros para obtener directamente, sin intervención humana, la información necesaria para dar respuesta a un indicador? Pues es algo que será muy probable e incluso necesario en algunos casos, sobre todo en aquellos donde una transformación manual o semimanual sea tremendamente pesada, costosa y con probabilidad de error y el indicador o indicadores que pueden requerir esa información se consideren relevantes. Pero en el resto de casos, si es posible lo mejor es plantear un modelo objetivo de formato de la información y del fichero e intentar alcanzar acuerdos para que la información sea entregada en ese formato o bien tener medios humanos para realizar esa transformación. ¿Que no es posible alcanzar esos acuerdos o no se dispone de esos medios? Pues habrá que recurrir entonces a realizar los ETL sobre dichos ficheros, pero volvemos a lo mismo, serán procesos complejos, por lo que hay que habrá que priorizar aquellos indicadores que tengan una mayor importancia.

En cualquier caso, es fundamental documentar, como he comentado anteriormente los ETL y si hay que realizar un proceso manual o semimanual para pasar una información que viene estructurada de una determinada manera en un fichero con un determinado formato a una estructura y formato objetivo, también es necesario documentarlo, especificando además quién debe suministrar los ficheros originarles y con qué periodicidad. Esta documentación es necesario mantenerla perfectamente actualizada.

Continuará…

2 comentarios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: