archivo

Archivos diarios: abril 3, 2009

Sigamos con la teoría.

La base del desarrollo de Datawarehouse o Datamarts independientemente de que se opte por una implementación basada en cubos, por una implementación basada en un modelo de datos optimizado para el análisis de la información o por ambas, se basa en un procedimiento denominado ETL (Extract, Transform and Load) que tiene como objetivo, en líneas generales, coger los datos desde las distintas fuentes origen, que pueden ser bases de datos de los sistemas operacionales, ficheros ofimáticos, etc…, transformarlos a unidades coherentes con el modelo o modelos con los que se va a trabajar y cargarlos en dichos modelos.

Como es lógico, la existencia de un proceso ETL y las bases teorícas presentadas en la anterior entrada implica que la información con la que se trabaja en los sistemas de soporte a la decisión no es información en línea, existiendo por tanto un tiempo de desfase entre la información “fresca” de los sistemas operacionales fuentes y la información con la que se trabaja en los almacenes de datos. Dependerá del tipo de información que se maneje (también influirá el volumen) la ventana de tiempo que se deja entre actualización y actualización del Datamart o del Datawarehouse. Si la ventana del tiempo es adecuada, no tendrá importancia que la información con la que se trabaja no esté en línea.

También es conveniente destacar que en función de la solución de Business Intelligence que se aplique, en ocasiones se actualizará la información del almacén de datos con datos nuevos procedentes del operacional (realizándose los ajustes necesarios si fuera preciso, por actualizaciones que afectan a registros ya cargados) y en otras será más rentable un borrado y carga completo.