Ceci est une ancienne révision du document !


Définition et implémentation des règles de ACV dans un outil ETL pour les entrepôts de données spatiales

Contexte

Un entrepôt de données est « une collection de données, intégrées, non volatiles et historiées pour la prise de décisions » (Kimball, 1996). Dans un entrepôt de données, les données sont organisées en fonction des exigences analytiques des utilisateurs. Les entrepôts de données sont peuplés en utilisant différentes sources de données hétérogènes pour lesquelles ils fournissent une vision unifiée et homogène. Contrairement aux données opérationnelles qui ont une durée de vie limitée, les entrepôts de données doivent permettre une analyse historique.

Les entrepôts de données associés à des outils d’analyse On Line Analytical Processing (OLAP), représentent une solution effective pour l’informatique décisionnelle (Kimball, 1996) . Les données dans les hypercubes sont organisées en axes d’analyses appelés dimensions. Les sujets d’analyse, appelés « faits » sont caractérisés par des mesures, qui sont pré-calculées à l’aide de fonctions d’agrégation selon les différentes granularités définies par le schéma hiérarchique de chaque dimension. Dans le cas classique, une mesure est une valeur numérique qui décrit quantitativement le fait. Ainsi une analyse multidimensionnelle portant sur un fait « ventes » d’un ensemble de magasins pourra être réalisée en définissant comme mesures « le volume de la vente» et « le montant de la vente». Le processus d’analyse est conduit par la navigation dans le cube multidimensionnel. Les opérateurs OLAP (roll-up, drill-down, slice, etc.) permettent de visualiser les mesures pour des ensembles de membres à des niveaux de granularité sélectionnés par l’utilisateur. Les opérations de forage (roll-up, drill-down) sont fondées sur des fonctions d’agrégation appliquées aux mesures, par exemple la somme appliquée au volume de produits vendus. Des interfaces orientées navigation (tableau de bord, tableau multidimensionnels, graphes) complètent le panel des outils décisionnels.

Les Systèmes d’Aide à la Décision et les systèmes OLAP en particulier, ne présentent aucun instrument pour la gestion des données spatiales. Des solutions, connues sur le terme d’OLAP Spatial, qui visent à intégrer la donnée spatiale dans les entrepôts de données et l'OLAP, ont donc été développées.

L’OLAP Spatial (SOLAP) a été défini par Yvan Bédard comme « une plateforme visuelle conçue spécialement pour supporter une analyse spatio-temporelle rapide et efficace à travers une approche multidimensionnelle qui comprend des niveaux d’agrégation cartographiques, graphiques et tabulaires » (Rivest et al., 2005).

L'architecture typique d'un système SOLAP est composée de trois niveaux (Rivest et al., 2005) :

  • L'entrepôt de données spatiales qui intègre les données spatiales et alphanumériques provenant des sources externes. L'intégration est faite en utilisant les outils de Extract-Transform-Load (ETL). Dans l'approche classique (appelé Relational OLAP) les données sont stockées dans une base de données relationnelle. Les données spatiales
  • Le serveur SOLAP qui définit les éléments du modèle spatiomultidimensionnel (dimensions, mesures, etc.) et il implémente les opérateurs SOLAP ;
  • Le client SOLAP qui comme déjà décrit permet l'exploration et la visualisation des données entreposées en utilisant des cartes interactives.

Dans le contexte du projet Energetic (Bimonte et al., 2011), nous nous somme focalisés sur l'analyse de la consommation énergétique des exploitations agricoles dans le but d'identifier les tâches et les contextes de travail les plus consommateurs d'énergie en utilisant un approche SOLAP. Dans ce travail nous avons utilisé les techniques de l'Analyses de Cycle de Vie (ACV) pour la mise en place des indicateurs énergétiques. L'ACV est une discipline qui se base sur la notion de développement durable pour fournir un moyen efficace et systématique pour évaluer les impacts environnementaux d'un produit ou d'un service.

Objectif

Pour la définition de l'entrepôt de données spatiales pour le projet Energetic plusieurs problèmes de modélisation multidimensionnelle ont émergés. En particulier, le processus ETL s'est avéré très complexe car les consommations énergétiques des différents produits (carburants, engrais, etc.) sont mesurés avec des unités de mesures différentes (par exemple Litre et Kg N). D'ou la nécessité d'utiliser des tableaux de conversion issus des méthodes ACV afin de pouvoir stocker les consommations énergétiques dans l'entrepôt de données et de les analyser en utilisant la même unité de mesure.

Ce processus nous a permis de garantir une cohérence et une bonne qualité des données et donc de l'analyse SOLAP. Ce processus a été réalisé manuellement car les outils d'ETL existants ne prennent pas en comptes les aspects concernant les unités de mesures des éléments spatio-multidimensionnels.

L'objectif principal du stage est donc d'automatiser le processus d'alimentation des entrepôts de données en utilisant les outils de conversion de l'ACV.

Plan

Les objectifs à atteindre sont :

  1. Étudier l'outil SOLAP (JRubik) et l'entrepôt de données Energetic ;Étudier les techniques de conversion de l'ACV pour les données de l'entrepôt de données Energetic ;
  2. Enrichir le modèle UML pour les entrepôts de données spatiales proposé en (Boulil et al., 2011) avec les unités de mesures, par exemple en utilisant des ontologies déjà existantes comme Measurement Units Ontology (MUS, 2011)
  3. Définir un système qui à partir des modèles UML des entrepôts de données et des règles de conversion, génère des scripts d'alimentation SQL ;
  4. Liste numérotéeDéfinir une interface graphique pour le système qui permet d'ajouter des nouvelles règles de conversion et des scripts d'alimentation facilement.

Questions pratiques

Le stage se déroulera au Cemagref de Clermont-Ferrand au sein de l'équipe Copain (http://motive.cemagref.fr/copain/presentation). La rémunération sera de l'ordre de 400 euros.

Le stage pourra éventuellement être prolongé par un CDD d'ingénieur d'étude pour une durée de 12 mois.

Références

KIMBALL Ralph. The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses. New York : John Wiley & Sons, 1996, 374 p.

RIVEST Sonia, BÉDARD Yvan, PROULX Marie-Josée, NADEAUM Martin, HUBERT Frederic et PASTOR Julien. SOLAP: Merging Business Intelligence with Geospatial Technology for Interactive Spatio-Temporal Exploration and Analysis of Data. Elsevier : Journal of International Society for Photogrammetry and Remote Sensing, 2005, Vol. 60, n° 1, 17-33 p.

Sandro Bimonte, Mylène Escalier, Jean-Pierre Chanet, Kamal Boulil, Analyse des indicateurs énergétiques des entreprises agricoles : une approche OLAP Spatial, rapport technique, Cemagref, 2011

BOULIL, K., BIMONTE, S., FRANCOIS PINET. Un modèle UML et des contraintes OCL pour les entrepôts de données spatiales : de la représentation conceptuelle à l'implémentation. To appear in: Revue Ingénierie des Systèmes d'Information, Lavoisier, 2011

Measurement Units Ontology, http://forge.morfeo-project.org/wiki_en/index.php/Units_of_measurement_ontology#Alternatives_to_represent_measurable_quantities_in_RDF, 2011

Contact