Prédiction dans les cubes de données OLAP

Dimension: px
Commencer à balayer dès la page:

Download "Prédiction dans les cubes de données OLAP"

Transcription

1 Prédiction dans les cubes de données OLAP Sabine Loudcher Rabaséda 2, Omar Boussaid 2 Anouck Bodin Niemczuk 1, Riadh Ben Messaoud 1 Laboratoire ERIC Université de Lyon, Lumière Lyon2 5 avenue Pierre Mendès-France Bron Cedex, France 1 {sabine.loudcher, omar.boussaid}@univ-lyon2.fr 2 {abodin, rbenmessaoud}@eric.univ-lyon2.fr Résumé L analyse en ligne OLAP est une solution reconnue pour l aide à la décision. Il est possible de rendre plus performante l analyse en ligne en la couplant à la fouille de données. En effet, l OLAP se limite à l analyse exploratoire par navigation dans les données. L utilisateur n est pas guidé pour expliquer et anticiper des événements à partir des faits existants. Dans cet article, nous proposons d étendre l OLAP à des capacités de prédiction. Notre approche est basée sur les arbres de régression et consiste à prédire une valeur de la mesure de nouveaux agrégats de données. L utilisateur bénéficie d éléments informatifs à valeur projective et le modèle de prédiction renforce sa connaissance des phénomènes existants dans les données. L intérêt de la démarche est qu elle s appuie sur un processus d apprentissage automatique et sur l exploitation adaptée de celui-ci dans l environnement OLAP selon les besoins de l utilisateur. Mots clés Analyse en ligne, cube de données, fouille de données multidimensionnelle, prédiction, what-if analysis. 1 Introduction L analyse en ligne OLAP (On Line Analytical Processing) soutient les entrepôts de données dans le processus d aide à la décision. Grâce à leur modélisation multidimensionnelle en étoile ou en flocon de neige, les entrepôts permettent la construction de cubes de données adaptés à l analyse en ligne. Un cube de données est une vue multidimensionnelle où chaque cellule représente un fait selon des axes d analyse. Ces derniers correspondent aux dimensions du cube. Le fait est observé par une mesure ou plus, à laquelle est associée une fonction d agrégation (SUM, AVG, MAX, MIN, COUNT,...). Une dimension peut être organisée en hiérarchie, 1

2 par exemple : Jour Mois Année. Les faits peuvent donc être observés selon différents niveaux de granularité. La construction d un agrégat sur les mois, par exemple, permet d exprimer les faits plus finement que sur les années. Ensuite, c est à l utilisateur OLAP de naviguer, explorer et analyser les données d un cube afin d en extraire des informations pertinentes. Cependant, il n existe pas d approche pour guider l utilisateur dans l exploration des cubes, ni d approche pour approfondir l analyse vers l explication et la prédiction. Par exemple, pour étudier les résultats d étudiants à un examen, un utilisateur peut construire un cube de données à trois dimensions, Filières, Sexe et Matières, et prendre pour mesure la moyenne des notes des étudiants. Selon les filières suivies, toutes les matières ne sont pas enseignées. Il y a donc des cellules vides. L utilisateur peut se demander quelle serait la note moyenne de certains étudiants s ils suivaient telle matière. Il connaît les modalités des dimensions des cellules vides et les valeurs de la mesure des cellules voisines. Il peut donc se demander dans quelle mesure, à partir de ces cellules pleines, la cellule vide voisine peut se voir affecter une valeur. L OLAP requiert donc de nouveaux outils automatiques pour extraire la connaissance potentiellement existante au sein d un cube de données. Dans [2], ce constat a motivé une extension des capacités de l OLAP à la visualisation, à la classification et à l explication. Coupler les méthodes de fouille de données avec la technologie OLAP est une approche qui a déjà fait ses preuves. [18, 5, 14] abordent le couplage des deux domaines et la problématique de la fouille de données multidimensionnelle pour l aide à la navigation et pour l analyse approfondie des relations dans les données. Les premières tentatives remontent à 1997 avec les travaux de Han [11] qui introduit la terminologie On-Line Analytical Mining (OLAM) et avec la création du système DB- Miner. Cependant les références relatives à ces derniers travaux décrivent davantage le côté fonctionnel et manquent de précisions sur les formalismes et techniques employées pour déployer les méthodes de fouille de données. Dans cet article, nous ciblons l extension de l OLAP à de nouvelles capacités d analyse, pour la prédiction. Dans un processus décisionnel, un utilisateur après observation des faits OLAP dans un cube, anticipe intuitivement la réalisation d événements futurs. Il est possible d assister l utilisateur dans cette tâche. Le couplage lui permet de prédire une valeur de la mesure de faits inexistants dans un cube de données avec une technique de type arbre de régression. Ainsi, nous nous plaçons dans le cadre du What if analysis tel qu il est défini par Golfarelli et al. [10], où le procédé de projection dans l avenir illustre une démarche centrée sur l utilisateur OLAP. Notre approche s appuie sur une démarche d apprentissage automatique et permet, en plus, une exploitation adaptée des résultats fournis dans l environnement OLAP. Par conséquent, nous parvenons à enrichir l analyse en ligne en complétant les données existantes par anticipation de faits futurs. Dans la section 2, nous présentons une synthèse de l état de l art. Nous définissons des critères pour réaliser une comparaison des travaux. A partir de cette étude, nous positionnons, en section 3, nos objectifs pour la prédiction dans les cubes de données, puis, nous développons notre proposition via une formalisation accompagnée d un exemple 2

3 illustratif. La section 4 présente une étude de cas sur un jeu de données réelles. Enfin, nous dressons le bilan de nos contributions et présentons nos perspectives dans la section 5. 2 État de l art Avec le couplage de la fouille de données et de l OLAP nous somme face à un problème combinatoire lié à la fouille de données multidimensionnelle [17]. Les défis sont liés à la taille des données, à la dimensionnalité du cube et aux hiérarchies. Face à ces enjeux, nous avons défini des critères de comparaison pour étudier les travaux existants. Nous présentons donc une synthèse de l état de l art au regard de ces critères. À partir du tableau 1, les propositions se distinguent selon : (i) l objectif et les résultats de la méthode ; (ii) les propriétés du couplage et (iii) les étapes retenues pour l apprentissage automatique. Lorsque la méthode prend en compte tous les aspect d un critère nous indiquons le signe, sinon, pour un critère partiellement considéré ou restant flou, nous utilisons le signe. Concernant les propriétés du couplage, la prise en compte de la structure multidimensionnelle des données est un élément permettant d apprécier la rigueur du couplage au vu des caractéristiques des cubes OLAP. Un point supplémentaire consiste à s assurer que les hiérarchies des cubes sont considérées, aussi bien lors de l élaboration du modèle de prédiction que lors de l exploitation des résultats dans l environnement OLAP. Enfin, l exploitation des résultats et plus précisément du modèle de prédiction est apparue comme un élément marquant une bonne intégration de la fouille de données à l analyse en ligne. En effet, il faut proposer un modèle, l interpréter et l associer à la sémantique OLAP. Ainsi, l utilisateur dispose de nouveaux outils tout en restant dans une manipulation et une compréhension habituelle de son environnement d analyse. Afin d approfondir la qualité du couplage proposé et d amener l utilisateur à des connaissances valides, nous avons défini trois critères internes au processus d apprentissage : le prétraitement des données, la sélection des variables explicatives et la validation du modèle (cf. Tab.1 : Processus déployé). À noter, la première phase de prétraitement des données ne doit pas dénaturer les données gérées par les cubes. Elle doit tenir compte des caractéristiques multidimensionnelles et hiérarchiques des données. Proposition Résultat Propriétés Processus déployé Nouveau cube Niveau d agrégation Nouveaux faits Indicateurs Sarawagi et al. [18] Cheng [8] Palpanas et al. [16] Chen et al. [5] Chen et al.[6] Y. Chen et Pei [7] Approche proposée Tab. 1 Comparaison des propositions d intégration de la prédiction dans les cubes OLAP. Sarawagi et al. [18] utilisent un cube de valeurs prédites pour guider l utilisateur dans Multi-dimensionnalités Hiérarchies Exploitation des résultats Préparation des données Sélection des variables Validation du model 3

4 l exploration du cube initial. Les déviations entre les deux cubes sont exploitées pour proposer trois indicateurs à l utilisateur. Ceux-ci consistent à indiquer dans le cube de base, les cellules présentant une valeur exceptionnelle ainsi que les dimensions et les cellules à forer pour trouver des valeurs singulières. Les travaux de Cheng [8] ont eux, pour objectif la prédiction de nouveaux faits. Il propose de générer un nouveau cube en utilisant un modèle linéaire généralisé. Le cube obtenu correspond au modèle de prédiction. Palpanas et al. [16] utilisent la prédiction pour prédire les faits originels d un cube à partir des faits agrégés. Ceci a un intérêt lorsque les utilisateurs ne disposent pas de l intégralité des données. Dans le cas où les données d origines sont disponibles, il est proposé d indiquer les exceptions dans les données en les comparant à celles approximées. L objectif de l approche de Chen et al. [5] est similaire à celle de Sarawagi et al. [18]. Elle consiste à identifier des sous-ensembles de données intéressants à la lumière d un modèle prédictif. Le modèle prédictif est un cube où la mesure indique un score ou une distribution de probabilités associée à la valeur de la mesure qui peut être attendue dans le cube d origine. Par la suite, lorsque Chen et al. [6] proposent de prédire la mesure d un nouveau fait, leur effort se situe en amont de la construction du modèle de prédiction et consiste à rechercher l ensemble de données le plus pertinent pour l apprentissage selon le nouveau fait que l utilisateur souhaite prédire. On note sur le tableau 1 que les travaux se concentrent davantage sur l ensemble de données utilisé pour l apprentissage que sur la validation du modèle, où seuls ces derniers travaux de Chen et al [5, 6] traitent le sujet. Enfin, la proposition de Y. Chen et Pei [7] consiste à construire des cubes comprenant les résultats d une régression linéaire. Un cube de mesure compressible est généré où chaque valeurs du cube indique la tendance générale des données. Les mesures sont agrégées et permettent la recherche de zones exceptionnelles et de prévoir des tendances des données. Ce dernier type d approche a été largement traité dans la littérature ; à partir d un modèle, le cube est synthétisé pour gagner en coût de stockage et en temps de réponses aux requêtes : [12, 1]. Souvent, les auteurs abordent la notion de requête de type What-if, car l utilisateur peut grâce au modèle utilisé avoir une estimation la valeur de faits. Imieliński et al. [14] abordent aussi la notion de requête What-if lors de la généralisation des règles d association aux cubes de données. [9, 13] ont ensuite repris cette aproche pour les cubes compressés. Cependant, nous considérons que l ensemble de ces travaux sur le What-if ne présente pas des objectifs de prédiction, de classification, au sens usuel de la fouille de données. Tout d abord, nous discernons une dichotomie entre les travaux à la fois selon la méthodologie qu ils mettent en place et selon le type de résultats qu ils proposent à l utilisateur. D un côté, la proposition de Chen et al. [5] intègre un processus de fouille de donnée. De l autre côté, les solutions proposées par Sarawagi et al. [18] s intègrent parfaitement dans l environnement OLAP en exploitant le modèle de prédiction. Nous pensons que la combinaison des deux permettrait de proposer une réelle intégration de la prédiction à l analyse en ligne. 4

5 Dans la proposition de Chen et al. [5], l utilisateur peut optimiser la précision de la prédiction en paramétrant l élaboration du modèle. Mais a-t-il les compétences requises? En effet, un utilisateur OLAP observe son métier, son domaine professionnel et n a pas de connaissance statistique particulière. Le processus de construction du modèle de prédiction doit être transparent. Cependant l utilisateur doit être au cœur du processus, pour la définition des besoins d analyse et pour l exploitation des résultats lors de son exploration du cube. Pour les mêmes raisons, il nous semble important qu il n y ait pas de contraintes sur les conditions d utilisation des techniques de fouille. [5, 6] et [7] reposent sur des méthodes assez complexes. Dans les travaux de Chen et al. [5], la méthode de prédiction doit être algébriquement ou distributivement décomposable, et dans les travaux de Chen et Pei [7], la régression linéaire utilisée repose sur des hypothèses de normalité et d homoscédasticité des données. Dans notre approche nous voulons nous affranchir de ces hypothèses sur les données et proposons une méthode sans contraintes. Les cubes de données représentent des faits selon plusieurs axes d analyse. Les dimensions sont des variables qualitatives et les faits sont généralement mesurés par des variables quantitatives continues. Parmi les méthodes de prédiction, les arbres de régression répondent à ces caractéristiques et n ont pas besoin d hypothèses sur les données. De même, les résultats fournis à l utilisateur sont souvent trop complexes pour être pertinents dans le cadre de l OLAP. [5] et [7] renvoient à l utilisateur un modèle prédictif sous forme de cube. Cela a pour conséquences les difficultés habituelles concernant la recherche des régions les plus intéressantes du cube par l utilisateur. En effet, comment trouver les zones dans le cube qui présentent les tendances les plus fiables au sujet des données? Nous avons choisi de nous placer davantage du côté des besoins de l utilisateur au sein de l environnement OLAP en y répondant plus précisément. Nous utilisons les processus d apprentissage de façon simple et proposons une prédiction pour les valeurs de mesure de cellules ciblées selon les besoins de l utilisateur. Nous intégrons ces prédictions aux données existantes au sein du cube d origine, l utilisateur n a pas à choisir entre explorer des données réelles mais incomplètes ou uniquement des données représentant des tendances. Il n a pas à explorer le modèle pour l exploiter, celui-ci est déjà utilisé en fonction de ses besoins. Les arbres de régression permettent donc, par une discrimination des variables explicatives, de proposer une prédiction pour des cellules vides. Ils proposent des résultats compréhensibles ne s apparentant pas à une boîte noire pour l utilisateur. Ils fournissent, par la même occasion, un modèle explicatif des faits existants selon les variables discriminées. 3 Prédiction dans OLAP 3.1 Objectifs Nous proposons une nouvelle approche pour la prédiction d une valeur de la mesure de nouveaux faits dans un cube de données. Dans cette démarche prospective, nous couplons une méthode d apprentissage supervisé, les arbres de régression, avec l analyse 5

6 en ligne. La particularité de nos travaux est de proposer un cadre respectant le contexte OLAP, avec une exploitation des résultats adaptée aux besoins de l utilisateur OLAP et basé sur un processus complet de fouille de données. Les objectifs de notre démarche sont les suivants : permettre à l utilisateur de prédire la valeur d une mesure pour un nouveau fait selon un contexte d analyse défini ; placer l utilisateur OLAP au cœur du processus de prédiction ; intégrer un processus d apprentissage automatique complet dans l OLAP ; exploiter les résultats obtenus dans la philosophie de l environnement OLAP ; tendre vers un cadre formel pour l analyse en ligne prédictive. Ces différents points ancrent notre proposition dans une démarche qui répond aux enjeux du couplage de la fouille de données et de l analyse en ligne. Il est important d associer la sémantique OLAP à la méthode de fouille de données pour préserver la philosophie de l analyse en ligne comme Sarawagi et al. [18] le proposent. En exploitant le modèle fourni à l utilisateur au sein des cubes de données, celui-ci n a pas besoin de connaissances approfondies sur les arbres de régression. Nous nous démarquons ici des travaux de Chen et al. [5] où l utilisateur n a pas à sa disposition un modèle à explorer sous forme de cube mais des résultats intégrés au cube d origine, selon ses besoins. Nous repoussons donc les limites de la navigation exploratoire en injectant les techniques de prédiction au cœur des processus OLAP. Nous souhaitons aussi que notre approche fournisse des résultats précis et des indicateurs adaptés pour que l utilisateur mesure la qualité des valeurs prédites obtenues. En effet, il n est pas déterminé à l avance si une cellule mérite d être prédite ou non, le choix est laissé libre à l utilisateur. Il faut donc lui indiquer le degré de validité d une prédiction. Ainsi notre approche intègre un processus complet d apprentissage avec une phase de préparation des données, une phase de sélection des variables explicatives, une phase d apprentissage et une phase de validation peu approfondie dans les travaux précédents. Ainsi, un utilisateur peut, par exemple, prédire quelle serait la moyenne d un étudiant pour une nouvelle matière donnée. De plus, en lisant l ensemble du modèle de prédiction, l utilisateur peut expliquer cette moyenne au regard des valeurs des variables explicatives retenues par le modèle. Nous nous plaçons dans le cas d un cube de données, dans lequel l utilisateur définit un contexte d analyse. Le contexte d analyse correspond aux niveaux hiérarchiques et aux dimensions d analyse sur lesquels l utilisateur souhaite prédire de nouveaux faits. Dans un premier temps, en vue de simplifier l approche, nous considérons que le cube comporte une seule mesure. Aussi, avec notre objectif de proposer un cadre formel pour l analyse en ligne prédictive, nous nous intéressons à l extension de la notion de requête What-if et au problème soulevé par Golfarelli et al. [10] : il n existe à l heure actuelle, aucune démarche méthodologique pour un cadre complet de what if analysis permettant aux utilisateurs OLAP de réaliser des analyses prédictives. À noter que, la notion de requête what-if se différencie ici des travaux de Imieliński et al. [14] et de leur reprise par Han et al. [13]. Nous sommes intéressés par la prédiction, la classification de nou- 6

7 veaux faits et non par l analyse des tendances dans les données et des conséquences de la navigation dans le cube sur la valeur de la mesure. Notre objectif est donc de proposer un cadre d analyse en ligne prédictive, fondé à la fois sur le contexte OLAP et sur la fouille de données. Notre démarche répond à la problématique du couplage et propose un outil fiable et accessible à l utilisateur OLAP. Le processus d aide à la décision en est enrichi. 3.2 Approche proposée Pour déployer notre approche et pour plus de clarté, nous utilisons un exemple illustratif simple de cube de données fictif à trois dimensions : Sexe (f, m), Filières (S, ES, L), Matières (A, B, C, D, E). La mesure correspond à la moyenne des notes d élèves de Terminale. Le cube de données est composé de 30 cellules (produit des cardinalités des dimensions). On considère que, sur les 30 cellules du cube, 6 cellules sont vides et leur valeur est à prédire (cf. Fig.1(a)). Nous reviendrons sur les figures 1(b) et (c) lors du déploiement de notre méthode. Définition (Cube de données) Soit C un cube de données avec un ensemble non vide de d dimensions D = {D 1,..., D i,..., D d } et m mesures M = {M 1,..., M q,..., M m }. H i est l ensemble des niveaux hiérarchiques de la dimension D i. H i j est le j ième niveau hiérarchique de la dimension D i. Par exemple, la dimension Filière (D 1 ) contient deux niveaux : le Code filière noté H1 1 et le niveau d agrégation totale All correspondant au niveau hiérarchique zéro noté H0. 1 A ij représente l ensemble des modalités du niveau hiérarchique Hj i de la dimension D i. Le niveau Code filière (H1) 1 de la dimension Filière (D 1 ) contient trois modalités : S, notée A 11 1, ES, notée A 11 2 et L, notée A D une manière générale, un cube permet de représenter un ensemble de faits, en présentant les valeurs prisent par une mesure M q selon l ensemble de modalités A ij des dimensions {D 1,..., D i,..., D d } qui caractérisent les faits pour un niveau d agrégation donné Hj. i Notations générales Nous reprenons les définitions d un cube et d un sous-cube de données proposées dans [2] et les complétons selon nos besoins. Fig. 1 Valeurs prédites au sein d un cube de données. À partir du cube de données C, nous sélectionnons un contexte d analyse. Pour cela, nous définissons la notion de sous-cube de données. 7

8 Définition (Sous-cube de données) Soit D D un sous-ensemble non vide de p dimensions {D 1,..., D p } du cube de données C (p d). Le p-uplet (Θ 1,..., Θ p ) est un sous-cube de données dans C selon D si i {1,..., p}, Θ i et il existe un indice unique j 0 tel que Θ i A ij. Un sous-cube de données correspond à une portion du cube de données C. Un niveau hiérarchique Hj i est fixé pour chaque dimension retenue D i D et un sous-ensemble Θ i non vide de modalités est sélectionné dans ce niveau parmi l ensemble des modalités A ij. On note qu une cellule c d un cube de données C correspond au cas particulier d un sous-cube de données défini selon un ensemble de dimensions D = {D 1,..., D p }, (p d) et tel que i {1,..., p}, θ i est un singleton contenant une seule modalité A ij appartenant à un niveau hiérarchique de la dimension D i. Le point de départ de notre méthode est un contexte d analyse (Θ 1,..., Θ p ), avec n faits OLAP observés selon la mesure quantitative M q défini par l utilisateur au sein d un cube de données C. Nous définissons le contexte d analyse suivant : (Θ 1, Θ 2, Θ 3 )=({S, ES, L},{a, b, c, d, e},{m, f }). Soit (Θ 1, Θ 2, Θ 3 ) = C dans notre exemple illustratif (cf. Fig. 1(a)). La mesure M q correspond aux notes des étudiants. Notons que, dans ce contexte d analyse, les dimensions jouent le rôle de variables explicatives et la mesure M q correspond à la variable à prédire Construction et validation du modèle de prédiction Afin d appliquer une méthode d arbre de régression sur le contexte d analyse (Θ 1,..., Θ p ), nous segmentons ce dernier en deux bases aléatoires de faits : 70% des faits servent à l apprentissage et à la construction du modèle et 30% sont réservés pour évaluer le modèle obtenu. Dans notre exemple, la méthode utilisée est CART de Breiman et al. [4] qui construit un arbre de régression binaire. La base d apprentissage est avec cette méthode, segmentée en deux : une partie growing set maximise l homogénéité des groupes et une partie pruning set réduit au minimum l erreur de prédiction. Classiquement les critères d évaluation d un arbre de régression sont le taux d erreur moyen et la réduction de l erreur. La moyenne de l erreur indique la moyenne de l écart entre la valeur observée et la vraie valeur de la variable à prédire. Plus la moyenne de l erreur se rapproche de 0, plus le modèle de prédiction est précis. Pour notre exemple illustratif, la moyenne de l erreur est de 0,243 ce qui est acceptable. La réduction de l erreur correspond au rapport entre la somme des carrés des écarts entre la prédiction et la valeur de la variable à prédire et la somme des carrés des écarts à la moyenne. La prédiction est parfaite si cet indicateur est égal à Interprétation du modèle prédictif Après la construction du modèle, l arbre de régression retourne λ règles de décision (λ 0). L ensemble des règles d un modèle est noté R = {R 1, R 2,..., R λ }. Définition (Règle de décision) Soit R(X Y ; S; σ) une règle de décision R. X est une conjonction et/ou une disjonction de modalités {Θ 1,..., Θ p } et correspond aux antécédents de la règle. Y est la valeur 8

9 moyenne prédite pour la mesure M q sachant X. S est le support de la règle et σ est l écart type de M q, dans l ensemble d apprentissage vérifiant X. En plus des deux indicateurs de fiabilité du modèle (taux d erreur moyen et la réduction de l erreur), deux critères permettent d évaluer la qualité d une règle. Le premier est l effectif relatif S des faits qui supportent la règle. Le deuxième est l écart type σ de M q, qui indique l homogénéité des faits supportant la règle. Plus l écart type est élevé, plus le groupe de faits supportant la règle est hétérogène. Fig. 2 Arbre de régression obtenu sur le contexte d analyse. Dans notre exemple, nous obtenons l arbre de régression de la figure 2 et les règles suivantes : R 1 (m (ES L) 9, 1 ; 33% ; 0, 83) R 2 (m S 11 ; 17% ; 0, 91) R 3 (f (ES L) 11, 62 ; 33% ; 0, 84) R 4 (f S 14 ; 17% ; 0, 64) Chaque règle correspond à une feuille terminale de l arbre. À titre d exemple, la règle R 1 indique que si l étudiant est de sexe masculin et qu il est en filière ES ou L alors sa moyenne sera de 9,1. Cette règle repose sur 33% des faits présents dans la base d apprentissage. L écart type est de 0,83. Le sexe et la filière sont les variables les plus discriminantes. Elles sont explicatives des résultats des étudiants, contrairement aux matières qui ne sont pas déterminantes Exploitation du modèle prédictif dans l environnement OLAP Au sein du contexte d analyse, l utilisateur désigne la ou les cellules vides qu il souhaite prédire. Les règles adaptées aux cellules sont sélectionnées et appliquées pour prédire une valeur de la mesure dans ces cellules. Soit (Θ 1,..., Θ p ) le contexte d analyse défini par l utilisateur, précisant l ensemble des dimensions et leurs modalités. Soit R = {R 1, R 2,..., R λ } l ensemble des règles de prédiction obtenues. L utilisateur désigne la ou les cellules c = (θ 1,..., θ p ) parmi le contexte d analyse (Θ 1,..., Θ p ), pour lesquelles il souhaite prédire la valeur de la mesure. Chaque θ i est un singleton contenant une seule modalité pour la dimension à laquelle il est rattaché. On note M q (c) la valeur de la mesure M q que prend la cellule c. Pour chaque cellule c désignée par l utilisateur, tel que M q (c) = Null, c est à dire que la cellule est vide, on recherche la règle R R telle que son antécédent X a l ensemble de ses modalités inclus dans l ensemble des modalités décrivant la cellule c. Il s agit donc de comparer l ensemble des modalités décrivant la cellule aux antécédents X des règles de l arbre de régression. Pour une règle donnée on ne regarde que les conjonctions X de ses modalités. Si X (θ 1,..., θ p ) alors, la valeur moyenne Y de la règle de prédiction peut être affectée comme valeur de la mesure de la cellule. On note M q (c) Y. L opération 9

10 est réitérée pour chaque cellule désignée par l utilisateur pour la prédiction. Sur la figure 1(b), nous avons prédit la valeur de la mesure pour toutes les cellules vides. Par exemple, lorsque nous avons ciblé la cellule décrite par les modalités (f, S, E) pour les dimensions, respectivement, Sexe, Filière et Matières, la règle R 4 (f S 14 ; 17% ; 0, 64) a été sélectionnée, (f S) (f, S, E). Nous constatons que les étudiants de sexe féminin en filière S auront en moyenne 14/20 à la matière E. Pour un autre exemple, en terme de requête de type What-if, l arbre de régression permet de savoir qu elle serait la moyenne des étudiants si l on ouvre une nouvelle matière, D, pour les filières littéraires selon leur sexe. Ainsi nous voyons que les filles en filière littéraire auront 11,62 de moyenne pour cette nouvelle matière D, déjà enseignée dans les autres filières générales. Cette intégration de la prédiction permet aussi à l utilisateur d appréhender les valeurs prévues des agrégats pour un niveau hiérarchique supérieur. Les agrégats sont recalculés en considérant les nouvelles valeurs prédites. Par exemple en choisissant le niveau All pour les matières, la moyenne des notes peut être calculée selon le sexe et la filière. Nous obtenons sur la figure 1(c), le résultat suivant : la moyenne prévue pour l ensemble des matières du tronc commun, pour les garçons de la filière L, est de 8,72/20. Cette moyenne tient compte de la note prédite pour les garçons si l on ouvre la matière D à l enseignement en filière L Visualisation du modèle prédictif dans OLAP Une extension envisagée pour la valorisation du modèle prédictif dans les cubes de données consiste à utiliser des indicateurs visuels pour l utilisateur. Sur les figures 1(b) et 1(c), nous utilisons une nuance de gris pour une valeur prédite ou un agrégat recalculé à partir des valeurs prédites. Nous pensons que selon les critères de qualité d une règle (effectif et écart type), nous pouvons nuancer ce code de couleur. Ainsi l utilisateur peut directement interpréter les prédictions au sein du cube de données. 4 Étude de cas Pour expérimenter notre travail sur un cas réel, nous utilisons un jeu de données médicales relatif au dépistage du cancer du sein. Les données sont extraites de la base DDSM (Digital Database for Screening Mammography 1 ). À l origine, la base DDSM contient dossiers de patients. Nous disposions des données précédemment modélisées selon un schéma en étoile par [3]. Il y a faits dans l entrepôt. Chaque fait correspond à une mammographie et aux informations sur le patient. 4.1 Contexte d analyse Parmi les dimensions et les niveaux d agrégation existants, nous retenons : l indice d évaluation de la lésion, l indice de subtilité de la lésion, le type de pathologie, le type de lésion, la classe d âge du patient et le type de scanner utilisé pour l exa- 1 http ://marathon.csee.usf.edu/mammography/database.html 10

11 men. La mesure correspond au nombre de zones suspectes détectées sur une mammographie. Au total nous avons faits agrégés et cellules dans le contexte d analyse ainsi défini. Nous proposons une représentation sous forme de schéma en étoile du contexte d analyse retenu sur la figure 3. Ainsi, dans ce contexte d analyse, un utilisateur peut répondre à différentes questions, comme par exemple le nombre de régions suspectes susceptibles d être détectées selon la certitude du médecin lors de son évaluation, lorsque la subtilité est de 2, que la pathologie est maligne avec une lésion de type calcification amorphe, que la classe d âge du patient est ans et que le type de scanner est lumisys laser (cf. tableau 2). 4.2 Modèle de prédiction Nous utilisons l algorithme d apprentissage AID (Automatic Interaction Detection) de [15], pour construire l arbre de régression dans le contexte d analyse précédemment défini. AID est une méthode fondée sur le principe de partitionnement récursif. Le développement de l arbre s arrête en un niveau optimum, en employant comme règle d arrêt un test de Fisher comparant les variances des groupes formés par la discrimination des variables. N effectuant pas de post élagage coûteux en terme de temps de calcul comme CART, qui a précédemment été utilisé, AID est plus approprié vis à vis du volume de nos données. Nous avons tout d abord utilisé un échantillon d apprentissage correspondant à 70% des données du contexte d analyse, soit faits agrégés, et un échantillon test correspondant à 30% des données, soit 446 faits agrégés. Fig. 3 Représentation sous forme de schéma en étoile du contexte d analyse. 4.3 Résultats L arbre de régression obtenu comporte 8 sommets dont 6 feuilles (cf. Fig.4). Sur l échantillon test correspondant à 30% des données, l erreur moyenne de l arbre est de 0,11 et la réduction de l erreur est de 0,64. La réduction de l erreur sur l échantillon d apprentissage est de 0,71. Le modèle doit donc être exploité avec précaution. Les variables explicatives discriminantes (dimensions) sont : l indice correspondant à l évaluation du médecin et le type de scanner employé lors de l examen du patient. Les autres dimensions ne sont donc pas des variables expliquant le nombre de régions suspectes. Nous obtenons 6 règles correspondant à 11

12 Fig. 4 Arbre de régression sur le cube de données. chacune des feuilles terminales de l arbre : R 1 ((0 1) 2, 2 ; 7, 12% ; 0, 87) R 2 (2 6 ; 11, 65% ; 4, 24) R 3 (5 3 ; 13, 76% ; 1, 47) R 4 ((dba21 lumisys laser) (3 4) 2, 8 ; 40, 62% ; 1, 48) R 5 ((howtek43.5) (3 4) 2, 1 ; 26, 18% ; 0, 55) R 6 ((lumisys lumisys laser densot) (3 4) 6 ; 0, 67% ; 1, 51) À titre d exemple, la règle R 4 est à interpréter de la sorte : si le type de scanner est lumisys laser ou dba 21 et que l indice d évaluation du médecin est de 3 ou 4, alors le nombre de régions suspectes sera en moyenne 2,8. 40,62% des individus de l ensemble d apprentissage supportent cette règle et l écart type est de 1,48. Nous avons désigné 5 cellules pour lesquelles nous souhaitions effectuer une prédiction de la valeur de la mesure. Nous retrouvons en gras dans le tableau 2, les résultats obtenus pour ces 5 cellules. La règle R 4 est utilisée pour la quatrième ligne du tableau. Dans le cadre du What if analysis, elle permet de répondre à la question que peut se poser un utilisateur : À combien de régions suspectes doit t-on s attendre si l on a un indice d évaluation de la part du médecin de 3, sachant que l examen a été réalisé avec un scanner de type lumisys laser, que la subtilité est de 2, que la pathologie est maligne avec une lésion de type calcification amorphe et que la classe d âge du patient est de ans? Assessment Number suspect area (AVG) 0 2,2 1 2, ,8 5 3 Tab. 2 Valeurs prédites pour le nombre de régions suspectes. On note pour la règle R 2 un écart type élevé (4,24). Les prédictions pouvant être obtenues à partir de cette règle sont donc à prendre avec précaution. La validité des résultats peut par la suite être indiquée à l utilisateur grâce à un code visuel de couleur, permettant de mettre en exergue les résultats à manipuler avec prudence. Le temps de calcul de notre approche est en partie lié au type d arbre de régression utilisé pour la construction du modèle de prédiction selon qu il y ait une phase de post élagage ou non. Le contexte d analyse défini par l utilisateur peut aussi avoir un impact fort sur les performances. Selon le niveau d agrégation choisi, le volume des données peut varier considérablement et affecter le temps de calcul lors de la phase d apprentissage. Nous avons réalisé des tests où nous augmentions la taille du contexte d analyse ( 2 et 4). Restant sur des jeux de taille peu volumineuse en fouille de données (5 940 faits utilisés ici au maximum), nous n avons pas remarqué des variations de temps significatives (de l ordre de la seconde). Par ailleurs, 12

13 nous avons noté des variations de temps importantes lorsqu on utilise des variables explicatives où le nombre de modalités est très grand. Ceci a été le cas sur un test réalisé où nous avions plus de modalités pour une dimension du cube d origine. La variable était une représentation textuelle de la taille et de la forme des zones suspectes analysées. Le temps de calcul est alors passé de quelques secondes à plusieurs dizaines de minutes. Au-delà de ces aspects, nous pensons qu il serait intéressant, pour plus de précision, d associer à chaque prédiction le nombre de faits sur lequel elle repose. En effet, une prédiction réalisée pour un agrégat de faits peut mériter une interprétation différente selon le nombre de faits qui le constitue. Il suffit pour cela de construire un deuxième modèle, en parallèle du premier. Ce second modèle est construit non plus pour une mesure choisie par l utilisateur mais pour la mesure COUNT, qui compte les faits associés à chaque agrégat du contexte défini. Nous avions tout d abord pensé à pondérer les agrégats utilisés pour l apprentissage, mais aucune raison ne justifiait de renvoyer une prédiction pour un seul fait lorsque nous ne sommes pas au niveau d agrégation le plus fin. 5 Conclusion Pour améliorer le processus d aide à la décision, nous nous plaçons dans la continuité des travaux émergents sur le couplage entre l analyse en ligne et la fouille de données et étendons les capacités de l analyse en ligne. En appliquant au cœur du processus OLAP une technique de prédiction avec les arbres de régression, nous proposons à l analyste de se placer dans une démarche prédictive et grâce à la discrimination des variables, dans une démarche explicative. Notre première contribution consiste en la réalisation d une comparaison des travaux ayant proposé l utilisation de la prédiction dans les cubes de données. Nous avons relevé une dichotomie entre les travaux ayant un axe méthodologique orienté OLAP et ceux orientés plutôt fouille de données. Notre avis est que les deux types d approches doivent se rejoindre pour proposer à l utilisateur de nouveaux outils adaptés à ses besoins et à la philosophie OLAP tout en s appuyant sur les points forts de la fouille de données. Notre deuxième contribution a été d insérer la prédiction au cœur de l OLAP, avec la prise en compte des prédictions réalisées, dans la suite de la navigation (agrégats supérieurs recalculés). Les travaux précédemment réalisés, comme ceux de Chen et al. [5], proposaient jusque là un modèle de prédiction sous forme de cube, laissé à l utilisateur pour son exploitation. Dans notre approche, l utilisateur peut, pour un contexte d analyse défini, estimer la valeur de la mesure des faits inexistants. Au-delà du What if analysis, il a à sa disposition des indicateurs de fiabilité des règles de décision et plus globalement de l arbre de régression. Nous suggérons un élargissement à des paramètres visuels indiquant à l utilisateur les valeurs prédites des nouveaux agrégats, les valeurs des cellules pouvant être prévues à un niveau d agrégation supérieur et la qualité de chacune de ces prédictions au sein du cube de données. Nos travaux ouvrent diverses perspectives de recherche : pour la prédiction et pour le couplage en général. Tout d abord nous souhaitons revenir à une phase expérimentale 13

14 afin de tester l ensemble des méthodes d arbre de régression. Nous souhaitons aussi aller plus loin dans la formalisation du modèle de prédiction au sujet de son exploitation dans l OLAP. Nous pensons notamment au cas où l arbre de régression ne renvoie pas une prédiction plus précise que la moyenne globale de la variable à prédire sur l échantillon d apprentissage. Aussi, nous souhaitons revenir sur le cas où l utilisateur souhaite explorer un niveau d agréation plus fin tenant compte des prédictions réalisées à un niveau supérieur, ce afin de prendre complètement en compte la notion de niveaux hiérarchiques dans le cadre de l OLAP. Enfin, dans la continuité des recherches de Golfarelli et al. [10] sur le cadre du What if analysis, nous souhaitons étendre notre proposition à un cadre général d analyse en ligne prédictive. Aussi, nous souhaitons intégrer notre méthode de prédiction à la plateforme Web de fouille de données en ligne Mining Cube développée par [2], et étendre le cadre formel général pour une algèbre sur le couplage, proposé dans ces mêmes travaux. Références [1] D. Barbará and X. Wu. Using loglinear models to compress datacube. In WAIM 00 : Proceedings of the First International Conference on Web-Age Information Management, pages , London, UK, Springer-Verlag. [2] R. Ben Messaoud. Couplage de l analyse en ligne et de la fouille de données pour l exploration, l agrégation et l explication des données complexes. PhD thesis, Université Lumière Lyon 2, Lyon, France, Novembre [3] R. Ben Messaoud, O. Boussaid, and S. L. Rabaséda. A data mining-based olap aggregation of complex data : Application on xml documents. International Journal of Data Warehousing and Mining, 2(4), [4] L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone. Classification and Regression Trees [5] B.-C. Chen, L. Chen, Y. Lin, and R. Ramakrishnan. Prediction Cubes. In Proceedings of the 31 st International Conference on Very Large Data Bases (VLDB 05), pages , Trondheim, Norway, August - September ACM Press. [6] B.-C. Chen, R. Ramakrishnan, J. W. Shavlik, and P. Tamma. Bellwether Analysis : Predicting Global Aggregates from Local Regions. In Proceedings of the 32 nd International Conference on Very Large Data Bases (VLDB 06), pages , Seoul, Korea, September ACM Press. [7] Y. Chen and J. Pei. Regression cubes with lossless compression and aggregation. IEEE Transactions on Knowledge and Data Engineering, 18(12) : , Senior Member-Guozhu Dong and Senior Member-Jiawei Han and Fellow-Benjamin W. Wah and Member-Jianyong Wang. [8] S. Cheng. Statistical Approaches to Predictive Modeling in Large Databases. Master s thesis, Simon Fraser University, British Columbia, Canada, February [9] G. Dong, J. Han, J. M. W. Lam, J. Pei, and K. Wang. Mining multi-dimensional 14

15 constrained gradients in data cubes. In VLDB 01 : Proceedings of the 27th International Conference on Very Large Data Bases, pages , San Francisco, CA, USA, Morgan Kaufmann Publishers Inc. [10] M. Golfarelli, S. Rizzi, and A. Proli. Designing what-if analysis : towards a methodology. In Proceedings 9th International Workshop on Data Warehousing and OLAP (DOLAP 2006), pages 51 58, Arlington, USA, [11] J. Han. OLAP Mining : An Integration of OLAP with Data Mining. In Proceedings of the 7 th IFIP Conference on Data Semantics, Leysin, Switzerland, October [12] J. Han, J. Pei, G. Dong, and K. Wang. Efficient computation of iceberg cubes with complex measures. SIGMOD Rec., 30(2) :1 12, [13] J. Han, J. Wang, G. Dong, J. Pei, and K. Wang. Cubeexplorer : online exploration of data cubes. In SIGMOD 02 : Proceedings of the 2002 ACM SIG- MOD international conference on Management of data, pages , New York, NY, USA, ACM. [14] T. Imieliński, L. Khachiyan, and A. Abdulghani. Cubegrades : Generalizing association rules. Tech. Rep., Dept. Computer Science, Rutgers Univ., Aug., [15] J. N. Morgan and J. A. Sonquist. Problems in the analysis of survey data, and a proposal. Journal of the American Statistical Association, 58(302) : , [16] T. Palpanas, N. Koudas, and A. Mendelzon. Using Datacube Aggregates for Approximate Querying and Deviation Detection. IEEE Transactions on Knowledge and Data Engineering, 17(11) : , November [17] R. Ramakrishnan and B.-C. Chen. Exploratory mining in cube space. Data Mining and Knowledge Discovery, 15(1) :29 54, [18] S. Sarawagi, R. Agrawal, and N. Megiddo. Discovery-driven Exploration of OLAP Data Cubes. In Proceedings of the 6 th International Conference on Extending Database Technology (EDBT 98), pages , Valencia, Spain, Mars Springer. 15

Entreposage de données complexes pour la médecine d anticipation personnalisée

Entreposage de données complexes pour la médecine d anticipation personnalisée Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants: Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants: Tassadit BOUADI 22 Juin 2010, Saint Jacut 1 Plan Introduc

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Modélisation d objets mobiles dans un entrepôt de données

Modélisation d objets mobiles dans un entrepôt de données Tao Wan, Karine Zeitouni Laboratoire PRISM, Université de Versailles 45, avenue des Etats-Unis, 78035 Versailles Cedex, France Tao.Wan@prism.uvsq.fr, Karine.Zeitouni@prism.uvsq.fr http://www.prism.uvsq.fr/users/karima/

Plus en détail

Formula Negator, Outil de négation de formule.

Formula Negator, Outil de négation de formule. Formula Negator, Outil de négation de formule. Aymerick Savary 1,2, Mathieu Lassale 1,2, Jean-Louis Lanet 1 et Marc Frappier 2 1 Université de Limoges 2 Université de Sherbrooke Résumé. Cet article présente

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani Datawarehouse: Cubes OLAP Marlyse Dieungang Khaoula Ghilani Table des matières 1 Data Warehouse 3 1.1 Introduction............................ 3 1.1.1 Définition......................... 3 1.1.2 Architecture........................

Plus en détail

C-CUBE: Un nouvel opérateur d agrégation pour les entrepôts de données en colonnes

C-CUBE: Un nouvel opérateur d agrégation pour les entrepôts de données en colonnes C-CUBE: Un nouvel opérateur d agrégation pour les entrepôts de données en colonnes Khaled Dehdouh Fadila Bentayeb Nadia Kabachi Omar Boussaid Laboratoire ERIC, Université de Lyon 2 5 avenue Pierre Mendes-France,

Plus en détail

arxiv:0707.1288v1 [cs.db] 9 Jul 2007

arxiv:0707.1288v1 [cs.db] 9 Jul 2007 Une approche de construction d espaces de représentation multidimensionnels dédiés à la visualisation Riadh Ben Messaoud, Kamel Aouiche, Cécile Favre arxiv:0707.1288v1 [cs.db] 9 Jul 2007 Laboratoire ERIC,

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Méthodes d apprentissage statistique «Machine Learning»

Méthodes d apprentissage statistique «Machine Learning» Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours

Plus en détail

Rapport de DEA. Intégration de versions fonctionnelles dans les entrepôts de données multimédias au sein des systèmes OLAP. Anne-Muriel ARIGON

Rapport de DEA. Intégration de versions fonctionnelles dans les entrepôts de données multimédias au sein des systèmes OLAP. Anne-Muriel ARIGON Rapport de DEA Intégration de versions fonctionnelles dans les entrepôts de données multimédias au sein des systèmes OLAP Anne-Muriel ARIGON LIRIS INSA de Lyon Bâtiment 501 69621 Villeurbanne, France Encadré

Plus en détail

Problèmes d additivité dus à la présence de hiérarchies

Problèmes d additivité dus à la présence de hiérarchies Problèmes d additivité dus à la présence de hiérarchies complexes dans les modèles multidimensionnels : définitions, solutions et travaux futurs Marouane Hachicha, Jérôme Darmont To cite this version:

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Urbanisation des SI-NFE107

Urbanisation des SI-NFE107 OLAP Urbanisation des SI-NFE107 Fiche de lecture Karim SEKRI 20/01/2009 OLAP 1 Introduction PLAN OLAP Les différentes technologies OLAP Plate formes et Outils 20/01/2009 OLAP 2 Informatique décisionnelle

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

BI = Business Intelligence Master Data-Science

BI = Business Intelligence Master Data-Science BI = Business Intelligence Master Data-Science UPMC 25 janvier 2015 Organisation Horaire Cours : Lundi de 13h30 à 15h30 TP : Vendredi de 13h30 à 17h45 Intervenants : Divers industriels (en cours de construction)

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Entrepôts de données multidimensionnelles NoSQL

Entrepôts de données multidimensionnelles NoSQL Entrepôts de données multidimensionnelles NoSQL Max Chevalier, Mohammed El Malki, Arlind Kopliku, Olivier Teste, Ronan Tournier Université de Toulouse, IRIT UMR 5505, Toulouse, France http://www.irit.fr

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Intégration de la dimension sémantique dans les réseaux sociaux

Intégration de la dimension sémantique dans les réseaux sociaux Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013 Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,

Plus en détail

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...) Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence

Plus en détail

Généralisation contextuelle de mesures dans les entrepôts de données

Généralisation contextuelle de mesures dans les entrepôts de données Généralisation contextuelle de mesures dans les entrepôts de données Application aux entrepôts de données médicales Yoann Pitarch* Cécile Favre** Anne Laurent* Pascal Poncelet* * LIRMM, UMR 5506 161, Rue

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

Université Paris IX DAUPHINE DATE : 24/04/06

Université Paris IX DAUPHINE DATE : 24/04/06 Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

L analyse de la gestion de la clientèle

L analyse de la gestion de la clientèle chapitre 1 - La connaissance du client * Techniques utilisées : observation, recherche documentaire, études de cas, études qualitatives (entretiens de groupes ou individuels, tests projectifs, analyses

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... 3 Introduction... 3 Échelle Interactive... 4 Navigation

Plus en détail

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation Complex Event Processing Traitement de flux de données en temps réel Romain Colle R&D Project Manager Quartet FS Plan Génération et exploitation de données CEP et applications Flux de données et notifications

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

2 Serveurs OLAP et introduction au Data Mining

2 Serveurs OLAP et introduction au Data Mining 2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité

Plus en détail

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016 Entrepôts de données NEGRE Elsa Université Paris-Dauphine 2015-2016 Contexte et problématique Le processus de prise de décision L entrepôt de données Définition Différence avec un SGBD Caractéristiques

Plus en détail

Personnalisation collaborative pour l enrichissement des analyses dans les entrepôts de données complexes

Personnalisation collaborative pour l enrichissement des analyses dans les entrepôts de données complexes Personnalisation collaborative pour l enrichissement des analyses dans les entrepôts de données complexes Cécile Favre, Fadila Bentayeb, Omar Boussaid Université de Lyon (ERIC Lyon 2) 5 av. Pierre Mendès-France

Plus en détail

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles) SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients

Plus en détail

Big Data On Line Analytics

Big Data On Line Analytics Fdil Fadila Bentayeb Lb Laboratoire ERIC Lyon 2 Big Data On Line Analytics ASD 2014 Hammamet Tunisie 1 Sommaire Sommaire Informatique décisionnelle (BI Business Intelligence) Big Data Big Data analytics

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc. Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.fr Plan Motivations Débouchés Formation UVs spécifiques UVs connexes Enseignants

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 Workflow/DataWarehouse/DataMining 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 plan Workflow DataWarehouse Aide à la décision DataMinig Conclusion 14-09-98 LORIA

Plus en détail

Évaluation d une architecture de stockage RDF distribuée

Évaluation d une architecture de stockage RDF distribuée Évaluation d une architecture de stockage RDF distribuée Maeva Antoine 1, Françoise Baude 1, Fabrice Huet 1 1 INRIA MÉDITERRANÉE (ÉQUIPE OASIS), UNIVERSITÉ NICE SOPHIA-ANTIPOLIS, I3S CNRS prénom.nom@inria.fr

Plus en détail

Techniques d optimisation des requêtes dans les data warehouses

Techniques d optimisation des requêtes dans les data warehouses Techniques d optimisation des requêtes dans les data warehouses Ladjel Bellatreche LISI/ENSMA Téléport2-1, Avenue Clément Ader 86960 Futuroscope - FRANCE bellatreche@ensma.fr Résumé Un entrepôt de données

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

DEMANDE D INFORMATION RFI (Request for information)

DEMANDE D INFORMATION RFI (Request for information) DOD SEICAM RFI Demande d information EVDEC Réf. : RFI_EVDEC- GT5_Outil_reporting_BI_v4.doc Page 1/11 DEMANDE D INFORMATION RFI (Request for information) OUTIL INTÉGRÉ DE REPORTING ET D ANALYSE DÉCISIONNELLE

Plus en détail

Guide de référence pour l achat de Business Analytics

Guide de référence pour l achat de Business Analytics Guide de référence pour l achat de Business Analytics Comment évaluer une solution de décisionnel pour votre petite ou moyenne entreprise : Quelles sont les questions à se poser et que faut-il rechercher?

Plus en détail

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21 IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances

Plus en détail

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses Thèse présentée par Cécile FAVRE pour obtenir le titre de Docteur en Informatique

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

Économétrie, causalité et analyse des politiques

Économétrie, causalité et analyse des politiques Économétrie, causalité et analyse des politiques Jean-Marie Dufour Université de Montréal October 2006 This work was supported by the Canada Research Chair Program (Chair in Econometrics, Université de

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires Julien Jorge, Xavier Gandibleux Laboratoire d Informatique de Nantes Atlantique

Plus en détail

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Introduction à l Informatique Décisionnelle - Business Intelligence (7) Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence

Plus en détail

Dans ce document, on décrit les indices des prix des biens de la TIC qui sont produits, ainsi que les sources de données et la méthodologie.

Dans ce document, on décrit les indices des prix des biens de la TIC qui sont produits, ainsi que les sources de données et la méthodologie. Résumé L expansion du secteur de la technologie de l information et des communications (TIC) a rendu nécessaire un plus grand nombre d indicateurs économiques propres à ce secteur. La Division des prix

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Introduction à la Fouille de Données (Data Mining) (8)

Introduction à la Fouille de Données (Data Mining) (8) Introduction à la Fouille de Données (Data Mining) (8) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2008 Introduction à la fouille

Plus en détail

Tout ce que vous avez toujours voulu savoir sur SAP HANA. Sans avoir jamais osé le demander

Tout ce que vous avez toujours voulu savoir sur SAP HANA. Sans avoir jamais osé le demander Tout ce que vous avez toujours voulu savoir sur SAP HANA Sans avoir jamais osé le demander Agenda Pourquoi SAP HANA? Qu est-ce que SAP HANA? SAP HANA pour l intelligence d affaires SAP HANA pour l analyse

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Evolution et personnalisation des analyses dans les entrepôts

Evolution et personnalisation des analyses dans les entrepôts Evolution et personnalisation des analyses dans les entrepôts de données Une approche orientée utilisateur Cécile Favre Fadila Bentayeb Omar Boussaid Laboratoire ERIC Université de Lyon - Campus Porte

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Développements algorithmiques au LIAMA et àamap en vue de l'analyse d'une scène forestière

Développements algorithmiques au LIAMA et àamap en vue de l'analyse d'une scène forestière Développements algorithmiques au LIAMA et àamap en vue de l'analyse d'une scène forestière Principaux contributeurs: Zhang Xiaopeng (CASIA-NLPR-LIAMA Coordinateur Groupe Image) Li HongJun (CASIA-NLPR-LIAMA

Plus en détail

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA Master Exploration Informatique des données Data Mining & Business Intelligence Groupe 5 Piotr BENSALEM Ahmed BENSI Evelyne CHARIFOU Priscillia CASSANDRA Enseignant Françoise FOGELMAN Nicolas DULIAN SOMMAIRE

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Fouille de Données : OLAP & Data Warehousing

Fouille de Données : OLAP & Data Warehousing Fouille de Données : OLAP & Data Warehousing Nicolas Pasquier Université de Nice Sophia-Antipolis Laboratoire I3S Chapitre 2. Data warehousing Définition : qu est-ce que le data warehousing? Entrepôt de

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi Julie Séguéla 1, 2, Gilbert Saporta 1, Stéphane Le Viet 2 1 Laboratoire Cédric CNAM 292 rue Saint Martin 75141 Paris

Plus en détail

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR Online Intelligence Solutions LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR Comment intégrer les KPI à sa stratégie d entreprise? Par Jacques Warren WHITE PAPER WHITE PAPER A PROPOS DE JACQUES WARREN

Plus en détail

Gestion et analyse personnalisées des demandes marketing : cas de LCL-Le Crédit Lyonnais

Gestion et analyse personnalisées des demandes marketing : cas de LCL-Le Crédit Lyonnais Gestion et analyse personnalisées des demandes marketing : cas de LCL-Le Crédit Lyonnais Cécile Favre * Michel Rougié ** Fadila Bentayeb * Omar Boussaid * * Université de Lyon (Laboratoire ERIC-Lyon 2)

Plus en détail

Comment réussir son projet de Master Data Management?

Comment réussir son projet de Master Data Management? Comment réussir son projet MDM? Table des matières Comment réussir son projet de Master Data Management?...... 2 Un marché en croissance..... 2 Les démarches qui réussissent... 2 A quels projets métiers

Plus en détail

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES Bruno Agard (1), Andrew Kusiak (2) (1) Département de Mathématiques et de Génie Industriel, École Polytechnique de Montréal,

Plus en détail

FreeAnalysis. Schema Designer. Cubes

FreeAnalysis. Schema Designer. Cubes FreeAnalysis Schema Designer Cubes Charles Martin et Patrick Beaucamp BPM Conseil Contact : charles.martin@bpm-conseil.com, patrick.beaucamp@bpm-conseil.com Janvier 2013 Document : BPM_Vanilla_FreeAnalysisSchemaDesigner_v4.2_FR.odt

Plus en détail

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service

Plus en détail

Méthodes d évolution de modèle produit dans les systèmes du type PLM

Méthodes d évolution de modèle produit dans les systèmes du type PLM Résumé de thèse étendu Méthodes d évolution de modèle produit dans les systèmes du type PLM Seyed Hamedreza IZADPANAH Table des matières 1. Introduction...2 2. Approche «Ingénierie Dirigée par les Modèles»

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

Why Software Projects Escalate: The Importance of Project Management Constructs

Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Programmation Web. Madalina Croitoru IUT Montpellier

Programmation Web. Madalina Croitoru IUT Montpellier Programmation Web Madalina Croitoru IUT Montpellier Organisation du cours 4 semaines 4 ½ h / semaine: 2heures cours 3 ½ heures TP Notation: continue interrogation cours + rendu à la fin de chaque séance

Plus en détail