LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Dimension: px
Commencer à balayer dès la page:

Download "LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy."

Transcription

1 Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS 14 Janvier 2015

2 Pourquoi l extraction de connaissances à partir de données? Ø Données disponibles Ø Limites de l approche humaine Ø Nombreux besoins : Ø Industriels, Ø Médicaux, Ø Marketing, Ø

3 Extraction des Connaissances à partir de Données «l extraction d'informations originales, auparavant inconnues, potentiellement utiles à partir des données.» Pré-traitement Fouille Post-traitement [Fayyad et al., 1996] 5/49

4 Buts : exemples d application Ø diagnostic médical Ø profils de clients, mailing, accord de prêts bancaires,... Ø reconnaissance de caractères manuscrits Ø finance, prévision d évolutions de marchés Ø Customer Relationship Management (CRM) : trouver, gagner et garder ses clients! Ø détection de fraudes, Ø détection de mauvais payeurs,

5 Le pré traitement Ø Intégration des données à partir de différentes sources Ø Conversion des noms d attributs (CNo -> CustomerNumber) Ø Utilisation de la connaissance du domaine pour détecter les doublons (e.g., utiliser les codes postaux) Ø Vérifier la cohérence des données : Ø des contraintes spécifiques à l application Ø Résolution des incohérences Ø «Completion» Ø Le cas des valeurs manquantes Ø Le pré-traitement des données est souvent la tâche la plus coûteuse dans le processus KDD!

6 Le pré traitement Ø Discrétisation des attributs numériques Ø Indépendamment de la tâche de fouille de données Ø Ex. : partitionner le domaine des attributs en des intervalles de même longueur. Ø Spécifique de la tâche de fouille de données Ø Partitionner en des intervalles qui maximisent le gain d information par rapport à la classe Ø Génération d attributs dérivés : Ø Agrégation d un ensembles d attributs Ø Ex. : à partir d appels Ø nb minutes par jour, semaine, appels locaux... Ø Combinaison d attributs : Ø Ex. : variation de revenu (revenu revenu 2008)

7 Le pré traitement Ø Sélection des attributs Ø manuellement : Si les connaissances du domaine sont disponibles pour les attributs. Ø de façon automatique : Ø Trop d attributs -> des répercussions sur l étape de fouille de données Ø Choix des attributs primordial : Ø Ex. : glace à la fraise

8 Data Mining Ø Définition [Fayad et al. 96] La fouille de données est l application d algorithmes efficaces qui identifient les motifs contenus dans une base de données Ø Les différentes méthodes de fouille : Ø Clustering Ø Classification Ø Extraction de motifs fréquents Ø Autres tâches : regression, détection d outlier, etc.

9 Data Mining Ø Méthodes descriptives (ou non supervisées) : Ø objectif : trouver des «formes» interprétables qui permettent de décrire les données sans référence à une base d exemples. C est donc la construction d un modèle et la découverte de relations dans les données. Ø clustering (K-means, CAH), règles d associations, SOM, Ø Méthodes prédictives (ou supervisées) : Ø objectif : à partir d exemples, inférer sur les données pour réaliser des prédictions. En ce basant sur un ensemble d exemples, on infère par exemple les classes d appartenance d autres individus. Les classes sont donc ici connues. Ø classification, régression, k-ppv

10 Data Mining Ø Applications Ø Clustering Ø Segmentation, structuration d un ensemble de documents «web», déterminer des familles de protéines et des «superfamilles», découvertes de communautés Ø Classification : Ø prédiction de la fonction d une protéine, accorder un crédit, interpréter des images en astronomie, etc. Ø Motifs fréquents : Ø mise en rayon, promotion, améliorer la structure d un site web...

11 Evaluation Ø Présentation des motifs découverts avec une visualisation appropriée Ø Evaluation des motifs par l utilisateur Ø Si l évaluation n est pas satisfaisante, alors relancer la fouille avec : Ø des paramètres différents Ø d autres méthodes Ø d autres données Ø Si l évaluation est positive : Ø Intégrer les connaissances découvertes dans une base de connaissance Ø Utiliser ces connaissances dans les futures processus KDD

12 Evaluation Ø Intérêt des motifs découverts : Ø motifs déjà connus? Ø motifs surprenants? Ø motifs pertinents par rapport à l application? Ø Pouvoir prédictif Ø Quel est la précision du motif? Ø Dans combien de cas se produit il? Ø Peut-il se généraliser à d autres cas non couverts?

13 Données, information, connaissance

14 Fouille ou pas fouille? Ø Ce que la fouille de données n est pas : Ø Chercher un numéro de téléphone dans un annuaire téléphonique Ø Effectuer une recherche avec google Ø Ce que la fouille de données est : Ø Analyser des résultats de requêtes effectuées avec google. Ø Analyser la structuration des pages d un annuaire téléphonique

15 Méthodes discutées dans le cours Ø Fouille de motifs (MP) Ø Règle d association, algorithme Apriori Ø Fouille de séquences Ø Clustering (MP) Ø Apprentissage supervisé (AA)

16 10 LOGO Qu est ce qu une donnée? Ø Une collection d objets et leurs attributs ou caractéristiques Ø Type d attribut : Ø Qualitatif Ø Nominal Ø Ordinal Tid Refund Marital Status Attributes Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat Ø Quantitatif Ø Discret Ø Continu Objects 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes

17 Motifs fréquents et règles d association Ø Motivations : chercher des régularités dans les données Ø Analyse du «panier de la ménagère» Ø Quels sont les produits qui sont fréquemment achetés ensembles? Ø Applications : rayonnage, mailing, cross marketing...

18 Recherche de règles d associations Cette méthode a été introduite en 1993 par R. Agrawal, T. Imielinski et A. Swami du centre de recherche d IBM. v Forme : Corps -> Tête [support, confiance] Achat des 2 v Première «trouvaille»? Achat bières Achat couches «Les hommes qui achètent des couches le vendredi soir, ils ont la tendance d acheter également de la bière»

19 Les données TICKET 1 Farine Sucre Lait TICKET 2 Oeuf Sucre Chocolat TICKET 3 Farine Oeuf Sucre Chocolat TICKET 4 Oeuf Chocolat Thé Un ensemble T dont les m éléments sont appelés transactions

20 Principe de construction Contenu d un ticket de caisse TICKET 1 Farine Sucre Lait Création des associations Farine Sucre Sucre Farine Sucre Lait Lait Sucre Lait Farine Farine Lait Un ensemble I dont les n éléments sont appelés items I={Farine, Sucre, Lait, Œuf, Chocolat, Thé}

21 Structure des règles produites On obtient un ensemble de règles de la forme: {Lait, Œuf} {Chocolat} support = 10%, confiance= 25% Cela signifie que 10% des transactions contiennent à la fois les items Lait, Œuf et Chocolat et que 25% des transactions contenant Lait, Œuf contiennent aussi l item Chocolat

22 Les règles d association (plus formellement) Ø Soit I = {i1,i2,..., in} un ensemble de littéraux appelés items. Ø Un itemset X : un ensemble d items X I Ø Une base de données D consiste en un ensemble de transactions ti t.q. ti I Ø On dit que t contient X si X t Ø Les items d une transaction ou d un itemset sont triés suivant un ordre lexigographique Ø Longueur d un itemset = nombre d items qu il contient Ø k-itemset : itemset de longueur k

23 Définitions Ø Support absolu d un itemset X dans D : nombre de transactions qui contiennent X Ø Support relatif de X dans D : pourcentage de transactions de D qui contiennent X Ø Itemset fréquent X dans D : itemset X avec un support minsup Ø Règle d association : règle de la forme X -> Y avec Ø X I, Ø Y I, Ø X Y =

24 Structure des règles produites(2) v Une règle d association a la forme : X X Y où et avec la prémisse est X et la conclusion est Y I Y I X Y = Ο Le support est sup( X Y) = card t { T / X Y t} / card( T) La confiance est conf( X Y) = card card { t T / X Y t} { t T / X t}

25 Recherche des règles intéressantes (1) v Critère d extraction des règles A partir d un ensemble T de transactions, trouver toutes les règles avec un support sup>min_supp et une confiance conf>min_conf où min_supp et min_conf sont des seuils fixés a priori par l utilisateur. Si Chocolat est contenu dans beaucoup de tickets cela devient moins intéressant.

26 Algorithme de base Apriori C est l algorithme proposé par Agrawal et Srikant en La complexité est d ordre O(m). v Recherche des sous-ensembles de I présentant un support sup(x) supérieur à s 0. v Construction des règles dont la confiance est supérieure à c 0.

27 Découverte des règles d association Ø Deux étapes : Ø Découvrir tous les itemsets fréquents dans D Ø Générer les règles d association à partir des itemsets fréquents : Ø Pour tous les itemsets fréquents X : Ø Pour tous les A X : (qui satisfait la contrainte de support) Ø Générer la règle A (X A) (qui satisfait la contrainte de support) Ø Verifier la confiance de la règle

28 Extraction des motifs fréquents (approche naïve) Ø Générer tous les itemsets possibles, puis calculer leur support dans la base de données Ø Problèmes : Ø Comment garder en mémoire un nombre important d itemsets? Ø 100 items => itemsets possibles!!!! Ø Comment calculer le support d un nombre important d itemsets dans une grande base de données (100 million de transactions)?

29 Extraction des motifs fréquents Ø Propriété d anti-monotonie du support : Ø Tous les sous ensembles d un itemset fréquent sont fréquents Ø Si un itemset X n est pas fréquent alors il n existe pas d itemset Y t.q X inclus en Y qui soit fréquent

30 Extraction des motifs fréquents Ø Trouver les 1-itemsets fréquents, puis trouver les 2- itemsets fréquents... Ø Pour trouver les k+1-itemsets fréquents : Ø Seulement considérer les k+1-itemsets t.q. : Ø tous les k-sous-ensembles sont fréquents. Ø Calcul du support : Ø Une passe sur la base de données pour compter le support de tous les itemsets pertinents.

31 Algorithme Apriori Ck: Lk: set of candidate item sets of length k set of all frequent item sets of length k Apriori(D, minsup) L1 := {frequent 1-item sets in D}; k := 2; while Lk-1 do Ck := AprioriCandidateGeneration(Lk 1); for each transaction T D do CT := subset(ck, T); // all candidates from Ck, that are // contained in transaction T; for each candidate c CT do c.count++; Lk := {c Ck (c.count / D ) minsup}; k++; return k Lk;

32 Génération de candidats Propriétés de l ensemble Ck des k-itemsets candidats Sur-ensemble de Lk Significativement plus petit que tous k-itemsets possibles de I

33 Génération de candidats : la jointure

34 Génération de candidats : élagage Etape 2 : l élagage Supprimer tous les éléments de Ck qui ont un (k-1) sous-ensemble qui n appartient pas à Lk-1. Ex. : L3 = {(1 2 3), (1 2 4), (1 3 4), (1 3 5), (2 3 4)} Jointure : C4 = {( ), ( )} Elagage: suppression de ( ) car (3 4 5) n appartient pas à L3 Au final : C4 = {( )}

35 Construction de C 1 Item1 Nombre Farine 2 Sucre 3 Lait 1 Œuf 3 Chocolat 3 Thé 1 On décide de retenir un taux de support de 30%

36 Construction de C 2 Item1 Item2 Nombre Farine Sucre 2 Farine Œuf 1 Farine Chocolat 1 Sucre Œuf 2 Sucre Chocolat 2 Œuf Chocolat 3 L 2 contient 4 couples {Farine,Sucre}, {Sucre, Œuf}, {Sucre, Chocolat} et {Œuf, Chocolat}.

37 Construction de C 3 Item1 Item2 Item3 Nombre Sucre Oeuf Chocolat 2 Insert into C 3 Select p.item1, p.item2, q.item2 From L 2 p, L 2 q where p.item1=q.item1 and p.item2 < q.item2

38 Ensemble des sous-ensembles fréquents L ensemble L des sous-ensembles fréquents est l union des ensembles L 1, L K. L 1 ={Farine, Sucre, Œuf, Chocolat} L 2 ={(Farine,Sucre), (Sucre,Œuf), (Sucre,Chocolat), (Œuf,Chocolat)} L 3 ={(Sucre, Œuf, Chocolat)}

39 Génération des règles à partir des itemsets Pseudo-code : Pour chaque itemset fréquent I : Générer tous les sous-ensembles non vides X de I Pour chaque X de I : Si support(i)/support(x) min_conf alors produire la règle X => (I-X)

40 Construction des règles Pour chaque ensemble fréquent on construit des règles vérifiant la contrainte de seuil de confiance. Un algorithme simple pour produire des règles à partir d un sous-ensemble fréquent f est de considérer tous les sousensembles possibles g de f et de produire la règle g (f-g) si la condition sur la confiance est vérifiée. Cependant si une règle (f-g ) g vérifie la contrainte de confiance, alors, pour chaque partie h de g, la règle (f-h) h vérifie aussi la condition de confiance. Alors on commence par les règles ayant un seul conséquent, puis sur les règles retenues on génère les règles ayant deux conséquents.

41 Tableau des règles Sous-ensemble Règle Support Confiance {Farine, Sucre} Farine->Sucre 2/4 2/2 Sucre->Farine 2/4 2/3 {Sucre, Œuf} Sucre->Oeuf 2/4 2/3 Œuf->Sucre 2/4 2/3 {Sucre, Chocolat} Sucre->Chocolat 2/4 2/3 Chocolat->Sucre 2/4 2/3 {Œuf, Chocolat} Œuf->Chocolat 3/4 3/3 Chocolat->Oeuf 3/4 3/3 {Sucre, Œuf, Chocolat} Sucre->Œuf, Chocolat 2/4 2/3 Œuf, Chocolat->Sucre 2/4 2/3 Œuf->Sucre, Chocolat 2/4 2/3 Sucre, Chocolat-> Œuf 2/4 2/2 Chocolat->Sucre, Œuf 2/4 2/3 Sucre, Œuf->Chocolat 2/4 2/3

42 Tableau des règles intéressantes Liste des règles ayant une confiance égale à 1. Sous-ensemble Règle Confiance lift {Farine, Sucre} Farine->Sucre 2/2 4/3 {Œuf, Chocolat} Œuf->Chocolat 3/3 4/3 Chocolat->Oeuf 3/3 4/3 {Sucre, Œuf, Chocolat} {Sucre, Chocolat}-> Oeuf 2/2 4/3

43 Remarque Le nombre des combinaisons des items croît très rapidement Nombre Combinaisons Le nombre d items est égal à n. Le nombre de combinaisons de k items est égal à n! /( n k)! k!

44 Exercices 46/49

45 Recherche de séquences fréquentes v On est capable de conserver la trace du passage d un même client à différents instants v En plus de la recherche de règles d associations, il est possible de rechercher des séquences d achats fréquentes. v Chaque élément d une séquence fréquente peut être composée de plusieurs items.

46 Structure des données v I un ensemble d items v C un ensemble de clients v D un ensemble ordonné de dates v T un ensemble de transactions Chaque transaction est définie par v Un ensemble d items v Identifiant du client v La date de la transaction

47 Tableau des séquences

48 Séquences v Une séquence est une liste ordonnée de sousensembles d items. v Une relation d ordre partielle sur l ensemble des séquences a=(a 1,,a p ) et b=(b 1,,b p ) deux séquences a est contenu dans b s il existe des entiers i 1 < <i p tel que a 1 b,..., i1 a p b ip

49 Séquence de client v L ensemble des transactions d un client est une séquence particulière, appelée séquence de client. v Le support d une séquence est : sup(s)=(nombre de séquences de clients contenant s)/(nombre total de clients) v Séquence a de client supporte b si b est inclus dans a. v Une séquence qui a le minimum support est appelée large (frequent) itemset

50 Critère d extraction des séquences A partir d un ensemble T de transactions, trouver l ensemble des séquences présentant un support supérieur à s, paramètre de la méthode. Les séquences trouvées sont appelées séquences fréquentes.

51 Algorithme de base v Rechercher les séquences de longueur 1 ayant un support supérieur à s (large sequences). C est l ensemble des sous ensembles fréquents. v A partir des séquences trouvées dans l étape précédente, construire les séquences de longueur 2 avec un support supérieur à s. v Par itération, construire des séquences de longueur k avec un support supérieur à s à partir de celles trouvées pour une longueur k-1.

52 AprioriAll Algorithme v Trouver toutes les séquences fréquentes en 5 étapes : Sort Phase L(arge)itemset Phase Transformation Phase Sequence Phase Maximal Phase

53 AprioriAll Algorithme Customer-Sequence Version of the Database

54 AprioriAll Algorithme Litemset Phase min_sup_count=2 Apriori/DHP FP Growth

55 AprioriAll Algorithme Transformation Phase

56 AprioriAll Algorithme Sequence Phase Large 2-Sequences Customer Sequences Large 1-Sequences 2 Large 3-Sequences Large 4-Sequences Maximal Large Sequences

57 AprioriAll Algorithme Candidate Phase

58 AprioriAll Algorithme Discussion v L algorithme AprioriAll va générer un grand volume de séquences candidat v Scanner bcp de fois la BD v Difficulté dans la fouille de longue séquences

59 Extension de la méthode v Introduction de taxonomies v Introduction de contraintes temporelles Regroupement de transactions par fenêtre glissante Ajout de contraintes temporelles Comment vérifier ces contraintes temporelles

60 Correspondance de Galois { } { } G o H a o A a G f G o ora A a G f O G A O f = =, ), /( ) (, / ) ( ) ( ) ( : { } { } B a H a o O o B g B a ora O o B A g B O A g = =, ), /( ) (, / ) ( ) ( ) ( : intension extension (f,g) est une correspondance de Galois f et g sont deux fonctions monotones et décroissantes

61 Correspondance de Galois Farine Sucre Lait Œuf Chocolat Thé Ticket 1 X X X Ticket 2 X X X Ticket 3 X X X X Ticket 4 X X X

62 Correspondance de Galois Un itemset est fermé si aucun de ses super-ensembles immédiats a le même support que l itemset TID Items 1 ABC 2 ABCD 3 BCE 4 ACDE 5 DE support null A B C D E Fermés AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE f(g(e)) = {E} f(g(d)) = {D} ABCD ABCE ABDE ACDE BCDE 0 ABCDE

63

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Cours Fouille de données avancée

Cours Fouille de données avancée Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mohamed Khider - Biskra Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie Département d Informatique

Plus en détail

BI = Business Intelligence Master Data-Science Cours 6 - Data Mining

BI = Business Intelligence Master Data-Science Cours 6 - Data Mining BI = Business Intelligence Master Data-Science Cours 6 - Data Mining Ludovic DENOYER - D après Elisa Fromont UPMC 23 mars 2015 Ludovic DENOYER - D après Elisa Fromont Le Data Mining De plus en plus de

Plus en détail

Etude d Algorithmes Parallèles de Data Mining

Etude d Algorithmes Parallèles de Data Mining REPUBLIQUE TUNISIENNE MINISTERE DE L ENSEIGNEMENT SUPERIEUR, DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DE TUNIS ELMANAR FACULTE DES SCIENCES DE TUNIS DEPARTEMENT DES SCIENCES DE L INFORMATIQUE

Plus en détail

République Algérienne Démocratique et Populaire

République Algérienne Démocratique et Populaire République Algérienne Démocratique et Populaire وزارة التعليم العالي والبحث العلمي Ministère de l Enseignement Supérieur et de la Recherche Scientifique UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE d ORAN

Plus en détail

Fouille de données: des bases binaires aux bases évidentielles

Fouille de données: des bases binaires aux bases évidentielles Fouille de données: des bases binaires aux bases évidentielles Ahmed Samet Faculté des sciences de Tunis Présenté le : 16 janvier 2013 Ahmed Samet Fouille de données: des bases binaires aux bases évidentielles

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

Extraction de motifs : Règles d association et motifs séquentiels. Pascal Poncelet LIRMM Pascal.Poncelet@lirmm.fr http://www.lirmm.

Extraction de motifs : Règles d association et motifs séquentiels. Pascal Poncelet LIRMM Pascal.Poncelet@lirmm.fr http://www.lirmm. 1 Extraction de motifs : Règles d association et motifs séquentiels Pascal Poncelet LIRMM Pascal.Poncelet@lirmm.fr http://www.lirmm. fr/~poncelet Plan Règles d association Motifs séquentiels Applications

Plus en détail

Extraction de Bases pour les Règles d'association à partir des Itemsets Fermés Fréquents

Extraction de Bases pour les Règles d'association à partir des Itemsets Fermés Fréquents Extraction de Bases pour les Règles d'association à partir des Itemsets Fermés Fréquents Nicolas Pasquier Laboratoire d'informatique (LIMOS) - Université Clermont-Ferrand II Complexe scientifique des Cézeaux,

Plus en détail

Baptiste Jeudy OPTIMISATION DE REQUÊTES INDUCTIVES : APPLICATION À L EXTRACTION SOUS CONTRAINTES DE RÈGLES D ASSOCIATION

Baptiste Jeudy OPTIMISATION DE REQUÊTES INDUCTIVES : APPLICATION À L EXTRACTION SOUS CONTRAINTES DE RÈGLES D ASSOCIATION N d ordre 02 ISAL 0090 Année 2002 THÈSE présentée DEVANT L INSTITUT NATIONAL DES SCIENCES APPLIQUÉES DE LYON FORMATION DOCTORALE : DISIC ÉCOLE DOCTORALE : EDIIS pour obtenir LE GRADE DE DOCTEUR SPÉCIALITÉ

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 13 L exploration des données 13.1. Présentation de la semaine L exploration de données (ou data mining) est souvent associée à l intelligence

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce Algorithmes : K-means et Apriori Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Cloud Computing et MapReduce

Plus en détail

Approches d extraction de règles d association basées sur la correspondance de Galois

Approches d extraction de règles d association basées sur la correspondance de Galois Approches d extraction de règles d association basées sur la correspondance de Galois Sadok Ben Yahia Engelbert Mephu Nguifo Centre de Recherche en Informatique de Lens - IUT de Lens Rue de l Université

Plus en détail

Techniques Data Mining pour la sélection d une configuration d index de jointure binaire

Techniques Data Mining pour la sélection d une configuration d index de jointure binaire Faculté des Sciences Tidjani HADDAM Département de l Informatique Mémoire Pour l obtention du diplôme de MASTER Spécialité : Informatique Option : Modèles Intélligents et Décision (MID) THÈME Techniques

Plus en détail

JEN : un algorithme efficace de construction de générateurs pour l identification des règles d association

JEN : un algorithme efficace de construction de générateurs pour l identification des règles d association JEN : un algorithme efficace de construction de générateurs pour l identification des règles d association Amélie Le Floc h*, Christian Fisette*, Rokia Missaoui**, Petko Valtchev***, Robert Godin* * Département

Plus en détail

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE Université Mouloud Mammeri de Tizi-ouzou Faculté de Génie Electrique et Informatique

Plus en détail

Matérialisation partielle des cubes de données

Matérialisation partielle des cubes de données Matérialisation partielle des cubes de données N. Hanusse S. Maabout R.Tofan CNRS-INRIA-LaBRI. Université de Bordeaux {hanusse,maabout,tofan}@labri.fr Résumé Les cubes de données offrent une interface

Plus en détail

2.4 Représentation graphique, tableau de Karnaugh

2.4 Représentation graphique, tableau de Karnaugh 2 Fonctions binaires 45 2.4 Représentation graphique, tableau de Karnaugh On peut définir complètement une fonction binaire en dressant son tableau de Karnaugh, table de vérité à 2 n cases pour n variables

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Fouille de données (Data Mining) - Application à la bioinformatique

Fouille de données (Data Mining) - Application à la bioinformatique 1.2 Explosion des informations biologiques 2007 2007 2007 2007 Fouille de données (Data Mining) - Application à la bioinformatique 2007 2007 2007 Cumulative increases of published articles in molecular

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données.

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données. Data Mining = Knowledge Discovery in Databases (KDD) = Fouille de données 1 Définition : Processus ou méthode qui extrait des connaissances «intéressantes» ou des motifs (patterns) à partir d une grande

Plus en détail

Présentation SSDM : Semantically Similar Data Miner

Présentation SSDM : Semantically Similar Data Miner Présentation SSDM : Semantically Similar Data Miner Guillaume Calas Henri-François Chadeisson EPITA SCIA 2009 16 Juillet 2008 calas g - chadei h SSDM : Semantically

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Mostafa Hanoune, Fouzia Benabbou To cite this version: Mostafa Hanoune, Fouzia Benabbou. Modélisation Informatique

Plus en détail

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be)

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be) Datamining Glossaire Xavier Dubuc (xavier.dubuc@umons.ac.be) 3 juin 2011 1 Table des matières 1 Classification 3 2 Règles d association 3 2.1 Introduction............................................ 3

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

CONSTRUCTION EFFICACE DU TREILLIS DES MOTIFS FERMÉS FRÉQUENTS ET EXTRACTION SIMULTANÉE DES BASES GÉNÉRIQUES DE RÈGLES

CONSTRUCTION EFFICACE DU TREILLIS DES MOTIFS FERMÉS FRÉQUENTS ET EXTRACTION SIMULTANÉE DES BASES GÉNÉRIQUES DE RÈGLES Math. & Sci. hum. / Mathematics and Social Sciences (49 e année, n 195, 2011(3), p. 5 54) CONSTRUCTION EFFICACE DU TREILLIS DES MOTIFS FERMÉS FRÉQUENTS ET EXTRACTION SIMULTANÉE DES BASES GÉNÉRIQUES DE

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Segmentation et data mining pour l industrie.

Segmentation et data mining pour l industrie. Une solution industrielle complète de data mining Segmentation et data mining pour l industrie. Johan Baltié Franck Coppola Tristan Robet Promotion 2002 Specialisation S.C.I.A. Responsable M. Adjaoute

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Correction du bac blanc CFE Mercatique

Correction du bac blanc CFE Mercatique Correction du bac blanc CFE Mercatique Exercice 1 (4,5 points) Le tableau suivant donne l évolution du nombre de bénéficiaires de minima sociaux en milliers : Année 2002 2003 2004 2005 2006 2007 2008 2009

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2

Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2 Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2 Lhouari Nourine 1 1 Université Blaise Pascal, CNRS, LIMOS, France SeqBio 2012 Marne la vallée, France 2.

Plus en détail

Sémantiques et Calculs de Règles Descriptives dans une Relation n-aire

Sémantiques et Calculs de Règles Descriptives dans une Relation n-aire Sémantiques et Calculs de Règles Descriptives dans une Relation n-aire Kim-Ngan T. Nguyen, Loïc Cerf et Jean-François Boulicaut Université de Lyon, CNRS, INRIA INSA-Lyon, LIRIS Combining, UMR5205, F-69621,

Plus en détail

Data Mining. Master 1 Informatique - Mathématiques UAG

Data Mining. Master 1 Informatique - Mathématiques UAG Data Mining Master 1 Informatique - Mathématiques UAG 1.1 - Introduction Data Mining? On parle de Fouille de données Data Mining Extraction de connaissances à partir de données Knowledge Discovery in Data

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

MEMOIRE DE MAGISTER. Thème Recherche de partitions floues optimales par segmentation floue pour la fouille de données quantitatives.

MEMOIRE DE MAGISTER. Thème Recherche de partitions floues optimales par segmentation floue pour la fouille de données quantitatives. République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université M hamed BOUGARA de BOUMERDES Faculté des Sciences Département d Informatique

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

Introduction à l Analyse des Réseaux Sociaux

Introduction à l Analyse des Réseaux Sociaux Introduction à l Analyse des Réseaux Sociaux Erick Stattner Laboratoire LAMIA Université des Antilles et de la Guyane, France erick.stattner@univ-ag.fr Guadeloupe, Novembre 2012 Erick Stattner Introduction

Plus en détail

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS

Plus en détail

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013 Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

LES DIFFERENTS TYPES DE MESURE

LES DIFFERENTS TYPES DE MESURE LES DIFFERENTS TYPES DE MESURE Licence - Statistiques 2004/2005 REALITE ET DONNEES CHIFFREES Recherche = - mesure. - traduction d une réalité en chiffre - abouti à des tableaux, des calculs 1) Qu est-ce

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! "##$ % &!

 # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! ##$ % &! "# $ %%& ' ( )*+, '()*+,'+''-++.+/0112134+1.50*406 "##$ %& 8CC "#$%& ' ( )* +,-./ 0 123 456+7 3 7-55-89.*/ 0 +3 *+:3 ;< =3 3-3 8 0 23 >-8-3 >5? //*/*0;* @A: *53,,3 / * $/ >B+? - 5, 2 34*56 7 /+#** //8

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

Concours de recrutement interne PLP 2009

Concours de recrutement interne PLP 2009 Concours de recrutement interne PLP 2009 Le sujet est constitué de quatre exercices indépendants. Le premier exercice, de nature pédagogique au niveau du baccalauréat professionnel, porte sur le flocon

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Fouille de Données Médicales

Fouille de Données Médicales Journée Romande d Hygiène Hospitalière Fouille de Données Médicales Michèle Sebag Laboratoire de Recherche en Informatique, Université Paris-Sud http://www.lri.fr/ sebag/ Genève, 21 novembre 2002 MIT Technology

Plus en détail

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 2 Plan Data mining : définition, utilisations et concepts Wolfram Alpha : extraction de données d'un compte

Plus en détail

RAPPORT DE PROJET DATA MINING

RAPPORT DE PROJET DATA MINING DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS RAPPORT DE PROJET DATA MINING «Analyse des endettements par niveau de développement des pays» Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Généralités sur les bases de données

Généralités sur les bases de données Généralités sur les bases de données Qu est-ce donc qu une base de données? Que peut-on attendre d un système de gestion de bases de données? Que peut-on faire avec une base de données? 1 Des données?

Plus en détail

Fouille de données dans des bases parcellaires (cadre projet PayOTe)

Fouille de données dans des bases parcellaires (cadre projet PayOTe) Fouille de données dans des bases parcellaires (cadre projet PayOTe) Thomas Guyet AGROCAMPUS-OUEST IRISA Équipe DREAM 01 mars 2010, Nancy Équipe DREAM : axes de recherche Diagnosing, recommending actions

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Découverte de règles d association pour l aide à la prévision des accidents maritimes

Découverte de règles d association pour l aide à la prévision des accidents maritimes Découverte de règles d association pour l aide à la prévision des accidents maritimes Bilal Idiri, Aldo Napoli Mines ParisTech, CRC Rue Claude Daunesse, 06904 Sophia Antipolis, France Prénom.Nom@mines-paristech.fr

Plus en détail

1S Modèles de rédaction Enoncés

1S Modèles de rédaction Enoncés Par l équipe des professeurs de 1S du lycée Parc de Vilgénis 1S Modèles de rédaction Enoncés Produit scalaire & Corrigés Exercice 1 : définition du produit scalaire Soit ABC un triangle tel que AB, AC

Plus en détail

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved. Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic SAS dans

Plus en détail

I.2: Le test fonctionnel I.2.2 : Le test fonctionnel de logiciel

I.2: Le test fonctionnel I.2.2 : Le test fonctionnel de logiciel I.2: Le test fonctionnel I.2.2 : Le test fonctionnel de logiciel Introduction Notre contexte : pas possible d exprimer toutes les combinaisons de DT. Le test fonctionnel est basé sur la spécification/interface

Plus en détail

Analyse de situations contextuelles métiers : application à la documentation de maintenance dans l'aéronautique

Analyse de situations contextuelles métiers : application à la documentation de maintenance dans l'aéronautique MOTS-CLÉS : Analyse de situations contextuelles métiers : application à la documentation de maintenance dans l'aéronautique Hamdi Chaker*, Max Chevalier* Chantal Soulé-Dupuy*, André Tricot** * IRIT/Université

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

IBM SPSS Direct Marketing 19

IBM SPSS Direct Marketing 19 IBM SPSS Direct Marketing 19 Note: Before using this information and the product it supports, read the general information under Notices sur p. 110. This document contains proprietary information of SPSS

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Introduction à La Fouille de Données. Khai thác dữ liệu. Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker

Introduction à La Fouille de Données. Khai thác dữ liệu. Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker 1 /81 Cours IFI M1 Data Mining Introduction à La Fouille de Données Khai thác dữ liệu Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker Chercheur de l IRD à UMMISCO (Modélisation Mathématiques

Plus en détail

ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels,

ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels, Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens,

Plus en détail

Les arbres de décision

Les arbres de décision Les arbres de décision 25 Septembre 2007 Datamining 1 2007-2008 Plan 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 2 2007-2008 Les données du Titanic Le partitionnement

Plus en détail

Vers l auto-sélection des index dans les entrepôts de données: une approche basée sur la recherche des motifs fréquents maximaux

Vers l auto-sélection des index dans les entrepôts de données: une approche basée sur la recherche des motifs fréquents maximaux Vers l auto-sélection des index dans les entrepôts de données: une approche basée sur la recherche des motifs fréquents maximaux ZIANI Benameur - OUINTEN Youcef Laboratoire d Informatique et de Mathématiques

Plus en détail

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION Jean-Loup Guillaume Le cours Enseignant : Jean-Loup Guillaume équipe Complex Network Page du cours : http://jlguillaume.free.fr/www/teaching-syrres.php Évaluation

Plus en détail

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients Frédérick Vautrain, Dir. Data Science - Viseo Laurent Lefranc, Resp. Data Science Analytics - Altares

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html Option Deux thèmes : La recherche opérationnelle : Traiter des problèmes d optimisation, d aide à la décision et d évaluation de performances

Plus en détail

Groupe seconde chance Feuille d exercices numéro 4

Groupe seconde chance Feuille d exercices numéro 4 Groupe seconde chance Feuille d exercices numéro 4 Exercice 1 Ecrire un programme de construction de la figure suivante. On utilisera seulement deux mesures : le rayon du cercle est 8 cm, la largeur d

Plus en détail

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES Bruno Agard (1), Andrew Kusiak (2) (1) Département de Mathématiques et de Génie Industriel, École Polytechnique de Montréal,

Plus en détail

FOUILLE DE DONNEES - Fondements

FOUILLE DE DONNEES - Fondements 1 Cours Master IPS FMIN361 UM2 FOUILLE DE DONNEES - Fondements E. KERGOSIEN eric.kergosien@lirmm.fr UM2 MONTPELLIER 2 Planning 18/09/2013 : Fouille de données Fondements (E. Kergosien) 25/09/2013 : Clustering

Plus en détail

Bases de données. Chapitre 1. 1.1 Généralité sur les bases de données. 1.2 Avec sqlite3. 1.1.1 Le langage SQL et les bases de données

Bases de données. Chapitre 1. 1.1 Généralité sur les bases de données. 1.2 Avec sqlite3. 1.1.1 Le langage SQL et les bases de données Chapitre 1 Bases de données 1.1 Généralité sur les bases de données 1.1.1 Le langage SQL et les bases de données La base de données (BDD) est un système qui enregistre des informations. Ces informations

Plus en détail

Accélérer l agilité de votre site de e-commerce. Cas client

Accélérer l agilité de votre site de e-commerce. Cas client Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

212 année 2013/2014 DM de synthèse 2

212 année 2013/2014 DM de synthèse 2 22 année 20/204 DM de synthèse 2 Exercice Soit f la fonction représentée cicontre.. Donner l'ensemble de définition de la fonction f. 2. Donner l'image de 4 par f.. a. Donner un nombre qui n'a qu'un seul

Plus en détail

Corrigé du baccalauréat S Polynésie juin 2004

Corrigé du baccalauréat S Polynésie juin 2004 Durée : 4 heures Corrigé du baccalauréat S Polynésie juin 4 EXERCICE Commun à tous les candidats 4 points. X suit la loi de durée de vie sans vieillissement ou encore loi eponentielle de paramètre λ ;

Plus en détail