LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Dimension: px
Commencer à balayer dès la page:

Download "LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy."

Transcription

1 Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS 14 Janvier 2015

2 Pourquoi l extraction de connaissances à partir de données? Ø Données disponibles Ø Limites de l approche humaine Ø Nombreux besoins : Ø Industriels, Ø Médicaux, Ø Marketing, Ø

3 Extraction des Connaissances à partir de Données «l extraction d'informations originales, auparavant inconnues, potentiellement utiles à partir des données.» Pré-traitement Fouille Post-traitement [Fayyad et al., 1996] 5/49

4 Buts : exemples d application Ø diagnostic médical Ø profils de clients, mailing, accord de prêts bancaires,... Ø reconnaissance de caractères manuscrits Ø finance, prévision d évolutions de marchés Ø Customer Relationship Management (CRM) : trouver, gagner et garder ses clients! Ø détection de fraudes, Ø détection de mauvais payeurs,

5 Le pré traitement Ø Intégration des données à partir de différentes sources Ø Conversion des noms d attributs (CNo -> CustomerNumber) Ø Utilisation de la connaissance du domaine pour détecter les doublons (e.g., utiliser les codes postaux) Ø Vérifier la cohérence des données : Ø des contraintes spécifiques à l application Ø Résolution des incohérences Ø «Completion» Ø Le cas des valeurs manquantes Ø Le pré-traitement des données est souvent la tâche la plus coûteuse dans le processus KDD!

6 Le pré traitement Ø Discrétisation des attributs numériques Ø Indépendamment de la tâche de fouille de données Ø Ex. : partitionner le domaine des attributs en des intervalles de même longueur. Ø Spécifique de la tâche de fouille de données Ø Partitionner en des intervalles qui maximisent le gain d information par rapport à la classe Ø Génération d attributs dérivés : Ø Agrégation d un ensembles d attributs Ø Ex. : à partir d appels Ø nb minutes par jour, semaine, appels locaux... Ø Combinaison d attributs : Ø Ex. : variation de revenu (revenu revenu 2008)

7 Le pré traitement Ø Sélection des attributs Ø manuellement : Si les connaissances du domaine sont disponibles pour les attributs. Ø de façon automatique : Ø Trop d attributs -> des répercussions sur l étape de fouille de données Ø Choix des attributs primordial : Ø Ex. : glace à la fraise

8 Data Mining Ø Définition [Fayad et al. 96] La fouille de données est l application d algorithmes efficaces qui identifient les motifs contenus dans une base de données Ø Les différentes méthodes de fouille : Ø Clustering Ø Classification Ø Extraction de motifs fréquents Ø Autres tâches : regression, détection d outlier, etc.

9 Data Mining Ø Méthodes descriptives (ou non supervisées) : Ø objectif : trouver des «formes» interprétables qui permettent de décrire les données sans référence à une base d exemples. C est donc la construction d un modèle et la découverte de relations dans les données. Ø clustering (K-means, CAH), règles d associations, SOM, Ø Méthodes prédictives (ou supervisées) : Ø objectif : à partir d exemples, inférer sur les données pour réaliser des prédictions. En ce basant sur un ensemble d exemples, on infère par exemple les classes d appartenance d autres individus. Les classes sont donc ici connues. Ø classification, régression, k-ppv

10 Data Mining Ø Applications Ø Clustering Ø Segmentation, structuration d un ensemble de documents «web», déterminer des familles de protéines et des «superfamilles», découvertes de communautés Ø Classification : Ø prédiction de la fonction d une protéine, accorder un crédit, interpréter des images en astronomie, etc. Ø Motifs fréquents : Ø mise en rayon, promotion, améliorer la structure d un site web...

11 Evaluation Ø Présentation des motifs découverts avec une visualisation appropriée Ø Evaluation des motifs par l utilisateur Ø Si l évaluation n est pas satisfaisante, alors relancer la fouille avec : Ø des paramètres différents Ø d autres méthodes Ø d autres données Ø Si l évaluation est positive : Ø Intégrer les connaissances découvertes dans une base de connaissance Ø Utiliser ces connaissances dans les futures processus KDD

12 Evaluation Ø Intérêt des motifs découverts : Ø motifs déjà connus? Ø motifs surprenants? Ø motifs pertinents par rapport à l application? Ø Pouvoir prédictif Ø Quel est la précision du motif? Ø Dans combien de cas se produit il? Ø Peut-il se généraliser à d autres cas non couverts?

13 Données, information, connaissance

14 Fouille ou pas fouille? Ø Ce que la fouille de données n est pas : Ø Chercher un numéro de téléphone dans un annuaire téléphonique Ø Effectuer une recherche avec google Ø Ce que la fouille de données est : Ø Analyser des résultats de requêtes effectuées avec google. Ø Analyser la structuration des pages d un annuaire téléphonique

15 Méthodes discutées dans le cours Ø Fouille de motifs (MP) Ø Règle d association, algorithme Apriori Ø Fouille de séquences Ø Clustering (MP) Ø Apprentissage supervisé (AA)

16 10 LOGO Qu est ce qu une donnée? Ø Une collection d objets et leurs attributs ou caractéristiques Ø Type d attribut : Ø Qualitatif Ø Nominal Ø Ordinal Tid Refund Marital Status Attributes Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat Ø Quantitatif Ø Discret Ø Continu Objects 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes

17 Motifs fréquents et règles d association Ø Motivations : chercher des régularités dans les données Ø Analyse du «panier de la ménagère» Ø Quels sont les produits qui sont fréquemment achetés ensembles? Ø Applications : rayonnage, mailing, cross marketing...

18 Recherche de règles d associations Cette méthode a été introduite en 1993 par R. Agrawal, T. Imielinski et A. Swami du centre de recherche d IBM. v Forme : Corps -> Tête [support, confiance] Achat des 2 v Première «trouvaille»? Achat bières Achat couches «Les hommes qui achètent des couches le vendredi soir, ils ont la tendance d acheter également de la bière»

19 Les données TICKET 1 Farine Sucre Lait TICKET 2 Oeuf Sucre Chocolat TICKET 3 Farine Oeuf Sucre Chocolat TICKET 4 Oeuf Chocolat Thé Un ensemble T dont les m éléments sont appelés transactions

20 Principe de construction Contenu d un ticket de caisse TICKET 1 Farine Sucre Lait Création des associations Farine Sucre Sucre Farine Sucre Lait Lait Sucre Lait Farine Farine Lait Un ensemble I dont les n éléments sont appelés items I={Farine, Sucre, Lait, Œuf, Chocolat, Thé}

21 Structure des règles produites On obtient un ensemble de règles de la forme: {Lait, Œuf} {Chocolat} support = 10%, confiance= 25% Cela signifie que 10% des transactions contiennent à la fois les items Lait, Œuf et Chocolat et que 25% des transactions contenant Lait, Œuf contiennent aussi l item Chocolat

22 Les règles d association (plus formellement) Ø Soit I = {i1,i2,..., in} un ensemble de littéraux appelés items. Ø Un itemset X : un ensemble d items X I Ø Une base de données D consiste en un ensemble de transactions ti t.q. ti I Ø On dit que t contient X si X t Ø Les items d une transaction ou d un itemset sont triés suivant un ordre lexigographique Ø Longueur d un itemset = nombre d items qu il contient Ø k-itemset : itemset de longueur k

23 Définitions Ø Support absolu d un itemset X dans D : nombre de transactions qui contiennent X Ø Support relatif de X dans D : pourcentage de transactions de D qui contiennent X Ø Itemset fréquent X dans D : itemset X avec un support minsup Ø Règle d association : règle de la forme X -> Y avec Ø X I, Ø Y I, Ø X Y =

24 Structure des règles produites(2) v Une règle d association a la forme : X X Y où et avec la prémisse est X et la conclusion est Y I Y I X Y = Ο Le support est sup( X Y) = card t { T / X Y t} / card( T) La confiance est conf( X Y) = card card { t T / X Y t} { t T / X t}

25 Recherche des règles intéressantes (1) v Critère d extraction des règles A partir d un ensemble T de transactions, trouver toutes les règles avec un support sup>min_supp et une confiance conf>min_conf où min_supp et min_conf sont des seuils fixés a priori par l utilisateur. Si Chocolat est contenu dans beaucoup de tickets cela devient moins intéressant.

26 Algorithme de base Apriori C est l algorithme proposé par Agrawal et Srikant en La complexité est d ordre O(m). v Recherche des sous-ensembles de I présentant un support sup(x) supérieur à s 0. v Construction des règles dont la confiance est supérieure à c 0.

27 Découverte des règles d association Ø Deux étapes : Ø Découvrir tous les itemsets fréquents dans D Ø Générer les règles d association à partir des itemsets fréquents : Ø Pour tous les itemsets fréquents X : Ø Pour tous les A X : (qui satisfait la contrainte de support) Ø Générer la règle A (X A) (qui satisfait la contrainte de support) Ø Verifier la confiance de la règle

28 Extraction des motifs fréquents (approche naïve) Ø Générer tous les itemsets possibles, puis calculer leur support dans la base de données Ø Problèmes : Ø Comment garder en mémoire un nombre important d itemsets? Ø 100 items => itemsets possibles!!!! Ø Comment calculer le support d un nombre important d itemsets dans une grande base de données (100 million de transactions)?

29 Extraction des motifs fréquents Ø Propriété d anti-monotonie du support : Ø Tous les sous ensembles d un itemset fréquent sont fréquents Ø Si un itemset X n est pas fréquent alors il n existe pas d itemset Y t.q X inclus en Y qui soit fréquent

30 Extraction des motifs fréquents Ø Trouver les 1-itemsets fréquents, puis trouver les 2- itemsets fréquents... Ø Pour trouver les k+1-itemsets fréquents : Ø Seulement considérer les k+1-itemsets t.q. : Ø tous les k-sous-ensembles sont fréquents. Ø Calcul du support : Ø Une passe sur la base de données pour compter le support de tous les itemsets pertinents.

31 Algorithme Apriori Ck: Lk: set of candidate item sets of length k set of all frequent item sets of length k Apriori(D, minsup) L1 := {frequent 1-item sets in D}; k := 2; while Lk-1 do Ck := AprioriCandidateGeneration(Lk 1); for each transaction T D do CT := subset(ck, T); // all candidates from Ck, that are // contained in transaction T; for each candidate c CT do c.count++; Lk := {c Ck (c.count / D ) minsup}; k++; return k Lk;

32 Génération de candidats Propriétés de l ensemble Ck des k-itemsets candidats Sur-ensemble de Lk Significativement plus petit que tous k-itemsets possibles de I

33 Génération de candidats : la jointure

34 Génération de candidats : élagage Etape 2 : l élagage Supprimer tous les éléments de Ck qui ont un (k-1) sous-ensemble qui n appartient pas à Lk-1. Ex. : L3 = {(1 2 3), (1 2 4), (1 3 4), (1 3 5), (2 3 4)} Jointure : C4 = {( ), ( )} Elagage: suppression de ( ) car (3 4 5) n appartient pas à L3 Au final : C4 = {( )}

35 Construction de C 1 Item1 Nombre Farine 2 Sucre 3 Lait 1 Œuf 3 Chocolat 3 Thé 1 On décide de retenir un taux de support de 30%

36 Construction de C 2 Item1 Item2 Nombre Farine Sucre 2 Farine Œuf 1 Farine Chocolat 1 Sucre Œuf 2 Sucre Chocolat 2 Œuf Chocolat 3 L 2 contient 4 couples {Farine,Sucre}, {Sucre, Œuf}, {Sucre, Chocolat} et {Œuf, Chocolat}.

37 Construction de C 3 Item1 Item2 Item3 Nombre Sucre Oeuf Chocolat 2 Insert into C 3 Select p.item1, p.item2, q.item2 From L 2 p, L 2 q where p.item1=q.item1 and p.item2 < q.item2

38 Ensemble des sous-ensembles fréquents L ensemble L des sous-ensembles fréquents est l union des ensembles L 1, L K. L 1 ={Farine, Sucre, Œuf, Chocolat} L 2 ={(Farine,Sucre), (Sucre,Œuf), (Sucre,Chocolat), (Œuf,Chocolat)} L 3 ={(Sucre, Œuf, Chocolat)}

39 Génération des règles à partir des itemsets Pseudo-code : Pour chaque itemset fréquent I : Générer tous les sous-ensembles non vides X de I Pour chaque X de I : Si support(i)/support(x) min_conf alors produire la règle X => (I-X)

40 Construction des règles Pour chaque ensemble fréquent on construit des règles vérifiant la contrainte de seuil de confiance. Un algorithme simple pour produire des règles à partir d un sous-ensemble fréquent f est de considérer tous les sousensembles possibles g de f et de produire la règle g (f-g) si la condition sur la confiance est vérifiée. Cependant si une règle (f-g ) g vérifie la contrainte de confiance, alors, pour chaque partie h de g, la règle (f-h) h vérifie aussi la condition de confiance. Alors on commence par les règles ayant un seul conséquent, puis sur les règles retenues on génère les règles ayant deux conséquents.

41 Tableau des règles Sous-ensemble Règle Support Confiance {Farine, Sucre} Farine->Sucre 2/4 2/2 Sucre->Farine 2/4 2/3 {Sucre, Œuf} Sucre->Oeuf 2/4 2/3 Œuf->Sucre 2/4 2/3 {Sucre, Chocolat} Sucre->Chocolat 2/4 2/3 Chocolat->Sucre 2/4 2/3 {Œuf, Chocolat} Œuf->Chocolat 3/4 3/3 Chocolat->Oeuf 3/4 3/3 {Sucre, Œuf, Chocolat} Sucre->Œuf, Chocolat 2/4 2/3 Œuf, Chocolat->Sucre 2/4 2/3 Œuf->Sucre, Chocolat 2/4 2/3 Sucre, Chocolat-> Œuf 2/4 2/2 Chocolat->Sucre, Œuf 2/4 2/3 Sucre, Œuf->Chocolat 2/4 2/3

42 Tableau des règles intéressantes Liste des règles ayant une confiance égale à 1. Sous-ensemble Règle Confiance lift {Farine, Sucre} Farine->Sucre 2/2 4/3 {Œuf, Chocolat} Œuf->Chocolat 3/3 4/3 Chocolat->Oeuf 3/3 4/3 {Sucre, Œuf, Chocolat} {Sucre, Chocolat}-> Oeuf 2/2 4/3

43 Remarque Le nombre des combinaisons des items croît très rapidement Nombre Combinaisons Le nombre d items est égal à n. Le nombre de combinaisons de k items est égal à n! /( n k)! k!

44 Exercices 46/49

45 Recherche de séquences fréquentes v On est capable de conserver la trace du passage d un même client à différents instants v En plus de la recherche de règles d associations, il est possible de rechercher des séquences d achats fréquentes. v Chaque élément d une séquence fréquente peut être composée de plusieurs items.

46 Structure des données v I un ensemble d items v C un ensemble de clients v D un ensemble ordonné de dates v T un ensemble de transactions Chaque transaction est définie par v Un ensemble d items v Identifiant du client v La date de la transaction

47 Tableau des séquences

48 Séquences v Une séquence est une liste ordonnée de sousensembles d items. v Une relation d ordre partielle sur l ensemble des séquences a=(a 1,,a p ) et b=(b 1,,b p ) deux séquences a est contenu dans b s il existe des entiers i 1 < <i p tel que a 1 b,..., i1 a p b ip

49 Séquence de client v L ensemble des transactions d un client est une séquence particulière, appelée séquence de client. v Le support d une séquence est : sup(s)=(nombre de séquences de clients contenant s)/(nombre total de clients) v Séquence a de client supporte b si b est inclus dans a. v Une séquence qui a le minimum support est appelée large (frequent) itemset

50 Critère d extraction des séquences A partir d un ensemble T de transactions, trouver l ensemble des séquences présentant un support supérieur à s, paramètre de la méthode. Les séquences trouvées sont appelées séquences fréquentes.

51 Algorithme de base v Rechercher les séquences de longueur 1 ayant un support supérieur à s (large sequences). C est l ensemble des sous ensembles fréquents. v A partir des séquences trouvées dans l étape précédente, construire les séquences de longueur 2 avec un support supérieur à s. v Par itération, construire des séquences de longueur k avec un support supérieur à s à partir de celles trouvées pour une longueur k-1.

52 AprioriAll Algorithme v Trouver toutes les séquences fréquentes en 5 étapes : Sort Phase L(arge)itemset Phase Transformation Phase Sequence Phase Maximal Phase

53 AprioriAll Algorithme Customer-Sequence Version of the Database

54 AprioriAll Algorithme Litemset Phase min_sup_count=2 Apriori/DHP FP Growth

55 AprioriAll Algorithme Transformation Phase

56 AprioriAll Algorithme Sequence Phase Large 2-Sequences Customer Sequences Large 1-Sequences 2 Large 3-Sequences Large 4-Sequences Maximal Large Sequences

57 AprioriAll Algorithme Candidate Phase

58 AprioriAll Algorithme Discussion v L algorithme AprioriAll va générer un grand volume de séquences candidat v Scanner bcp de fois la BD v Difficulté dans la fouille de longue séquences

59 Extension de la méthode v Introduction de taxonomies v Introduction de contraintes temporelles Regroupement de transactions par fenêtre glissante Ajout de contraintes temporelles Comment vérifier ces contraintes temporelles

60 Correspondance de Galois { } { } G o H a o A a G f G o ora A a G f O G A O f = =, ), /( ) (, / ) ( ) ( ) ( : { } { } B a H a o O o B g B a ora O o B A g B O A g = =, ), /( ) (, / ) ( ) ( ) ( : intension extension (f,g) est une correspondance de Galois f et g sont deux fonctions monotones et décroissantes

61 Correspondance de Galois Farine Sucre Lait Œuf Chocolat Thé Ticket 1 X X X Ticket 2 X X X Ticket 3 X X X X Ticket 4 X X X

62 Correspondance de Galois Un itemset est fermé si aucun de ses super-ensembles immédiats a le même support que l itemset TID Items 1 ABC 2 ABCD 3 BCE 4 ACDE 5 DE support null A B C D E Fermés AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE f(g(e)) = {E} f(g(d)) = {D} ABCD ABCE ABDE ACDE BCDE 0 ABCDE

63

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Règles d'association. Définition. Processus

Règles d'association. Définition. Processus Data Mining «Extraction de connaissances valides et exploitables à partir de grands volumes de données hétérogènes provenant de sources et de bases diverses» Règles d'association Définition Extraction

Plus en détail

Cours Fouille de données avancée

Cours Fouille de données avancée Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mohamed Khider - Biskra Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie Département d Informatique

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

Pascal : un algorithme d extraction des motifs fréquents

Pascal : un algorithme d extraction des motifs fréquents RECHERCHE Pascal : un algorithme d extraction des motifs fréquents Yves Bastide * Rafik Taouil ** Nicolas Pasquier *** Gerd Stumme **** Lotfi Lakhal ***** * IRISA-INRIA - 35042 Rennes Cedex yves.bastide@irisa.fr

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

BI = Business Intelligence Master Data-Science Cours 6 - Data Mining

BI = Business Intelligence Master Data-Science Cours 6 - Data Mining BI = Business Intelligence Master Data-Science Cours 6 - Data Mining Ludovic DENOYER - D après Elisa Fromont UPMC 23 mars 2015 Ludovic DENOYER - D après Elisa Fromont Le Data Mining De plus en plus de

Plus en détail

Etude d Algorithmes Parallèles de Data Mining

Etude d Algorithmes Parallèles de Data Mining REPUBLIQUE TUNISIENNE MINISTERE DE L ENSEIGNEMENT SUPERIEUR, DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DE TUNIS ELMANAR FACULTE DES SCIENCES DE TUNIS DEPARTEMENT DES SCIENCES DE L INFORMATIQUE

Plus en détail

Fouille de données: des bases binaires aux bases évidentielles

Fouille de données: des bases binaires aux bases évidentielles Fouille de données: des bases binaires aux bases évidentielles Ahmed Samet Faculté des sciences de Tunis Présenté le : 16 janvier 2013 Ahmed Samet Fouille de données: des bases binaires aux bases évidentielles

Plus en détail

Web Data Mining Web Usage Mining

Web Data Mining Web Usage Mining Web Data Mining p. 1/1 Web Data Mining Web Usage Mining Maria Malek Options GL, ISICO & IdSI EISTI Web Data Mining p. 2/1 Fouille des Données de la Toile?!! Web Structure Mining Découverte de la connaissance

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

Fouille de données : notes de cours

Fouille de données : notes de cours Fouille de données : notes de cours Jean Lieber (fortement mais librement inspiré du cours d Amedeo Napoli) dernière version : 05/10/07 (version préliminaire modifiée par Adrien Coulet) Contents 1 Introduction

Plus en détail

République Algérienne Démocratique et Populaire

République Algérienne Démocratique et Populaire République Algérienne Démocratique et Populaire وزارة التعليم العالي والبحث العلمي Ministère de l Enseignement Supérieur et de la Recherche Scientifique UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE d ORAN

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Entrepôt de Données et Fouille de Données Un Modèle Binaire et Arborescent dans le Processus de Génération des Règles d'association

Entrepôt de Données et Fouille de Données Un Modèle Binaire et Arborescent dans le Processus de Génération des Règles d'association UNIVERSITE MENTOURI CONSTANTINE Faculté des Sciences de l'ingénieur Département d'informatique THESE DE DOCTORAT EN SCIENCES Spécialité: Informatique MOHAMED EL HADI BENELHADJ Entrepôt de Données et Fouille

Plus en détail

Introduc)on à la fouille de données, cours 1

Introduc)on à la fouille de données, cours 1 Introduc)on à la fouille de données, cours 1 Sources «Introduc)on to data mining» Cours de l année précédente Pourquoi fouiller les données? Beaucoup de données stockées dans des «data centers» Web (pages,

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 13 L exploration des données 13.1. Présentation de la semaine L exploration de données (ou data mining) est souvent associée à l intelligence

Plus en détail

Découverte de Règles Associatives Hiérarchiques entre termes. Sandra BSIRI Hamza Mahdi ZARG AYOUNA Chiraz L.Chérif Sadok BENYAHIA

Découverte de Règles Associatives Hiérarchiques entre termes. Sandra BSIRI Hamza Mahdi ZARG AYOUNA Chiraz L.Chérif Sadok BENYAHIA Découverte de Règles Associatives Hiérarchiques entre termes Sandra BSIRI Hamza Mahdi ZARG AYOUNA Chiraz L.Chérif Sadok BENYAHIA 1 Plan Problématique et État de l art Nouvelle approche Approche Conceptuelle

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

INTRODUCTION AU DATA MINING. Cina MOTAMED

INTRODUCTION AU DATA MINING. Cina MOTAMED INTRODUCTION AU DATA MINING Cina MOTAMED 2 Data Mining : contexte Âge numérique : explosion des volumes de données Transactions commerciales Opérations bancaires Navigation Internet Indicateurs démographiques

Plus en détail

Extraction de motifs : Règles d association et motifs séquentiels

Extraction de motifs : Règles d association et motifs séquentiels 1 Extraction de motifs : Règles d association et motifs séquentiels Maguelonne Teisseire TETIS Cemagref teisseire@teledetection.fr http://www.lirmm.fr/~teisseir Plan o Contexte général o Règles d association

Plus en détail

Extraction de motifs : Règles d association et motifs séquentiels. Pascal Poncelet LIRMM Pascal.Poncelet@lirmm.fr http://www.lirmm.

Extraction de motifs : Règles d association et motifs séquentiels. Pascal Poncelet LIRMM Pascal.Poncelet@lirmm.fr http://www.lirmm. 1 Extraction de motifs : Règles d association et motifs séquentiels Pascal Poncelet LIRMM Pascal.Poncelet@lirmm.fr http://www.lirmm. fr/~poncelet Plan Règles d association Motifs séquentiels Applications

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Utilisation des arbres de radicaux pour les algorithmes de Data-Mining sur grille de calcul.

Utilisation des arbres de radicaux pour les algorithmes de Data-Mining sur grille de calcul. Utilisation des arbres de radicaux pour les algorithmes de Data-Mining sur grille de calcul. Stage de DEA en Informatique Parallèle Répartie et Combinatoire.. Gaël Le Mahec encadré par C. Cérin et M. Koskas

Plus en détail

Baptiste Jeudy OPTIMISATION DE REQUÊTES INDUCTIVES : APPLICATION À L EXTRACTION SOUS CONTRAINTES DE RÈGLES D ASSOCIATION

Baptiste Jeudy OPTIMISATION DE REQUÊTES INDUCTIVES : APPLICATION À L EXTRACTION SOUS CONTRAINTES DE RÈGLES D ASSOCIATION N d ordre 02 ISAL 0090 Année 2002 THÈSE présentée DEVANT L INSTITUT NATIONAL DES SCIENCES APPLIQUÉES DE LYON FORMATION DOCTORALE : DISIC ÉCOLE DOCTORALE : EDIIS pour obtenir LE GRADE DE DOCTEUR SPÉCIALITÉ

Plus en détail

Extraction de Bases pour les Règles d'association à partir des Itemsets Fermés Fréquents

Extraction de Bases pour les Règles d'association à partir des Itemsets Fermés Fréquents Extraction de Bases pour les Règles d'association à partir des Itemsets Fermés Fréquents Nicolas Pasquier Laboratoire d'informatique (LIMOS) - Université Clermont-Ferrand II Complexe scientifique des Cézeaux,

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Extraction de Connaissances Avancées

Extraction de Connaissances Avancées 1 Extraction de Connaissances Avancées Maguelonne Teisseire TETIS Irstea teisseire@teledetection.fr http://www.lirmm.fr/~teisseir Organisation o Planning http://www.lirmm.fr/~aze/gmin313.html o Les intervenants

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

Techniques Data Mining pour la sélection d une configuration d index de jointure binaire

Techniques Data Mining pour la sélection d une configuration d index de jointure binaire Faculté des Sciences Tidjani HADDAM Département de l Informatique Mémoire Pour l obtention du diplôme de MASTER Spécialité : Informatique Option : Modèles Intélligents et Décision (MID) THÈME Techniques

Plus en détail

5.NORMALISATION. 1.Dependance fonctionnelle (DF) 2. Calcul des identifiants 3. Décomposition d une relation 4.Normalisation d une relation

5.NORMALISATION. 1.Dependance fonctionnelle (DF) 2. Calcul des identifiants 3. Décomposition d une relation 4.Normalisation d une relation 103 5.NORMALISATION 1.Dependance fonctionnelle (DF) 2. Calcul des identifiants 3. Décomposition d une relation 4.Normalisation d une relation 104 DF et Clé problème Mélanger dans une même relation des

Plus en détail

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce Algorithmes : K-means et Apriori Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Cloud Computing et MapReduce

Plus en détail

JEN : un algorithme efficace de construction de générateurs pour l identification des règles d association

JEN : un algorithme efficace de construction de générateurs pour l identification des règles d association JEN : un algorithme efficace de construction de générateurs pour l identification des règles d association Amélie Le Floc h*, Christian Fisette*, Rokia Missaoui**, Petko Valtchev***, Robert Godin* * Département

Plus en détail

Des entrepôts à la fouille de données

Des entrepôts à la fouille de données UMR 5205 Plan du cours Des entrepôts à la fouille de données Jean-Marc Petit INSA de Lyon jmpetit@liris.cnrs.fr Fouille de données : une vision d ensemble Un petit focus sur le passage à l échelle Problèmes

Plus en détail

Approches d extraction de règles d association basées sur la correspondance de Galois

Approches d extraction de règles d association basées sur la correspondance de Galois Approches d extraction de règles d association basées sur la correspondance de Galois Sadok Ben Yahia Engelbert Mephu Nguifo Centre de Recherche en Informatique de Lens - IUT de Lens Rue de l Université

Plus en détail

Fouille de données (Data Mining) - Application à la bioinformatique

Fouille de données (Data Mining) - Application à la bioinformatique 1.2 Explosion des informations biologiques 2007 2007 2007 2007 Fouille de données (Data Mining) - Application à la bioinformatique 2007 2007 2007 Cumulative increases of published articles in molecular

Plus en détail

2.4 Représentation graphique, tableau de Karnaugh

2.4 Représentation graphique, tableau de Karnaugh 2 Fonctions binaires 45 2.4 Représentation graphique, tableau de Karnaugh On peut définir complètement une fonction binaire en dressant son tableau de Karnaugh, table de vérité à 2 n cases pour n variables

Plus en détail

Matérialisation partielle des cubes de données

Matérialisation partielle des cubes de données Matérialisation partielle des cubes de données N. Hanusse S. Maabout R.Tofan CNRS-INRIA-LaBRI. Université de Bordeaux {hanusse,maabout,tofan}@labri.fr Résumé Les cubes de données offrent une interface

Plus en détail

Présentation SSDM : Semantically Similar Data Miner

Présentation SSDM : Semantically Similar Data Miner Présentation SSDM : Semantically Similar Data Miner Guillaume Calas Henri-François Chadeisson EPITA SCIA 2009 16 Juillet 2008 calas g - chadei h SSDM : Semantically

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE Université Mouloud Mammeri de Tizi-ouzou Faculté de Génie Electrique et Informatique

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE

REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE LES DONNEES OBS KW SURFACE PERS PAVILLON AGE VOL SBAINS 1 4805 130 4 1 65 410 1 2 3783 123 4 1 5 307 2 3 2689 98 3 0 18 254 1 4 5683 178 6 1 77 570 3 5 3750

Plus en détail

Dépendances Fonctionnelles Exercices Corrigés

Dépendances Fonctionnelles Exercices Corrigés Dépendances Fonctionnelles Exercices Corrigés Axiomes d Armstrong Exercice 1 L'axiome de pseudo transitivité nous dit que si X Y et YW Z, alors XW Z. Démontrer cet axiome à l'aide des autres axiomes d'arstrong.

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données.

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données. Data Mining = Knowledge Discovery in Databases (KDD) = Fouille de données 1 Définition : Processus ou méthode qui extrait des connaissances «intéressantes» ou des motifs (patterns) à partir d une grande

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT POLYTECH'MONTPELLIER IG 5

FOUILLE DE DONNEES. Anne LAURENT POLYTECH'MONTPELLIER IG 5 FOUILLE DE DONNEES Anne LAURENT POLYTECH'MONTPELLIER IG 5 Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

2. Si x désigne le prix d un article, exprimer en fonction de x le prix de cet article après une baisse de 20%.

2. Si x désigne le prix d un article, exprimer en fonction de x le prix de cet article après une baisse de 20%. 3 ème REVISIONS BREVET EXERCICE 1 : Soit P = (x 2) (2x + 1) (2x + 1)² 1. Développer et réduire P. 2. Factoriser P. 3. Résoudre l équation (2x + 1) (x + 3) = 0 4. Pour x = 3, écrire P sous forme fractionnaire.

Plus en détail

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be)

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be) Datamining Glossaire Xavier Dubuc (xavier.dubuc@umons.ac.be) 3 juin 2011 1 Table des matières 1 Classification 3 2 Règles d association 3 2.1 Introduction............................................ 3

Plus en détail

WCUM pour l analyse d un site Web

WCUM pour l analyse d un site Web WCUM pour l analyse d un site Web Malika Charrad 1 Yves Lechevallier 2 Gilbert Saporta 3 Mohamed Ben Ahmed 4 1,4 Ecole Nationale des Sciences de l Informatique, Tunis 2 INRIA Rocquencourt, Paris 1,3 Conservatoire

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Mostafa Hanoune, Fouzia Benabbou To cite this version: Mostafa Hanoune, Fouzia Benabbou. Modélisation Informatique

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Segmentation et data mining pour l industrie.

Segmentation et data mining pour l industrie. Une solution industrielle complète de data mining Segmentation et data mining pour l industrie. Johan Baltié Franck Coppola Tristan Robet Promotion 2002 Specialisation S.C.I.A. Responsable M. Adjaoute

Plus en détail

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat...

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat... But du cours Vocabulaire, principes et techniques du Data Mining Méthodes et Algorithmes Interprétation des résultats. Data Mining : Concepts and Techniques J. Han, M. Kamber Morgan Kaufmann Le Data Mining

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Université Ibn Zohr Faculté des Sciences Juridiques, Économiques et Sociales Exposé sous le thème : Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Plan : Introduction : L

Plus en détail

Apprentissage statistique:

Apprentissage statistique: Apprentissage statistique: Arbre de décision binaire et Random Forest 1 Plan 1. Introduction 2. 3. Application à l apprentissage supervisé 4. Forêt Aléatoire (Random Forest) 2 1 Plan 1. Introduction 2.

Plus en détail

Recherche Opérationnelle et Optimisation : Quelles perspectives pour le Datamining

Recherche Opérationnelle et Optimisation : Quelles perspectives pour le Datamining Recherche Opérationnelle et Optimisation : Quelles perspectives pour le Datamining Clarisse DHAENENS LIFL Equipe OPAC INRIA Projet DOLPHIN Université de Lille 1 KESAKO Datamining Datamining : définitiond

Plus en détail

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 WEKA : c est quoi? Brigitte Bigi LPL - Équipe C3I 15 février 2011 Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 Introduction 1 Introduction 2 Classification supervisée 3 WEKA

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

Introduction aux bases de données

Introduction aux bases de données 1/73 Introduction aux bases de données Formation continue Idir AIT SADOUNE idir.aitsadoune@supelec.fr École Supérieure d Électricité Département Informatique Gif sur Yvette 2012/2013 2/73 Plan 1 Introduction

Plus en détail

CONSTRUCTION EFFICACE DU TREILLIS DES MOTIFS FERMÉS FRÉQUENTS ET EXTRACTION SIMULTANÉE DES BASES GÉNÉRIQUES DE RÈGLES

CONSTRUCTION EFFICACE DU TREILLIS DES MOTIFS FERMÉS FRÉQUENTS ET EXTRACTION SIMULTANÉE DES BASES GÉNÉRIQUES DE RÈGLES Math. & Sci. hum. / Mathematics and Social Sciences (49 e année, n 195, 2011(3), p. 5 54) CONSTRUCTION EFFICACE DU TREILLIS DES MOTIFS FERMÉS FRÉQUENTS ET EXTRACTION SIMULTANÉE DES BASES GÉNÉRIQUES DE

Plus en détail

Data Mining et Big Data

Data Mining et Big Data Data Mining et Big Data Eric Rivals LIRMM & Inst. de Biologie Computationnelle CNRS et Univ. Montpellier 14 novembre 2015 E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 1 / 30 Introduction, contexte

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

I.2: Le test fonctionnel I.2.2 : Le test fonctionnel de logiciel

I.2: Le test fonctionnel I.2.2 : Le test fonctionnel de logiciel I.2: Le test fonctionnel I.2.2 : Le test fonctionnel de logiciel Introduction Notre contexte : pas possible d exprimer toutes les combinaisons de DT. Le test fonctionnel est basé sur la spécification/interface

Plus en détail

Florent Masseglia INRIA Sophia Antipolis-Méditerranée Equipe-Projet AXIS. Fouille de données

Florent Masseglia INRIA Sophia Antipolis-Méditerranée Equipe-Projet AXIS. Fouille de données Florent Masseglia INRIA Sophia Antipolis-Méditerranée Equipe-Projet AXIS Fouille de données Principes généraux du data mining Sécurité Fouille de flots Réseaux de capteurs http://www.inria.fr/sophia/teams/axis

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Apprentissage par exploration

Apprentissage par exploration Apprentissage par exploration 1/32 Introduction Méthode particulière d acquisition de connaissance : apprentissage artificiel, à partir d induction. obtention des connaissances à partir d exemples. On

Plus en détail

Chapitre 4 : Le langage SQL

Chapitre 4 : Le langage SQL Chapitre 4 : Le langage SQL Table des matières I) Introduction...2 II) Rappel...2 III) Gestion de la base de données...2 1) Création de la base de données...2 2) Modification de la base de données...2

Plus en détail

SQL pour. Oracle 10g. Razvan Bizoï. Tsoft, Groupe Eyrolles, 2006, ISBN : 2-212-12055-9, ISBN 13 : 978-2-212-12055-4

SQL pour. Oracle 10g. Razvan Bizoï. Tsoft, Groupe Eyrolles, 2006, ISBN : 2-212-12055-9, ISBN 13 : 978-2-212-12055-4 SQL pour Oracle 10g Razvan Bizoï Tsoft, Groupe Eyrolles, 2006, ISBN : 2-212-12055-9, ISBN 13 : 978-2-212-12055-4 Table des matières PRÉAMBULE... MODULE 1 : PRÉSENTATION DE L ENVIRONNEMENT... 1-1 Qu'est-ce

Plus en détail

Fouille de données de mobilité

Fouille de données de mobilité Fouille de données de mobilité Thomas Devogele Université François Rabelais (Tours) thomas.devogele@univ-tours.fr Laurent Etienne Ecole Navale (Brest) Laurent.etienne@ecole-navale.fr La fouille de donnée

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Baccalauréat S Nouvelle-Calédonie 17 novembre 2014

Baccalauréat S Nouvelle-Calédonie 17 novembre 2014 Durée : 4 heures Baccalauréat S Nouvelle-Calédonie 17 novembre 2014 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats Les trois parties A, B et C sont indépendantes Une fabrique de desserts glacés

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Correction du bac blanc CFE Mercatique

Correction du bac blanc CFE Mercatique Correction du bac blanc CFE Mercatique Exercice 1 (4,5 points) Le tableau suivant donne l évolution du nombre de bénéficiaires de minima sociaux en milliers : Année 2002 2003 2004 2005 2006 2007 2008 2009

Plus en détail

1 Diverses actualisation

1 Diverses actualisation durée : 2 heures Nom de l enseignant : M. Chassagnon NB : documents et calculatrices autorisées Les exercices, sont à faire sur le sujet d examen. Il est demandé de répondre aux questions oui/non type

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2

Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2 Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2 Lhouari Nourine 1 1 Université Blaise Pascal, CNRS, LIMOS, France SeqBio 2012 Marne la vallée, France 2.

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Réseaux neuronaux Apprentissage non supervisé

Réseaux neuronaux Apprentissage non supervisé Introduction Réseaux neuronaux Apprentissage non supervisé Jerzy Korczak, LSIIT, ULP email : jjk@dpt-info.u-strasbg.fr Objectif commun : génération d une taxonomie des données sans connaissances préalable

Plus en détail