Temporal pattern mining: beyond (simple) sequential patterns Fouille de motifs temporels : au-delà des motifs séquentiels (simples)

Dimension: px
Commencer à balayer dès la page:

Download "Temporal pattern mining: beyond (simple) sequential patterns Fouille de motifs temporels : au-delà des motifs séquentiels (simples)"

Transcription

1 Data Mining Temporal pattern mining: beyond (simple) sequential patterns Fouille de motifs temporels : au-delà des motifs séquentiels (simples) 1 Outline Classical sequential pattern-mining methods GSP PrefixSpan Extensions to sequential pattern-mining Delay between events Event duration Relations between events with duration 2

2 What Is Sequential Pattern Mining? Given a set of sequences (a long unique sequence), find the complete set of frequent subsequences A sequence : < (ef) (ab) (df) c b > SID sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 3 Sequence Databases & Sequential Patterns Applications of sequential pattern mining Customer shopping sequences: First buy computer, then CD-ROM, and then digital camera, within 3 months. Medical treatments, natural disasters (e.g., earthquakes), science & eng. processes, stocks and markets, etc. Telephone calling patterns, Weblog click streams DNA sequences and gene structures Transaction databases, time-series databases vs. sequence databases Frequent patterns vs. (frequent) sequential patterns 4

3 Sequential Pattern Mining: definitions Transaction: items bought by some client at a specific date T=<id-client, id-date, itemset> (Data) sequence: list of a client s itemsets ordered by date S=<s 1 =itemset(t 1 ),, s n =itemset(t n )> Sequence inclusion: s 1 =<a 1 a 2 a n > is included in s 2 =<b 1 b 2 b m > (noted s 1 < s 2 ) iff there exist i 1 <i 2 < <i n such that a 1 b i1, a 2 b i2,, a n b in Support: A client supports a sequence s if s belongs to this client data sequence The support of a sequence is the ratio of clients that support this sequence 5 The Apriori Property of Sequential Patterns A basic property: Apriori (Agrawal & Sirkant 94) If a sequence S is not frequent Then none of the super-sequences of S is frequent E.g, <hb> is infrequent so do <hab> and <(ah)b> Seq. ID Sequence <(bd)cb(ac)> <(bf)(ce)b(fg)> <(ah)(bf)abf> <(be)(ce)d> <a(bd)bcb(ade)> 6

4 Challenges on Sequential Pattern Mining A huge number of possible sequential patterns are hidden in databases A mining algorithm should find the complete set of patterns, when possible, satisfying the minimum support (frequency) threshold be highly efficient, scalable, involving only a small number of database scans be able to incorporate various kinds of user-specific constraints 8 Sequential Pattern Mining Algorithms Concept introduction and an initial Apriori-like algorithm Agrawal & Srikant. Mining sequential patterns, ICDE 95 Apriori-based method: GSP (Generalized Sequential Patterns: Srikant & EDBT 96) Pattern-growth methods: FreeSpan & PrefixSpan (Han et 00; Pei, et 01) Vertical format-based mining: SPADE Leanining 00) Constraint-based sequential pattern mining (SPIRIT: Garofalakis, Rastogi, 99; Pei, Han, CIKM 02) Mining closed sequential patterns: CloSpan (Yan, Han & 03) 9

5 GSP Generalized Sequential Pattern Mining GSP (Generalized Sequential Pattern) mining algorithm proposed by Agrawal and Srikant, EDBT 96 Method generate frequent length-1 candidates from frequent items in DB generate frequent length-2 candidates by self-joining 2 frequent length-1 patterns: <(A) (A)>, <(A) (B)>, <(A B)> for each level (i.e., sequences of length-k) do scan database to collect support count for each candidate sequence generate candidate length-(k+1) sequences from length-k frequent sequences using Apriori (self-join) repeat until no frequent sequence or no candidate can be found Major strength: Candidate pruning by Apriori Self-join: < (A B) (C ) > < (A B) (C ) > < (B) (C D)> < (B) (C ) (E)> < (A B) (C D) > < (A B) (C ) (E) > 10 Finding Length-1 Sequential Patterns Examine GSP using an example Initial candidates: all singleton sequences <a>, <b>, <c>, <d>, <e>, <f>, <g>, <h> Scan database once, count support for candidates Seq. ID Sequence 10 <(bd)cb(ac)> 20 <(bf)(ce)b(fg)> 30 <(ah)(bf)abf> 40 <(be)(ce)d> 50 <a(bd)bcb(ade)> Cand Sup <a> 3 <b> 5 <c> 4 <d> 3 <e> 3 <f> 2 <g> 1 <h> 1 11

6 GSP: Generating Length-2 Candidates <a> <b> <c> <d> <e> <f> 51 length-2 Candidates <a> <aa> <ab> <ac> <ad> <ae> <af> <b> <ba> <bb> <bc> <bd> <be> <bf> <c> <ca> <cb> <cc> <cd> <ce> <cf> <d> <da> <db> <dc> <dd> <de> <df> <e> <ea> <eb> <ec> <ed> <ee> <ef> <f> <fa> <fb> <fc> <fd> <fe> <ff> <a> <b> <c> <d> <e> <f> <a> <(ab)> <(ac)> <(ad)> <(ae)> <(af)> <b> <(bc)> <(bd)> <(be)> <(bf)> <c> <(cd)> <(ce)> <(cf)> <d> <(de)> <(df)> <e> <(ef)> <f> Without Apriori property, 8*8+8*7/2=92 candidates Apriori prunes 44.57% candidates 12 The GSP Mining Process 5 th scan: 1 cand. 1 length-5 seq. pat. <(bd)cba> Cand. cannot pass sup. threshold 4 th scan: 8 cand. 6 length-4 seq. pat. 3 rd scan: 46 cand. 19 length-3 seq. pat. 20 cand. not in DB at all 2 nd scan: 51 cand. 19 length-2 seq. pat. 10 cand. not in DB at all 1 st scan: 8 cand. 6 length-1 seq. pat. <abba> <(bd)bc> <abb> <aab> <aba> <baa> <bab> <aa> <ab> <af> <ba> <bb> <ff> <(ab)> <(ef)> <a> <b> <c> <d> <e> <f> <g> <h> Seq. ID Sequence Cand. not in DB at all <(bd)cb(ac)> <(bf)(ce)b(fg)> <(ah)(bf)abf> <(be)(ce)d> <a(bd)bcb(ade)> 13

7 Candidate Generate-and-test: Drawbacks A huge set of candidate sequences generated. Especially 2-item candidate sequence. Multiple Scans of database needed. The length of each candidate grows by one at each database scan. Inefficient for mining long sequential patterns. A long pattern grow up from short patterns The number of short patterns is exponential to the length of mined patterns. 14 PrefixSpan: prefix-projected pattern growth Divide and conquer strategy Given a frequent prefix α (initially α=null), mine S α the projected database, to find frequent 1-pattern. Form the frequent pattern α =α.b. Then, mine S α, etc. Original DB is recursively projected by item prefixes to yield smaller databases Each projected database can be mined separately Prefix: the sequence s 2 =<e 1 e 2 b m > is a prefix of the sequence s 1 =<e 1 e 2 e n > (m<n) iff e i =e i for 1 i m-1 e m e m <e m e m+1 e n > is a suffix (postfix) of s 1 15

8 Prefix and Suffix (Projection) <a>, <aa>, <a(ab)> and <a(abc)> are prefixes of sequence <a(abc)(ac)d(cf)> Given sequence <a(abc)(ac)d(cf)> Prefix <a> <aa> <a(ab)> Suffix (Prefix-Based Projection) <(abc)(ac)d(cf)> <(_bc)(ac)d(cf)> <(_c)(ac)d(cf)> 16 Mining Sequential Patterns by Prefix Projections Step 1: find length-1 sequential patterns <a>:4, <b>:4, <c>:4, <d>:3, <e>:3, <f>:3 Step 2: divide search space. 6 subsets according to the 6 prefixes a, b, c, d, e, f Step 3: Find subsets of sequential patterns by constructing corresponding projected databases and mine each recursively SID sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 17

9 Finding Seq. Patterns with Prefix <a> Only need to consider projections w.r.t. <a> <a>-projected database: <(abc)(ac)d(cf)>, <(_d)c(bc)(ae)>, <(_b) (df)cb>, <(_f)cbc> Find local frequent patterns in <a>-projected database: <a>:2, <b>:4, <(_b)>:2, <c>:4, <d>:2, <f>:2 Yields all the length-2 seq. pat. Having prefix <a>: <aa>, <ab>, <(ab)>, <ac>, <ad>, <af> Further partition into 6 subsets Having prefix <aa>; Having prefix <af> <aa>-projected database: <(_bc)(ac)d(cf)> and <(_e)> SID sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 18 Completeness of PrefixSpan Having prefix <a> <a>-projected database <(abc)(ac)d(cf)> <(_d)c(bc)(ae)> <(_b)(df)cb> <(_f)cbc> SID SDB sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> Having prefix <b> Length-1 sequential patterns <a>, <b>, <c>, <d>, <e>, <f> Having prefix <c>,, <f> <b>-projected database Length-2 sequential patterns <aa>, <ab>, <(ab)>, <ac>, <ad>, <af> Having prefix <aa> Having prefix <af> <aa>-proj. db <af>-proj. db 22

10 PrefixSpan Algorithm PrefixSpan(α, i, S α) 1. Scan S α once, find the set of frequent items b such that b can be assembled to the last element of α to form a sequential pattern; or <b> can be appended to α to form a sequential pattern. 2. For each frequent item b, appended it to α to form a sequential pattern α, and output α ; 3. For each α, construct α -projected database S α, and call PrefixSpan(α, i+1,s α ). 23 Performance on Data Set C10T8S8I8 24

11 Performance on Data Set Gazelle 25 Extensions de la fouille de motifs séquentiels Objets temporels Événements temporels datés ou ordonnés dans le temps (liés par les relation {<, =}) Événements à base d intervalles datés ou ordonnés dans le temps (liés par relation d Allen) Données temporelles Base de séquences Séquence unique + fenêtres successives ou glissantes Motifs Séquence d événements : ensemble d itemsets ordonnés dans le temps Séquence d événements + caractérisation numérique ou catégorique des délais inter-événements Séquence d intervalles + relations d Allen Idem + caractérisation numérique de la durée des événements Idem + caractérisation des délais entre (bornes des) intervalles 28

12 Extensions de la fouille de motifs séquentiels Prise en compte explicite du temps Séquence d événements ponctuels datés S=<(a 0, t 0 ), (a 1, t 1 ),, (a n, t n )> Motifs série avec délais (IApriori, IPrefixSpan Chen, Chiang, Ko 03 ; Hirate, Yamana 06) P=<b 0, I 1, b 1, I 2,,, I n, b n > Motifs séries-parallèles e.g. chroniques (Face Dousson, Duong 99, Cram 09) Séquence d événements intervalles estampillés S=<(a 0, t 0, t 0 ), (a 1, t 1, t 1 ),, (a n, t n, t n )> Encodage des séquence d intervalles en séquence d événements ponctuels et méthode classique adaptée (IApriori, TPrefixSpan, Ti- Hprefixspan - Chen et al. 06, 07, 09) Relations d Allen (Kam 01, Papapetrou et al 05, Patel et 08) Événements persistants épisodes généralisés (Laxman 07) Motifs à base d intervalles avec durée numérique (Guyet, Quiniou 08, 10) 29 Chen, Chiang, Ko 2003 Discovering time-interval sequential patterns in sequence databases (Expert systems with applications) But : caractériser les délais entre items d un motif séquentiel Motivations : nombreuses applications pouvant utiliser de telles informations (business, e- commerce, police, médical, etc.) Contributions : insertion de pseudo items représentant les délais 30

13 Chen, Chiang, Ko 2003 Séquences : S=<(a 0, t 0 ), (a 1, t 1 ),, (a n, t n )> Délais obtenus par discrétisation du temps : TI={I 0, I 1,, I n } I 0 ={0}, I 1 =]0, T 1 ], I 2 =] T 1, T 2 ],, I r-1 =] T r-2, T r-1 ], I r-1 =]T r-1, ] Motifs : time interval sequences P=<b 0, & 1, b 1, & 2,,, & m, b m >, bi : E={Events}, & 2 : TI Inclusion: P est contenu dans S s il existe un mapping ordonné 1 < j1 < < jm entre les indices de P et ceux de S tel que b 1 =a j1, b 2 =a j2, b m =a jm tji-tji-1 in Ii-1 pour 1 < i < m Support : nombre de séquences de DB contenant le motif 31 Chen, Chiang, Ko 2003 Algorithmes : IApriori : extension de GSP Génération de candidats : jointure de motifs de longueur k-1 + association de tous les délais possibles (ensemble TI) pour former un motif de longueur k Modification de l arbre des candidats prenant en compte les délais IPrefixSpan : Définitions de projection, préfixe, suffixe Tenir compte du délai entre un événement fréquent de S et le préfixe Combinatoire augmentée Évaluations Comparaison avec GSP et PrefixSpan Datasets synthétiques GSP < Iapriori < PrefixSpan IPrefixSpan 32

14 Hirate, Yamana 2006 Generalized sequential pattern mining with item intervals (Journal of computers) But : pouvoir exprimer des contraintes sur les délais entre événements lors du processus de fouille Motivation : pouvoir distinguer entre A < 1jour B et A < 1an B Contributions: Deux mesures de délais : nombre d items (séquences génomiques), intervalle de temps (séquences temporelles) Séquences étendues par insertion de pseudo items (basés sur une fonction de discrétisation des intervalles) représentant les délais Quatre types de contraintes item-intervalle 33 Hirate, Yamana 2006 Séquences : interval extended sequence S=<(t 1,1, X 1 ), (t 1,2, X 2 ),, (t 1,m, X m )> t i,j est l intervalle (temporel ou indiciel) entre les items X i et X j Interval itemization function : permet de changer la granularité temporelle. Utilisée par test d occurrence et test de sous-séquence : S 1 =<(t 1,1, X 1 ), (t 1,2, X 2 ),, (t 1,m, X m )> est incluse dans S 1 =<(t 1,1, X 1 ), (t 1,2, X 2 ),, (t 1,m, X m ),, (t 1,n, X n )> ssi X i X i et I(t 1,i )=I(t 1,j ) Contraintes sur les intervalles (délais) : min_interval (anti-mon), max_interval, (anti-mon) min_whole_interval (mon), max_whole_interval (anti-mon) 34

15 Hirate, Yamana 2006 Algorithme : extension de PrefixSpan Définitions de préfixe, suffixe, inclusion Redéfinition de l opération de projection sur des interval extended sequences Adaptation pour l utilisation des contraintes Anti-monotones : test au moment de la projection Monotones : test après extraction Evaluation Dataset réel : tremblement de terre au Japon (dataset dense) Comparaison Qualité des motifs extraits : pouvoir prédictif Nombre de motifs extraits : évite une extraction exponentielle avec des supports faibles Effet des contraintes assez faible Temps d exécution : nettement meilleur que PrefixSpan pour des supports faibles 35 Dousson, Duong 1999 Discovering chronicles with numerical time constraints from alarm logs for monitoring dynamic systems, in IJCAI 99 But : Motivations : Applications en monitoring de réseaux de télécoms Temps important pour surveiller la propagation des alarmes Contributions : Extension du travail de Mannila, Toivonen (95) épisodes séries ou parallèles -> chroniques Caractérisation numérique du délai entre événements algorithme Apriori-like utilisant CRS : FACE 36

16 Dousson, Duong 1999 Séquences (logs) : S=<(a 0, t 0 ), (a 1, t 1 ),, (a n, t n )> Motifs : modèles de chronique chronique : (C A, T), T={a i [t ij-, t ij+ ] a j (a i, a j ) CxC} Instance de chronique : ensemble d événements d une séquence satisfaisant toutes les contraintes temporelles de la chronique Sous-chronique : C est une sous-chronique de C si de toute instance de C on peut extraire une instance de C Fréquence d une chronique : nombre d instances de la chronique reconnues dans la séquence Chronique fréquente : de fréquence supérieure à un seuil de fréquence minimal Anti-monotonie : une chronique est fréquente si toutes ses souschroniques sont fréquentes 37 Dousson, Duong 1999 Algorithme de type Apriori : extraction par niveau d itemsets fréquents avec répétition puis intégration de contraintes temporelles Génération de candidats sans contrainte : C k = C k-1 U {C 1 } Test de fréquence minimale des sous-chroniques (sans contraintes) Génération des chroniques avec contrainte Encadrement des délais observés pour les instances de chronique de taille 2 Propagation des contraintes pour obtenir le graphe temporel complet minimal Calcul de la fréquence par CRS puis élagage 38

17 Dousson, Duong 1999 Évaluation Données réseau télécommunications : motifs de propagation d alarmes Log de 2900 evts de 36 types différents (20h) Log ATM, 1 mois, 3800 types d evts Pas de comparaison avec d autres approches 39 Cram, Cordier, Mille 2009 An interactive algorithm for the complete discovery of chronicles. Rapport LIRIS. But : extraction interactive de motifs temporels Motivations : Améliorer les méthodes d extraction souvent incomplètes car pas de connaissances sur la pertinence des informations : intégrer l utilisateur dans la boucle d extraction de connaissances Extraire des chroniques présentant des ensembles d événements identiques mais des ensembles de contraintes différents Contributions : Hiérarchie de contraintes temporelles Génération de candidats par 2 types d opération : adjonction d événement et raffinement de contrainte 40

18 Cram, Cordier, Mille 2009 Base de contraintes : à chaque couple d événements est associé un graphe acyclique orienté définissant une hiérarchie de contraintes Opérateurs pour la génération de candidats : add_ : ajoute un événement de type à une chronique str_ i j : remplace une contrainte temporelle par une contrainte directement plus stricte (successeur dans la base de contraintes) 41 Cram, Cordier, Mille 2009 Algorithme HDA de type Apriori (FACE) 42

19 Cram, Cordier, Mille 2009 Élaboration de la base de contraintes Rechercher les occurrences fréquentes de couples d événements et extraire les délais Extraire les contraintes en déplaçant des fenêtres de de plus en plus grandes sur la liste des délais triés [ -1, 1, 3, 5 ] Évaluation Complexité importante (exponentielle en théorie) S adresse à de petites base de séquences 43 Kam, Fu 2000 Discovering temporal patterns for interval-based events (DAWAK 2000) But : prendre en compte des événements à base d intervalles, les utiliser pour contraindre la fouille de motifs temporels Motivations : événements ponctuels ne permettent pas la représentation de relations temporelles telles que overlaps, begins, during, Contributions: Motifs avec relations temporelles sur intervalles Algorithme adapté à la recherche de tels motifs 44

20 Kam, Fu 2000 Séquence : S=<(a 0, t s0, t e0 ), (a 1, t s1, t e1 ),, (a n, t sn, t en )> ordonnée par les dates de fin (!!!) Relations entre intervalles temporels Exprimés par relations d Allen reconstruites à partir des relations sur les bornes des intervalles 45 Kam, Fu 2000 Motif temporel Un type d événement seul est un motif temporel atomique si X et Y sont des motifs temporels alors (X rel Y) est un motif temporel composite (rel : relation d Allen) Représentation par relations temporelles n-aires Représentation ambigüe Ex. a b c d (((a overlaps b) before c) overlaps d) ((a overlaps b) before (c during d)) Inclusion d un motif temporel Contraintes : max_whole_pattern Support : % de séquences contenant le motif 46

21 Kam, Fu 2000 Algorithme : adaptation d Apriori Format vertical de la base de séquences Génération de candidats à partir de L k-1 et L 1 + relations temporelles Calcul du support et élagage Évaluation Dataset synthétique Étude des performances en variant Support Taille de la fenêtre max Nb de séquences Nb d événements par séquence Pas de comparaison avec d autres méthodes 47 Chen, Wu Wu, Chen 2007 Mining temporal patterns from sequence database of interval-based events (FSKD) Mining non-ambiguous temporal patterns for intervalbased events (IEEE trans. on knowledge and data engin.) But : étendre les algorithmes de fouille de motifs séquentiels aux événements à base d intervalles Motivations : pallier les défauts des représentations à base de points Contributions: Transformation d une séquence d événements à base d intervalles en une séquence d événements à base de points à partir des bornes des intervalles (évite l utilisation des relations d Allen) + contrainte de co-occurrence des deux bornes d un même intervalle dans un motif 48

22 Chen, Wu Wu, Chen 2007 Séquence : S=<(a 0, t + 0, t- 0 ), (a 1, t+ 1, t- 1 ),, (a n, t+ n, t- n )> Relations temporelles sur bornes d intervalle : <, = Arrangement d événements ponctuels traduction intervalles points u placé devant v si time(u) < time(v) u est début d intervalle, v une fin d intervalle u précède v dans l ordre lexicographique Séquence temporelle : arrangement + relations temporelles entre événements successifs (b + <a + =c + <a - <b - <c - ) (b + <a + =c + <d + <a - <b - <d - <c - ) 49 Chen, Wu Wu, Chen 2007 Inclusion : Opérateur small : calcule la relation temporelle entre deux points (application de la transitivité) rel(a +, b - ) = small((<,<,=,<)) = < P = (p 1 1 p 2 r-1 p r ) est contenue dans TS = (s 1 1 s 2 n-1 s n ) s il existe un mapping ordonné w des indices de P dans ceux de TS tel que p i = s w(i) et i = small(( w(i), w(i+1)-1 )) si l une des bornes de l intervalle est incluse l autre l est aussi Support : % de séquences contenant le motif 50

23 Chen, Wu Wu, Chen 2007 Algorithmes : T-Apriori (basé sur GSP) Candidats : c={pattern, {positions}} Génération de k-candidats : jointure de (k-1)-motifs ayant le même (k-2)-préfixe + jointure de leurs positions Test support : parcours des ensembles de positions T-PrefixSpan (basé sur PrefixSpan;-) Adaptation de l opération de projection : préfixes, suffixes Génération de candidats plus complexe : projection jusqu à la dernière borne inférieure du motif base de la projection (préfixe), insertion de la borne supérieure dans le suffixe des séquences projetées 51 Chen, Wu Wu, Chen 2007 Évaluation Pas d évaluation de T-Apriori! (Chen, Wu 2006) T-PrefixSpan Datasets synthétiques Dataset réel : données boursières Évaluation des motifs extraits par mesure de leur capacité de prédiction Comparaison avec PrefixSpan : Moins performant que PrefixSpan en temps d exécution Qualité des résultats meilleure pour T-PrefixSpan 52

24 Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09 Discovering frequent arrangement of temporal intervals (IEEE ICDM) Mining frequent arrangements of temporal intervals (Knowledge and Information Systems) But : découverte d arrangements d intervalles temporels fréquents Motivations : Événements instantanés souvent insuffisants Traduction en événements ponctuels introduit une combinatoire supplémentaire Perte de la relation liant début et fin d intervalle Post-traitement nécessaire pour revenir aux intervalles Nombreuses applications Contributions: Définition formelle du problème et utilisation des relations d Allen Contraintes : fouille de motifs et extraction de règles Deux algorithmes efficaces (levelwise) + un algorithme (aka PrefixSpan) 53 Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09 Pbs des relations d Allen en cas de bruit 54

25 Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09 Séquence : S=<(a 0, t 0s, t 0e ), (a 1, t 1s, t 1e ),, (a n, t ns, t ne )> Relations temporelles : Relations d Allen + matching flexible des bornes (si proches) Meets(A,B) : A.t e = B.t s ± Matches(A,B) :A.t s = B.t s ±, A.t e = B.t e ± Overlaps(A,B) : A.t s < B.t s, A.t e > B.t s, A.t e < B.t e, B.t s - A.t s >, B.t e - A.t e > Contains(A,B) : A.t e < B.t e, A.t e > B.t s, B.t s - A.t s >, A.t e - B.t e > Left-Contains(A,B) : A.t s = B.t s ±, A.t e > B.t s, A.t e - B.t e > Right-Contains(A,B) : A.t e < B.t e, A.t e = B.t e ±, B.t s - A.t s > Follows(A,B) : A.t e < B.t s, B.t s - A.t e > Relation n-aire (n>2) : conjonction de relations binaires pour lever les ambiguïtés Événements instantanés modélisés par intervalles à bornes égales 55 Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09 Relations temporelles : 56

26 Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09 Arrangement (motif) : A={E, R}, E ensemble de k événements, R ensemble des relations temporelles d Allen entre tout couple d événements de E : R={r(ei,ej) r Rel, i<j k} Inclusion : l arrangement A={E, R} est inclus dans la séquence S si tous les événements de A sont dans S et satisfont les relations de R Support : nombre de séquences contenant le motif Règles d association séquentielle : A i,rij A j ; A i, A j arrangements, R ij relation temporelle entre les événements (intervalles) de A i et ceux de A j mesure d intérêt : confiance, lift, etc. Contraintes temporelles : Gap : entre intervalles liés par relation follow Overlap : pourcentage de chevauchement Contain : pourcentage d inclusion Durée : max-whole 57 Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09 Algorithmes : BFS basé sur SPADE : levelwise, BD en format vertical H-DFS basé sur SPADE : parcours des deux premiers niveaux en largeur d abord, parcours des autres en profondeur d abord Basé sur PrefixSpan mais en s appuyant sur les intervalles (au contraire de Wu et Chen) 58

27 The Arrangement Enumeration Tree Let LEVEL 1 LEVEL 2 Intermediate LEVEL 3 Intermediate 59 Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09 Algorithme BFS : Basé sur SPADE : levelwise, BD en format vertical Génération des niveaux 1 et 2 Élagage supplémentaire initial : recherche des paires d événements apparaissant dans minsup transactions au moins Génération des candidats (arrangements) au niveau k : jointure niveau k-1 et niveau 1 Génération des nœuds intermédiaires au niveau k (relations temporelles) IdLists en format bitmap pour accélérer le calcul du support (opérations booléennes) Vérification de la satisfaction des contraintes (anti-monotones) en même temps que vérification du support minimal 60

28 Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09 Algorithme DFS : Basé sur algo de Tsoukatos et Gunopoulos 2001 Génération des candidats (arrangements) en suivant une stratégie profondeur d abord Ajoute tous les sous-arrangements d un arrangement fréquent à liste des arrangements fréquents Avantage : atteint les arrangements fréquents maximaux rapidement Inconvénient : nombreux scans de la base de données Algorithme Hybrid DFS (H-DFS) : BFS pour deux premiers niveaux DFS ensuite 61 Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09 Algorithme Prefix-Based : Définitions de préfixe, suffixe et opération de projection ATTENTION : il faut effectuer les projections selon TOUTES les occurrences d un préfixe (pas seulement la projection selon la première) Augmente fortement la combinatoire 62

29 Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09 Évaluation Datasets synthétiques et réels (american sign language, données réseau) Comparaison des trois algos avec SPAM (exécuté sur débuts et fins d intervalles + post-processing pour construire les arrangements) Résultats BFS meilleur que SPAM pour de grandes BD et des supports faibles Hybrid-DFS meilleur que SPAM et BFS Pour des faibles supports Hybrid-DFS est deux fois plus rapide que BFS Dans tous les cas l algorithme Prefix-based est le plus mauvais 63 Papapetrou, Kollios, Sclaroff, Gunopoulos 05, 09 Données ASL Données réseau 64

30 Patel, Hsu, Lee 2008 Mining relationships among interval-based events for classification (SIGMOD 08) But : fouille de relations temporelles complexes sur des événements à base d intervalles Motivations : Insuffisance de la simple notion de succession Nécessité de représenter des événements qui durent (intervalles) Contributions: Représentation «sans perte» de relations temporelles n-aires (n > 2) Algorithme de fouille d intervalles : IEMiner Classifieur utilisant des motifs temporels à base d intervalles 65 Patel, Hsu, Lee 2008 Séquences : S=<(a 0, t 0s, t 0e ), (a 1, t 1s, t 1e ),, (a n, t ns, t ne )> Liste d événements : Ensemble d événements où chaque événement a une relation temporelle (Allen) avec tous les autres Motif : Événement simple : (a 1, t 1s, t 1e ) Événement composite : E = (E 1 R E 2 ) avec E.start = min{e 1.start, E 2.start}, E.end= max{e 1.end, E 2.end} Support : BD : séquences issues d un découpage d une séquence unique en fenêtres de taille fixe Support : nombre de séquences incluant le motif 66

31 Patel, Hsu, Lee 2008 Motif : représentation canonique «sans perte» Canonique : événements ordonnés par instants de début, puis par instants de fin, puis par ordre alphabétique (représentation incomplète) Sans perte : structure [c,f,m,o,s] associant à la relation temporelle le nombre d inclusion (c), de fins communes (f), de liaisons (m), de chevauchements (o), de débuts communs (s) (A over[0,0,0,1,0] B) over[0,0,0,1,0] C) (A over[0,0,0,1,0] B) over[0,0,0,2,0] C) (A over[0,0,0,1,0] B) over[0,0,1,1,0] C) 67 Patel, Hsu, Lee 2008 Algorithme IEMiner Type Apriori Génération des k-candidats à partir d un (k-1)-motif fréquent et d un 2-motif dont le premier événement est identique à l événement dominant (ayant la date de fin la plus tardive) du (k-1)-motif Mise à jour de la liste des 2-motifs pouvant participer à la génération de candidats au niveau k+1 : doivent apparaître dans au moins k-1 k-motifs Calcul du support : un scan unique basé sur la notion d événements actifs et passif Optimisation : liste noire des séquences contenant moins de k événements : scan inutile Le nombre de séquences où le préfixe d un (k-1)-motif participant à la génération de candidats de niveau k apparaît deux fois au moins doit être supérieur à minsup 68

32 Patel, Hsu, Lee 2008 Génération de candidats 69 Patel, Hsu, Lee 2008 Évaluations : Comparaison des performances de IEMiner, TPrefixSpan, H-DFS et GenPrefixSpan (PrefixSpan + contraintes gap) qui n utilise que la relation before Datasets synthétiques Runtime : GenPrefixSpan <IEMiner <H-DFS <TPrefixSpan Datasets réels ASL : IEMiner GenPrefixSpan < H-DFS <TPrefixSpan Hepatitis : IEMiner <H-DFS < GenPrefixSpan <TPrefixSpan 70

33 Patel, Hsu, Lee Laxman, Sastry, Unnikrishnan 2007 Discovering frequent generalized episodes when event persist for different durations (IEEE Trans. on Knowledge and Data Engineering 2007) But : prendre en compte la durée des événements en fouille de données temporelles Motivations : Applications en diagnostic Temps (durée des événements) important pour discriminer plusieurs pannes possibles Contributions : Épisodes généralisés Algorithme pour la fouille de tels motifs 72

34 Laxman, Sastry, Unnikrishnan 2007 Séquences : S=<(a 0, t 0s, t 0e ), (a 1, t 1s, t 1e ),, (a n, t ns, t ne )> Épisodes généralisés : I={I 1,I 2,, I n } l ensemble des durées possibles, intervalles temporels disjoints (discrétisation) = (V, <, g, d ) : V ensemble de nœuds, < ordre partiel sur V, g : V donne le type d un nœud, d : V 2 I donne la durée d un nœud Si < total : épisode série généralisé Si < vide : épisode parallèle généralisé Inclusion d un épisode généralisé dans une séquence S Il existe un mapping h : V {1,, n} tel que pour tout v, w V E h (v) =g (v) (même type) La durée de h (v) b, l une des durées spécifiées par d Si v précède w dans le motif V alors leurs événements appariés sont dans le même ordre dans la séquence 73 Laxman, Sastry, Unnikrishnan 2007 Sous-épisodes : un épisode est un sous-épisode de,, s il existe un mapping ordonné, tel que le type des événements correspondants sont identiques et la durée des événements de contient les durées des événements correspondants de Soit. Si inclus dans S alors inclus dans S Support : Nombre de fenêtres glissantes contenant le motif Nombre d occurrences minimales Occurrences non chevauchantes b 1 b 2 b 3 Occurrences non entrelacées b' 1 b' 2 b' 3 b 1 b 2 b 3 b' 1 b' 2 b' 3 74

Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2

Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2 Nouvelles classes de problèmes pour la fouille de motifs intéressants dans les bases de données 2 Lhouari Nourine 1 1 Université Blaise Pascal, CNRS, LIMOS, France SeqBio 2012 Marne la vallée, France 2.

Plus en détail

Fouille de données, analyse d évènements. Christophe Cérin. cerin@laria.u-picardie.fr

Fouille de données, analyse d évènements. Christophe Cérin. cerin@laria.u-picardie.fr ACI-GRID (7 novembre 2002) 1/21 Fouille de données, analyse d évènements Christophe Cérin cerin@laria.u-picardie.fr Plan 2/21 placement, ordonnancement ; Plan 3/21 Placement, ordonnancement ; Représentation

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Extension des bases de données inductives pour la découverte de chroniques

Extension des bases de données inductives pour la découverte de chroniques Extension des bases de données inductives pour la découverte de chroniques lexandre Vautier, Marie-Odile Cordier, René Quiniou Irisa - Projet DREM Campus de eaulieu 35042 RENNES Cedex, France {lexandre.vautier,marie-odile.cordier,rene.quiniou}@irisa.fr

Plus en détail

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy. Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de

Plus en détail

Extraction de motifs : Règles d association et motifs séquentiels. Pascal Poncelet LIRMM Pascal.Poncelet@lirmm.fr http://www.lirmm.

Extraction de motifs : Règles d association et motifs séquentiels. Pascal Poncelet LIRMM Pascal.Poncelet@lirmm.fr http://www.lirmm. 1 Extraction de motifs : Règles d association et motifs séquentiels Pascal Poncelet LIRMM Pascal.Poncelet@lirmm.fr http://www.lirmm. fr/~poncelet Plan Règles d association Motifs séquentiels Applications

Plus en détail

Etude d Algorithmes Parallèles de Data Mining

Etude d Algorithmes Parallèles de Data Mining REPUBLIQUE TUNISIENNE MINISTERE DE L ENSEIGNEMENT SUPERIEUR, DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DE TUNIS ELMANAR FACULTE DES SCIENCES DE TUNIS DEPARTEMENT DES SCIENCES DE L INFORMATIQUE

Plus en détail

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be)

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be) Datamining Glossaire Xavier Dubuc (xavier.dubuc@umons.ac.be) 3 juin 2011 1 Table des matières 1 Classification 3 2 Règles d association 3 2.1 Introduction............................................ 3

Plus en détail

Classification de texte enrichie à l aide de motifs séquentiels

Classification de texte enrichie à l aide de motifs séquentiels 22 ème Traitement Automatique des Langues Naturelles, Caen, 2015 Classification de texte enrichie à l aide de motifs séquentiels Résumé. Pierre Holat Nadi Tomeh Thierry Charnois Université Paris 13, Sorbonne

Plus en détail

Product Platform Development: A Functional Approach Considering Customer Preferences

Product Platform Development: A Functional Approach Considering Customer Preferences Product Platform Development: A Functional Approach Considering Customer Preferences THÈSE N O 4536 (2009) PRÉSENTÉE le 4 décembre 2009 À LA FACULTé SCIENCES ET TECHNIQUES DE L'INGÉNIEUR LABORATOIRE DES

Plus en détail

Fouille de données: des bases binaires aux bases évidentielles

Fouille de données: des bases binaires aux bases évidentielles Fouille de données: des bases binaires aux bases évidentielles Ahmed Samet Faculté des sciences de Tunis Présenté le : 16 janvier 2013 Ahmed Samet Fouille de données: des bases binaires aux bases évidentielles

Plus en détail

vs Christia 1 n Poisson

vs Christia 1 n Poisson vs Christian 1 Poisson Cet ouvrage contient une sélection d'études d'echecs composées par ordinateur, plus précisément par l'analyse de tables de finales, en l'occurrence ici la table, à l'aide de WinChloe

Plus en détail

Date: 09/11/15 www.crmconsult.com Version: 2.0

Date: 09/11/15 www.crmconsult.com Version: 2.0 Date: 9/11/2015 contact@crmconsult.fr Page 1 / 10 Table des matières 1 SUGARPSHOP : SCHEMA... 3 2 PRESENTATION... 4 3 SHOPFORCE WITH SCREENSHOTS... 5 3.1 CLIENTS... 5 3.2 ORDERS... 6 4 INSTALLATION...

Plus en détail

Règles d'association. Définition. Processus

Règles d'association. Définition. Processus Data Mining «Extraction de connaissances valides et exploitables à partir de grands volumes de données hétérogènes provenant de sources et de bases diverses» Règles d'association Définition Extraction

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Fouille de données de mobilité

Fouille de données de mobilité Fouille de données de mobilité Thomas Devogele Université François Rabelais (Tours) thomas.devogele@univ-tours.fr Laurent Etienne Ecole Navale (Brest) Laurent.etienne@ecole-navale.fr La fouille de donnée

Plus en détail

Claire Houlé. To cite this version: HAL Id: dumas-00845751 http://dumas.ccsd.cnrs.fr/dumas-00845751

Claire Houlé. To cite this version: HAL Id: dumas-00845751 http://dumas.ccsd.cnrs.fr/dumas-00845751 Suivi de la grossesse : critères de choix du professionnel par les patientes et place faite au médecin généraliste : enquête auprès de patientes de la région dieppoise Claire Houlé To cite this version:

Plus en détail

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00 Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00 HFFv2 1. OBJET L accroissement de la taille de code sur la version 2.0.00 a nécessité une évolution du mapping de la flash. La conséquence de ce

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Web Usage Mining : extraction de périodes denses à partir des logs

Web Usage Mining : extraction de périodes denses à partir des logs Web Usage Mining : extraction de périodes denses à partir des logs F. Masseglia, P. Poncelet, M. Teisseire, A. Marascu INRIA Sophia Antipolis, 2004 route des Lucioles - BP 93, 06902 Sophia Antipolis, France

Plus en détail

Une approche centroïde pour la classification de séquences dans les data streams

Une approche centroïde pour la classification de séquences dans les data streams Une approche centroïde pour la classification de séquences dans les data streams Alice Marascu, Florent Masseglia INRIA Sophia Antipolis, 2004 route des Lucioles - BP 93 06902 Sophia Antipolis, France

Plus en détail

Finance des matières premières (6b) De la formation des prix sur les marchés financiers à la possibilité d un équilibre (non walrasien)

Finance des matières premières (6b) De la formation des prix sur les marchés financiers à la possibilité d un équilibre (non walrasien) Finance des matières premières (6b) De la formation des prix sur les marchés financiers à la possibilité d un équilibre (non walrasien) Alain Bretto & Joël Priolon - 25 mars 2013 Question Dans un équilibre

Plus en détail

2 players Ages 8+ Note: Please keep these instructions for future reference. WARNING. CHOKING HAZARD. Small parts. Not for children under 3 years.

2 players Ages 8+ Note: Please keep these instructions for future reference. WARNING. CHOKING HAZARD. Small parts. Not for children under 3 years. Linja Game Rules 2 players Ages 8+ Published under license from FoxMind Games NV, by: FoxMind Games BV Stadhouderskade 125hs Amsterdam, The Netherlands Distribution in North America: FoxMind USA 2710 Thomes

Plus en détail

MODIFIER LES CARACTÈRES D'UN PC POUR AFFICHER RUSSE, ARABE, GREC, ETC. (*)

MODIFIER LES CARACTÈRES D'UN PC POUR AFFICHER RUSSE, ARABE, GREC, ETC. (*) 229 COMMENT MODIFIER LES CARACTERES D'UN PC POUR AFFICHER RUSSE, ARABE, GREC, ETC. (*) Si la forme des caractères qui s'affichent sur l'écran de votre PC ne vous convient pas, si vous souhaitez en créer

Plus en détail

Politique d Horodatage achatpublic.com. achatpublic.com

Politique d Horodatage achatpublic.com. achatpublic.com Politique d Horodatage achatpublic.com Version 1.0 1 Préambule 2 1.1 Glossaire et bibliographie 2 1.2 Objet du présent document 2 1.3 Les services d achatpublic.com achatpublic.com 2 1.4 Les marchés publics

Plus en détail

Extraction de règles d association pour la prédiction de valeurs manquantes

Extraction de règles d association pour la prédiction de valeurs manquantes Cari 2004 7/10/04 12:00 Page 487 Extraction de règles d association pour la prédiction de valeurs manquantes Sylvie Jami 1, Tao-Yan Jen 2, Dominique Laurent 3, George Loizou 1, Oumar Sy 3,4 1. Birkbeck

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF. Ianis Lallemand, 21 janvier 2013

PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF. Ianis Lallemand, 21 janvier 2013 PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF Ianis Lallemand, 21 janvier 2013 APPRENTISSAGE INTERACTIF definition Contours encore assez flous dans le champ de l apprentissage automatique. Néanmoins,

Plus en détail

Exercices sur les vecteurs

Exercices sur les vecteurs Exercice Exercices sur les vecteurs ABCD est un parallélogramme et ses diagonales se coupent en O () Compléter par un vecteur égal : a) AB = b) BC = c) DO = d) OA = e) CD = () Dire si les affirmations

Plus en détail

Fabrication des housses pour pianos droits et à queue d après les cotes ou suivant modèle

Fabrication des housses pour pianos droits et à queue d après les cotes ou suivant modèle B.& K. BAUMGÄRTEL GmbH Zeitzer Str. 60/64, D-07552 Gera Tel. +49(0)365 5512590 Fax +49(0)365 4200135 Email :baumgartel@t-online.de Online-Shop: www.pianoteile -baumgaertel.de Fabrication des housses pour

Plus en détail

I.2: Le test fonctionnel I.2.2 : Le test fonctionnel de logiciel

I.2: Le test fonctionnel I.2.2 : Le test fonctionnel de logiciel I.2: Le test fonctionnel I.2.2 : Le test fonctionnel de logiciel Introduction Notre contexte : pas possible d exprimer toutes les combinaisons de DT. Le test fonctionnel est basé sur la spécification/interface

Plus en détail

Étude des formes de pratiques de la gymnastique sportive enseignées en EPS à l école primaire

Étude des formes de pratiques de la gymnastique sportive enseignées en EPS à l école primaire Étude des formes de pratiques de la gymnastique sportive enseignées en EPS à l école primaire Stéphanie Demonchaux To cite this version: Stéphanie Demonchaux. Étude des formes de pratiques de la gymnastique

Plus en détail

Instructions Mozilla Thunderbird Page 1

Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Ce manuel est écrit pour les utilisateurs qui font déjà configurer un compte de courrier électronique dans Mozilla Thunderbird et

Plus en détail

deux tâches dans le tableau et à cliquer sur l icône représentant une chaîne dans la barre d outils. 14- Délier les tâches : double cliquer sur la

deux tâches dans le tableau et à cliquer sur l icône représentant une chaîne dans la barre d outils. 14- Délier les tâches : double cliquer sur la MS Project 1- Créer un nouveau projet définir la date du déclenchement (début) ou de la fin : File New 2- Définir les détails du projet : File Properties (permet aussi de voir les détails : coûts, suivi,

Plus en détail

Les arbres Florent Hivert

Les arbres Florent Hivert 1 de 1 Algorithmique Les arbres Florent Hivert Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert 2 de 1 Algorithmes et structures de données La plupart des bons algorithmes fonctionnent

Plus en détail

Statique / Dynamique

Statique / Dynamique Statique / Dynamique Analyse dynamique : nécessite l exécution du code binaire Principe : à partir du code source (ou d un modèle) et spécification, produire des DT qui exécuteront un ensemble de comportements,

Plus en détail

CONTRAT D ETUDES - LEARNING AGREEMENT

CONTRAT D ETUDES - LEARNING AGREEMENT CONTRAT D ETUDES - LEARNING AGREEMENT Règles générales La présence aux séances d enseignement des modules choisis est obligatoire. Chaque module comporte des séances de travail encadrées et non encadrées

Plus en détail

Algorithmique et Analyse d Algorithmes

Algorithmique et Analyse d Algorithmes Algorithmique et Analyse d Algorithmes L3 Info Cours 11 : Arbre couvrant Prétraitement Benjamin Wack 2015-2016 1 / 32 La dernière fois Rappels sur les graphes Problèmes classiques Algorithmes d optimisation

Plus en détail

Théorie des ensembles

Théorie des ensembles Théorie des ensembles Cours de licence d informatique Saint-Etienne 2002/2003 Bruno Deschamps 2 Contents 1 Eléments de théorie des ensembles 3 1.1 Introduction au calcul propositionnel..................

Plus en détail

BI = Business Intelligence Master Data-Science Cours 6 - Data Mining

BI = Business Intelligence Master Data-Science Cours 6 - Data Mining BI = Business Intelligence Master Data-Science Cours 6 - Data Mining Ludovic DENOYER - D après Elisa Fromont UPMC 23 mars 2015 Ludovic DENOYER - D après Elisa Fromont Le Data Mining De plus en plus de

Plus en détail

Fouille de données pour associer des noms de sessions aux articles scientifiques

Fouille de données pour associer des noms de sessions aux articles scientifiques 21 ème Traitement Automatique des Langues Naturelles, Marseille, 2014 Fouille de données pour associer des noms de sessions aux articles scientifiques Solen Quiniou 1 Peggy Cellier 2 Thierry Charnois 3

Plus en détail

Fouille de données dans des bases parcellaires (cadre projet PayOTe)

Fouille de données dans des bases parcellaires (cadre projet PayOTe) Fouille de données dans des bases parcellaires (cadre projet PayOTe) Thomas Guyet AGROCAMPUS-OUEST IRISA Équipe DREAM 01 mars 2010, Nancy Équipe DREAM : axes de recherche Diagnosing, recommending actions

Plus en détail

Structures de données non linéaires

Structures de données non linéaires Structures de données non linéaires I. Graphes Définition Un graphe (simple) orienté G est un couple (S, A), où : S est un ensemble dont les éléments sont appelés les sommets. A est un ensemble de couples

Plus en détail

Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI

Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI Introduction On assiste de plus en plus à la création d entrepôts de données. Les raisons sont multiples : 1. le tout numérique

Plus en détail

EIGHTH SESSION. "Project Management"

EIGHTH SESSION. Project Management EIGHTH SESSION "Project Management" Objectifs : L objectif de cette scéance est d apprendre à analyser et à planifier un projet. A cette fin nous étudierons : 1) la méthode des chemins critiques (CPM)

Plus en détail

Once the installation is complete, you can delete the temporary Zip files..

Once the installation is complete, you can delete the temporary Zip files.. Sommaire Installation... 2 After the download... 2 From a CD... 2 Access codes... 2 DirectX Compatibility... 2 Using the program... 2 Structure... 4 Lier une structure à une autre... 4 Personnaliser une

Plus en détail

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition Surveillance de Scripts LUA et de réception d EVENT avec LoriotPro Extended & Broadcast Edition L objectif de ce document est de présenter une solution de surveillance de processus LUA au sein de la solution

Plus en détail

(Programme de formation pour les parents ~ Training program for parents)

(Programme de formation pour les parents ~ Training program for parents) PODUM-INFO-ACTION (PIA) La «carte routière» pour les parents, sur l éducation en langue française en Ontario A «road map» for parents, on French-language education in Ontario (Programme de formation pour

Plus en détail

Chap. VII : arbres binaires

Chap. VII : arbres binaires Chap. VII : arbres binaires 1. Introduction Arbre : collection d objets avec une structure hiérarchique Structure intrinsèque descendants d une personne (elle incluse) A ascendant connus d une personne

Plus en détail

Publication IEC 61000-4-3 (Edition 3.0 2008) I-SH 01

Publication IEC 61000-4-3 (Edition 3.0 2008) I-SH 01 Publication IEC 61000-4-3 (Edition 3.0 2008) I-SH 01 Electromagnetic compatibility (EMC) Part 4-3: Testing and measurement techniques Radiated, radio-frequency, electromagnetic field immunity test INTERPRETATION

Plus en détail

Experimental Evaluation of a Dynamic Cubing system: workflow, metrics and prototype

Experimental Evaluation of a Dynamic Cubing system: workflow, metrics and prototype Experimental Evaluation of a Dynamic Cubing system: workflow, metrics and prototype Anne Tchounikine, Maryvonne Miquel, Usman Ahmed LIRIS CNRS UMR 5205, INSA-Université de Lyon, France 1 Motivations Motivé

Plus en détail

Les intermédiaires privés dans les finances royales espagnoles sous Philippe V et Ferdinand VI

Les intermédiaires privés dans les finances royales espagnoles sous Philippe V et Ferdinand VI Les intermédiaires privés dans les finances royales espagnoles sous Philippe V et Ferdinand VI Jean-Pierre Dedieu To cite this version: Jean-Pierre Dedieu. Les intermédiaires privés dans les finances royales

Plus en détail

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,

Plus en détail

Découverte de motifs fréquents : Application à l analyse de documents graphiques

Découverte de motifs fréquents : Application à l analyse de documents graphiques Découverte de motifs fréquents : Application à l analyse de documents graphiques Eugen Barbu Pierre Héroux Sébastien Adam Éric Trupin Laboratoire PSI Université et INSA de Rouen F-76821 Mont-Saint-Aignan,

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 5 Indexation des données multidimensionnelles 5.1. Presentation de la semaine Tous les systèmes de bases de données supportent les index en

Plus en détail

Joints P.V.C. P.V.C. door seals

Joints P.V.C. P.V.C. door seals Joints P.V.C. P.V.C. door seals 27 1 2,5 17 27 Grey/black dual-hardness. 11.28A 11.28B 11.28 Grey dual-hardness. 11.29A 11.22A 2,70 m, m 5m 2,80 m,0 m,5 Grey/black dual-hardness. 11.275A 11.275B 11.275

Plus en détail

Fribourg. Une démarche de spécification, de. d applications à base de services Web auto-adaptables*

Fribourg. Une démarche de spécification, de. d applications à base de services Web auto-adaptables* Journée de l'action ADAPT à Fribourg Une démarche de spécification, de conception et de développement d applications à base de services Web auto-adaptables* t Riadh Ben Halima, Karim Guennoun, Khalil Drira

Plus en détail

IPv6. Internet Control Message Protocol ICMPv6. Objectif: Comparer ICMPv4 avec ICMPv6

IPv6. Internet Control Message Protocol ICMPv6. Objectif: Comparer ICMPv4 avec ICMPv6 IPv6 Internet Control Message Protocol ICMPv6 Objectif: Comparer ICMPv4 avec ICMPv6 v.1b IPv6 Théorie et Pratique & Microsoft Introduction to IPv6 1 ICMPv6 (RFC 2463) Trois fonctions déjà présentes en

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

Polytechnique. Épreuve d Informatique 1998

Polytechnique. Épreuve d Informatique 1998 Polytechnique Épreuve d Informatique 1998 Corrigé rédigé par Martine Lannaud, Lycée Chaptal, Paris Pour toute remarque ou correction martine.lannaud@prepas.org Motifs et automates Question 1. Quelques

Plus en détail

ENSE3 - API/CSPI et Master Automatique - 2008/2009

ENSE3 - API/CSPI et Master Automatique - 2008/2009 ENSE3 - API/CSPI et Master Automatique - 28/29 DS Commande robuste - - 19 janvier 29 Nom Prénom Signature ATTENTION: Mettre votre nom et répondre directement sur les feuilles de l énoncé. Justifiez vos

Plus en détail

MAT 2377 Solutions to the Mi-term

MAT 2377 Solutions to the Mi-term MAT 2377 Solutions to the Mi-term Tuesday June 16 15 Time: 70 minutes Student Number: Name: Professor M. Alvo This is an open book exam. Standard calculators are permitted. Answer all questions. Place

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Le contrôle qualité sur les données fastq

Le contrôle qualité sur les données fastq Le contrôle qualité sur les données fastq TP detection exome Plan Théorie 1: le format FastQ et l'encodage des qualités Session pratique 1: conversion des qualités (fichier illumina.fastq) Théorie 2: le

Plus en détail

VMware ESX : Installation. Hervé Chaudret RSI - Délégation Centre Poitou-Charentes

VMware ESX : Installation. Hervé Chaudret RSI - Délégation Centre Poitou-Charentes VMware ESX : Installation VMware ESX : Installation Créer la Licence ESX 3.0.1 Installation ESX 3.0.1 Outil de management Virtual Infrastructure client 2.0.1 Installation Fonctionnalités Installation Virtual

Plus en détail

AINoE. Rapport sur l audition d AINoE Paris, 18 juin 2003

AINoE. Rapport sur l audition d AINoE Paris, 18 juin 2003 AINoE Abstract Interpretation Network of Excellence Patrick COUSOT (ENS, Coordinator) Rapport sur l audition d AINoE Paris, 18 juin 2003 Thématique Rapport sur l audition d AINoE Paris, 18 juin 2003 1

Plus en détail

Contributions aux techniques de Prise de Décision et de Valorisation Financière

Contributions aux techniques de Prise de Décision et de Valorisation Financière No d ordre 2007-ISAL-0039 Année 2007 Thèse Contributions aux techniques de Prise de Décision et de Valorisation Financière Présentée devant L Institut National des Sciences Appliquées de Lyon Pour obtenir

Plus en détail

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation Complex Event Processing Traitement de flux de données en temps réel Romain Colle R&D Project Manager Quartet FS Plan Génération et exploitation de données CEP et applications Flux de données et notifications

Plus en détail

Un automate à états fini

Un automate à états fini Automates à états et langages Notion d automate Langage reconnu par un automate Automates non déterministes Expressions régulières et automates Limites des automates Notion d automate Objectif : définir

Plus en détail

Cours Unix 5. La commande awk. 1. La commande awk. 2. La commande make. Plan du cours 5

Cours Unix 5. La commande awk. 1. La commande awk. 2. La commande make. Plan du cours 5 Cours Unix 5 Michel Mauny La commande awk ETGL Le cours 4 est disponible sur http://quincy.inria.fr/courses/unix/ Plan du cours 5 La commande awk [La commande awk 2] Similaire à sed, mais plus puissant.

Plus en détail

NCTS INFORMATION QUANT AUX NOUVEAUTES POUR 2010

NCTS INFORMATION QUANT AUX NOUVEAUTES POUR 2010 NCTS INFORMATION QUANT AUX NOUVEAUTES POUR 2010 Sur pied des nouveaux articles 365, paragraphe 4 (NCTS) et 455bis, paragraphe 4 (NCTS-TIR) du Code Communautaire d'application 1, le principal obligé doit

Plus en détail

Raising the efficiency gains of industry by ICT means

Raising the efficiency gains of industry by ICT means Raising the efficiency gains of industry by ICT means 1/44 E-Government Consortium Thales IS ATG 2/44 ICT gains are similar for governments Industry Gains Government Gains Revenue Growth Expand government

Plus en détail

Introduction à l Analyse des Réseaux Sociaux

Introduction à l Analyse des Réseaux Sociaux Introduction à l Analyse des Réseaux Sociaux Erick Stattner Laboratoire LAMIA Université des Antilles et de la Guyane, France erick.stattner@univ-ag.fr Guadeloupe, Novembre 2012 Erick Stattner Introduction

Plus en détail

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG) Surveillance et maintenance prédictive : évaluation de la latence de fautes Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG) SURVEILLANCE Analyser une situation et fournir des indicateurs! Détection de symptômes!

Plus en détail

Parcours d un arbre Arbres de recherche CHAPITRE 6. Arbres binaires. Karelle JULLIAN. MPSI, Option Info 2014/2015. Karelle JULLIAN

Parcours d un arbre Arbres de recherche CHAPITRE 6. Arbres binaires. Karelle JULLIAN. MPSI, Option Info 2014/2015. Karelle JULLIAN CHAPITRE 6 Arbres binaires Lycée Kléber MPSI, Option Info 2014/2015 1 Définitions 2 Parcours en largeur Parcours en profondeur Parcours préfixe, infixe, postfixe Reconstitution 3 Recherche Complexité Insertion

Plus en détail

Peut-on perdre sa dignité?

Peut-on perdre sa dignité? Peut-on perdre sa dignité? Eric Delassus To cite this version: Eric Delassus. Peut-on perdre sa dignité?. 2013. HAL Id: hal-00796705 https://hal.archives-ouvertes.fr/hal-00796705 Submitted

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Introduction aux bases de données

Introduction aux bases de données 1/73 Introduction aux bases de données Formation continue Idir AIT SADOUNE idir.aitsadoune@supelec.fr École Supérieure d Électricité Département Informatique Gif sur Yvette 2012/2013 2/73 Plan 1 Introduction

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

Les Meta-analyses. Sibilia Quilici. Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014

Les Meta-analyses. Sibilia Quilici. Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014 Les Meta-analyses Sibilia Quilici Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014 Nombre de publication en méta-analyses 8000 7000 6000 5000 4000

Plus en détail

POLITIQUE DE SIGNATURE ELECTRONIQUE EN LIGNE SEPA

POLITIQUE DE SIGNATURE ELECTRONIQUE EN LIGNE SEPA POLITIQUE DE SIGNATURE ELECTRONIQUE EN LIGNE SEPA 1.2.250.1.35.25.2.1.2.12.1 1.0 Août 13 PUBLIC 1/16 Récapitulatif des éditions Version Date Nom du rédacteur Nature de la modification 1.0 08/08/13 Christian

Plus en détail

OrderGeneMiner : Logiciel pour l extraction et la visualisation de motifs partiellement ordonnés à partir de puces à ADN

OrderGeneMiner : Logiciel pour l extraction et la visualisation de motifs partiellement ordonnés à partir de puces à ADN OrderGeneMiner : Logiciel pour l extraction et la visualisation de motifs partiellement ordonnés à partir de puces à ADN Mickaël Fabrègue, Agnès Braud, Sandra Bringay, Florence Le Ber, Charles Lecellier,

Plus en détail

Reconnaissance d écriture de chiffres et accélération à l aide d un kd-arbre

Reconnaissance d écriture de chiffres et accélération à l aide d un kd-arbre Reconnaissance d écriture de chiffres et accélération à l aide d un kd-arbre Ensimag 1A - Préparation au Projet C Année scolaire 2011 2012 1 Présentation L objet de ce projet est de réaliser un petit programme

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

Théorie de la Normalisation 1/44

Théorie de la Normalisation 1/44 Théorie de la Normalisation 1/44 La phase de design d une BD q Analyse des besoins q Design conceptuel q Modèle EA, UML q Design logique q EA vers relations q raffinement de schéma: normalisation q Design

Plus en détail

European Aviation Safety Agency

European Aviation Safety Agency Page 1 of 6 European Aviation Safety Agency EASA SPECIFIC AIRWORTHINESS SPECIFICATION for as specified in Section I This Specific Airworthiness Specification is issued in accordance with Regulation (EC)

Plus en détail

Arbres binaires de recherche (ABR) Binary Search Trees (BST)

Arbres binaires de recherche (ABR) Binary Search Trees (BST) LSVIII-BIM Algorithmie, 2015 Arbres binaires de recherche (ABR) Binary Search Trees (BST) I. Arbres binaires 1. Structure 2. Parcours II. Arbres binaires de recherche 1. Définition 2. Opérations sur les

Plus en détail

How to Login to Career Page

How to Login to Career Page How to Login to Career Page BASF Canada July 2013 To view this instruction manual in French, please scroll down to page 16 1 Job Postings How to Login/Create your Profile/Sign Up for Job Posting Notifications

Plus en détail

JSIam Introduction talk. Philippe Gradt. Grenoble, March 6th 2015

JSIam Introduction talk. Philippe Gradt. Grenoble, March 6th 2015 Introduction talk Philippe Gradt Grenoble, March 6th 2015 Introduction Invention Innovation Market validation is key. 1 Introduction Invention Innovation Market validation is key How to turn a product

Plus en détail

http://www.bysoft.fr

http://www.bysoft.fr http://www.bysoft.fr Flash Slideshow Module for MagentoCommerce Demo on http://magento.bysoft.fr/ - Module Slideshow Flash pour MagentoCommerce Démonstration sur http://magento.bysoft.fr/ V3.0 ENGLISH

Plus en détail

Extraction de motifs : Règles d association et motifs séquentiels

Extraction de motifs : Règles d association et motifs séquentiels 1 Extraction de motifs : Règles d association et motifs séquentiels Maguelonne Teisseire TETIS Cemagref teisseire@teledetection.fr http://www.lirmm.fr/~teisseir Plan o Contexte général o Règles d association

Plus en détail

2002 Maritime Mathematics Competition Concours de Mathématiques des Maritimes 2002

2002 Maritime Mathematics Competition Concours de Mathématiques des Maritimes 2002 2002 Maritime Mathematics Competition Concours de Mathématiques des Maritimes 2002 Instructions: Directives : 1 Provide the information requested below Veuillez fournir les renseignements demandés ci-dessous

Plus en détail

Présentation SSDM : Semantically Similar Data Miner

Présentation SSDM : Semantically Similar Data Miner Présentation SSDM : Semantically Similar Data Miner Guillaume Calas Henri-François Chadeisson EPITA SCIA 2009 16 Juillet 2008 calas g - chadei h SSDM : Semantically

Plus en détail

De la difficulté de colorer : de Guthrie à Karp

De la difficulté de colorer : de Guthrie à Karp De la difficulté de colorer : de Guthrie à Karp Introduction à l optimisation combinatoire : Modélisation et complexité Marc Demange ESSEC Business School Paris, Singapore demange@essec.edu Plan de la

Plus en détail

arxiv:1211.6851v1 [cs.lg] 29 Nov 2012

arxiv:1211.6851v1 [cs.lg] 29 Nov 2012 Classification Recouvrante Basée sur les Méthodes à Noyau arxiv:1211.6851v1 [cs.lg] 29 Nov 2012 Chiheb-Eddine Ben N Cir & Nadia Essoussi LARODEC,Institut Supérieur de Gestion de Tunis, Université de Tunis

Plus en détail

Épreuve d informatique 2011

Épreuve d informatique 2011 A 2011 INFO. MP ÉCOLE NATIONALE DES PONTS ET CHAUSSÉES, ÉCOLES NATIONALES SUPÉRIEURES DE L AÉRONAUTIQUE ET DE L ESPACE, DE TECHNIQUES AVANCÉES, DES TÉLÉCOMMUNICATIONS, DES MINES DE PARIS, DES MINES DE

Plus en détail

Les doutes et les questions des économistes face au système des brevets

Les doutes et les questions des économistes face au système des brevets Les doutes et les questions des économistes face au système des brevets Dominique Foray Réunion du Groupe français de l AIPPI Octobre 2003 1 Nous nous intéressons. non pas à la PI en soi mais à l innovation

Plus en détail