Construction de descripteurs à partir du coclustering pour la classification supervisée de séries temporelles
|
|
|
- Damien Métivier
- il y a 10 ans
- Total affichages :
Transcription
1 Construction de descripteurs à partir du coclustering pour la classification supervisée de séries temporelles Dominique Gay, Marc Boullé Orange Labs, Lannion, FRANCE Résumé. Nous présentons un processus de construction de descripteurs pour la classification supervisée de séries temporelles. Ce processus est libre de tout paramétrage utilisateur et se décompose en trois étapes : (i) à partir des données originales, nous générons de multiples nouvelles représentations simples ; (ii) sur chacune de ces représentations, nous appliquons un algorithme de coclustering ; (iii) à partir des résultats de co-clustering, nous construisons de nouveaux descripteurs pour les séries temporelles. Nous obtenons une nouvelle base de données objets-attributs dont les objets (identifiant les séries temporelles) sont décrits par des attributs issus des diverses représentations générées. Nous utilisons un classifieur Bayésien sur cette nouvelle base de données. Nous montrons expérimentalement que ce processus offre de très bonnes performances prédictives comparées à l état de l art. 1 Introduction La classification de séries temporelles (TSC) est un sujet qui a été intensivement étudié durant les dernières années. Le but est de prédire la classe d un objet (une série temporelle ou courbe) τ i = (t 1, x 1 ), (t 2, x 2 ),..., (t mi, x mi ) (où x k, (k = 1..m i ) est la valeur de la courbe au temps t k ), étant donné un ensemble de séries temporelles labellisées d apprentissage. Les problèmes de TSC sont différents des problèmes de classification supervisée dans les bases transactionnelles puisqu il y a une dépendance temporelle entre les attributs ; ainsi l ordre des attributs importe. La TSC est applicable dans de nombreux domaines dont les données sont des séries temporelles : e.g., pour le diagnostic médical (par exemple la classification d électrocardiogramme de patients) mais aussi dans d autres domaines comme la maintenance de machines industrielles, la finance, la météo,... Le grand nombre d applications a succité de nombreuses approches ; toutefois la majorité de la communauté s est attachée à suivre le processus suivant (Liao, 2005) : (i) choisir une nouvelle représentation des données, (ii) choisir une mesure de similarité (ou une distance) pour comparer deux séries temporelles et enfin (iii) utiliser l algorithme (NN) du plus proche voisin (avec la mesure choisie sur la représentation choisie) comme classifieur. Ding et al. (2008) propose un état de l art des différentes représentations et mesures ainsi qu une étude expérimentale comparative basée sur le classifieur NN. Il en ressort que le classifieur NN couplé avec une distance Euclidienne ou Dynamic Time Warping (DTW) présente les meilleures performances prédictives pour les problèmes de TSC.
2 Construction de descripteurs pour la classification supervisée de séries temporelles Plus récemment, Bagnall et al. (2012) démontre expérimentalement que les performances de certains classifieurs augmentent fortement en utilisant certaines représentations (par rapport au domaine temporel original) ; ainsi, pour un classifieur donné, il existe une forte variance de performance selon la transformation de données utilisée. Pour pallier ce problème, Bagnall et al. (2012) proposent une méthode ensembliste basée sur trois représentations (ainsi que sur les données originales) : les résultats expérimentaux démontrent (i) l importance de la représentation dans les problèmes de TSC et (ii) qu une simple combinaison ensembliste de plusieurs représentations permet d atteindre des performances prédictives très compétitives. Nous adhérons à cette conclusion sur l importance des représentations ; toutefois une des faiblesses de certains classifieurs ensemblistes est la perte en interprétabilité due à la combinaison (par pondération) des classifeurs. Un exemple illustratif : les graphiques de la figure 1 confirment l intérêt du changement de représentation : si à partir des données originales (a), il n est pas évident de différencier les deux classes (bleu/rouge), de simples transformations (ici l intégrale cumulative (b) et la double intégrale cumulative (c)) facilitent la discrimination des classes. En effet, après transformation par double intégrale cumulative, les courbes (séries) ayant des valeurs supérieures à 100 sont bleues et les courbes avec des valeurs inférieures à -100 sont rouges. Sur cet exemple jouet (extrait de la base TwoPatterns de la base de l UCR (Keogh et al., 2011)), une transformation et deux descripteurs nous permettent de caractériser les deux classes de courbes. 2 TwoPatterns data sample (original values) (a) 30 TwoPatterns data sample (cumulative integral values) 1000 TwoPatterns data sample (cumulative double integral values) (b) (c) FIG. 1 Extrait de quelques séries temporelles pour deux classes de la base TwoPatterns : représentation originale, intégrale cumulative et double intégrale cumulative.
3 D. Gay & M. Boullé Dans cet article, nous proposons un processus de construction de descripteurs interprétables pour le problème de TSC. Notre contribution est donc essentiellement méthodologique. La section suivante décrit les différentes étapes de notre processus : (i) une étape de transformation des données originales en de nouvelles représentations ; (ii) une étape de coclustering ; (iii) l exploitation des résultats du coclustering pour construire de nouveaux descripteurs et ainsi une nouvelle base de données ; et enfin le classifieur utilisé. La section 3 rapporte la validation expérimentale de notre processus. 2 Processus de construction de descripteurs Notations. Pour le problème de classification supervisée de séries temporelles (TSC), une série temporelle est définie par une paire (τ i, y i ) où τ i est un ensemble d observations ordonnées τ i = (t 1, x 1 ), (t 2, x 2 ),..., (t mi, x mi ) de longueur m i et y i une valeur de classe. Une base de données de séries temporelles D est définie comme un ensemble de paires D = {(τ 1, y 1 ),..., (τ n, y n )}, où chaque série temporelle peut avoir un nombre d observations différent donc une longueur différente 1. Le but est de construire un classifieur à partir de D pour prédire la classe de nouvelles séries temporelles τ n+1, τ n+2,... Pour ce faire, nous appliquons le processus de construction de descripteurs décrit par la figure 2 dont chaque étape est détaillée dans la suite. Data transformation Data grid based coclustering Recoding data Data 1 Data 2 Data p Feature construction Cid 1 Cid 2 F orig F Dp C a1, a2, a3 b1, b2 p1, p2 Cid n Time series data Transformed data Enriched data FIG. 2 Processus de construction de descripteurs. Etape 1 : Transformation des données en de multiples nouvelles représentations. Etape 2 : Coclustering sur chacune des représentations. Etape 3 : Construction d un ensemble de descripteurs pour chaque résultat de coclustering pour la construction d une nouvelle base de données réunissant les différents ensembles de descripteurs construits. 1. Notons aussi que les séries d une base peuvent avoir des valeurs différentes pour t k, (k = 1..m i )
4 Construction de descripteurs pour la classification supervisée de séries temporelles 2.1 Transformations/Représentations De nombreuses méthodes de transformation ont été proposées dans la littérature pour représenter les séries temporelles : par exemple les transformations polynomiales, symboliques, spectrales, en ondelettes,... (voir (Ding et al., 2008) pour une vue synthétique sur les représentations). Pour notre processus, nous utilisons les données originales ainsi que six représentations : Les dérivées : DV et DDV Nous utilisons les dérivées et dérivées doubles des séries temporelles (i.e. les différences et différences doubles locales entre les valeurs au temps t et t 1). DV (τ i ) = (t 1, 0), (t 2, (x 2 x 1 ) (t 2 t1) ),..., (t m i, x m i x mi 1 ) t mi t mi 1 DDV (τ i ) = DV (DV (τ i )) Ces transformations nous permettent de représenter l évolution locale (croissante/décroissante, accélération/décélération) des séries. Les intégrales cumulatives : IV et IIV Nous utilisons aussi les intégrales cumulatives (simples et doubles) des séries temporelles (calculées via l approximation par la méthode des trapèzes). IV (τ i ) = (t 1, 0), (t 2, (t 2 t 1 ) x1 + x 2 2 ),..., (t mi, IV mi 1(τ i ) + (t mi t mi 1) xm i 1 + x mi ) 2 IIV (τ i ) = IV (IV (τ i )) Ces transformations nous permettent de représenter l évolution globale (accumulée) des séries. Le spectre de puissance : PS. Une série temporelle peut-être décomposée en une combinaison linéaire de sinusoïdes d amplitudes p, q et de phase w. Ainsi : τ i (t) = k=m i k=1 p k cos(2πw k t) + q k sin(2πw k t) On appelle transformée de Fourier la série de paires τ i,f T = (p 1, q 1 ),... (p mi, q mi ). Et, τ if le spectre de puissance (PS) est obtenu par la somme des carrés des coefficients de Fourier : τ if = (f 1, a 1 ),... (f mi, a mi ) où a k = p 2 i +q2 i (k = 1..m i). Les f k représentent la fréquence et les a k la puissance du signal. Cette transformation nous permet de représenter la série dans le domaine de fréquence. La fonction d auto-corrélation : ACF La transformation par fonction d auto-corrélation (ACF) est τ iρ = (t 1, ρ 1 ),... (t mi, ρ mi ) où ρ k = j=mi k j=1 (x j x) (x j+k x) m s 2
5 D. Gay & M. Boullé et où x et s 2 sont la moyenne et la variance de la série originale. L ACF décrit comment les valeurs originales séparées par une certaine durée évoluent ensemble. L ACF permet de détecter des structures d autocorrélation dans les séries temporelles. Ainsi pour une base de données de séries temporelles D orig, nous construisons six nouvelles bases de données : D DV, D DDV, D IV, D IIV, D P S, D ACF suivant la transformation utilisée. Dans la suite, par souci de généralisation, un objet d une de ces représentations sera appelé courbe au lieu de série temporelle puisque D P S n est plus dans le domaine temporel. 2.2 Coclustering Une courbe peut être vue comme un ensemble de points (X, Y ) décrits par ses valeurs en abscisses et en ordonnées. Un ensemble de courbes peut être vu comme un ensemble de points (C id, X, Y ) où C id est l identifiant de courbe. Cette représentation tridimensionnelle (une variable catégorielle et deux variables numériques) d une base de courbes est nécessaire à l application de méthodes de coclustering. En effet, le but est de partitionner la variable catégorielle et discrétiser les variables numériques afin d obtenir des clusters de courbes et des intervalles pour X et Y. Le résultat final est une grille tridimensionnelle dont chaque cellule est définie par un groupe de courbes, un intervalle de X et un intervalle de Y. Pour ce faire, nous utilisons la méthode de coclustering KHC de Boullé (2012) utilisable via le logiciel KHIOPS 2. Originalement développée pour le cas général des données fonctionnelles (Ramsay et Silverman, 2005), elle s adapte bien pour le cas particulier des courbes comme définies ci-dessus. KHC est libre de tout paramétrage utilisateur, robuste (évite le surapprentissage), supporte des bases de données de courbes de plusieurs millions de points et sa complexité en temps est de Θ(N N log N) où N est le nombre de points de la base : c est donc une méthode adaptée à notre problématique. KHC est une méthode basée sur l estimation de densité constante par morceaux et suit l approche MODL (Boullé, 2006) (similaire à une approche Bayésienne (MAP) Maximum A Posteriori). Le modèle optimal M, i.e., la grille optimale est obtenue par optimisation (gloutonne bottom-up) d un critère Bayésien qui mise sur un compromis entre précision et robustesse du modèle : cost(m) = log(p(m D) ) = log(p(m) p(d M) ) } {{ } } {{ } } {{ } posterior prior vraisemblance La grille obtenue constitue un estimateur non-paramétrique de la densité jointe des courbes et dimensions des points. Du point de vue de la théorie de l information, selon Shannon (1948), les logarithmes négatifs de probabilités s interprètent comme des longueurs de codage. Ainsi, le critère cost peut être interprété comme la longueur de codage du modèle (la grille) plus la longueur des données D connaissant le modèle M, selon le principe de Minimum Description Length (MDL (Rissanen, 1978)). Un exemple de visualisation de résultat de coclustering. La figure 3 présente un exemple de visualisation de deux clusters de courbes de la grille optimale obtenue pour la base de données TwoPatterns (transformée par IIV). Le graphique (a) (resp. (b)) présente un cluster dont les courbes sont majoritairement de classe c 1 (bleu dans l exemple introductif de la figure 1), 2.
6 Construction de descripteurs pour la classification supervisée de séries temporelles (a) (b) FIG. 3 Représentation de l information mutuelle des cellules pour deux clusters de courbes obtenus par la méthode KHC sur la base TwoPatterns entière (transformée par IIV) : (a) cluster dont les courbes sont majoritairement de classe c 1 ; (b) cluster dont les courbes sont majoritairement de classe c 2. Plus les couleurs sont vives, plus la différence de distribution de points entre la cellule courante (donc du cluster) et le reste des données est significative. (resp. c 2, rouge dans l exemple introductif). La grille optimale obtenue par KHC est composée de 133 clusters de courbes, 7 intervalles pour X et 22 intervalles pour IIV. L estimateur de densité jointe obtenue (i.e. la grille optimale) est plus fin que nécessite le problème de départ : en effet, la base TwoPatterns est un problème de classification à 4 classes or nous obtenons 133 clusters de courbes ; ce qui nous donne un potentiel de caractérisation fine des classes du problème, lorsque la représentation s y prête. 2.3 Construction de descripteurs A partir de chaque résultat de coclustering obtenus sur chacune des représentations utilisées (D orig, D DV, D DDV, D IV, D IIV, D P S, D ACF ), nous créons un ensemble de descripteurs, i.e., F orig, F DV, F DDV, F IV, F IIV, F P S, F ACF. Ces descripteurs sont les attributs de notre nouvelle base de données dont les objets sont les courbes. Pour chaque représentation, nous créons trois types de descripteurs définis comme suit : Soit D rep une représentation parmi celles décrites plus haut. Soit M rep = KHC(D rep ) la grille tridimensionnelle optimale obtenue par coclustering KHC sur D rep. On note k C le nombre de clusters de M rep et k Y le nombre d intervalles de M rep pour la dimension Y. Nous créons les attributs suivants : k C attributs numériques (un pour chaque cluster C de courbes issu de M rep ) dont la valeur pour une courbe c id est la distance définie par d(c id, C) = cost(m rep,cid C) cost(m rep ), i.e., la différence de coût entre le modèle optimal M rep et M rep,cid C, la grille optimale dans laquelle on a intégré la courbe c id au cluster de courbes C. Intuitivement, la distance d mesure la perturbation qu apporte l intégration d une courbe à un cluster de la grille optimale.
7 D. Gay & M. Boullé Un attribut catégoriel indiquant l index du cluster de courbes i C le plus proche d un objet courbe c id selon la distance définie ci-dessus (i.e. au sens du critère cost utilisé pour l optimisation de la grille). k Y attributs numériques (un pour chaque intervalle i Y de Y issu de M rep ) dont la valeur pour une courbe c id est le nombre de points de c id dans l intervalle i Y. Ainsi pour une courbe donnée c id, nous avons les informations suivantes fournies par les descripteurs (pour chaque représentation) : (i) la distance de c id à tous les clusters de courbes, (ii) l index du cluster de courbes le plus proche et (iii) le nombre de points de c id dans chaque intervalle de Y. 2.4 Classification supervisée Nous avons vu que notre processus de construction de descripteurs peut générer des centaines de descripteurs par représentation. Ainsi, l ensemble total d attributs générés F tot peut contenir plusieurs milliers d attributs. Le classifieur en fin de processus doit pouvoir supporter un grand nombre d attributs et doit être capable de sélectionner les attributs pertinents pour la tâche de classification supervisée. Nous choisissons le classifieur sélectif Naive Bayes (SNB (Boullé, 2007)) qui répond à ces attentes. Notons aussi que le prédicteur SNB exploite des prétraitements (de type MODL) de variables numériques par discrétisation et de variables catégorielles par groupement de valeurs en utilisant des estimateurs de densité conditionnelle robustes. Ainsi les varibles construites profitent de ces prétraitements et offrent un potentiel d interprétabilité (voir section 3). De plus, le SNB est libre de tout paramétrage utilisateur, ce qui facilite l utilisation de l ensemble du processus. 3 Validation expérimentale L implémentation de notre processus utilise des outils déjà existants (KHC pour le coclustering et SNB pour la classification supervisée, disponibles sur Le branchement entre ces outils est encore au stade de prototype et a été réalisé avec MATLAB. Protocole. Pour valider notre processus, nous utilisons 26 bases de données de classification de séries temporelles : 17 bases de l UCR (Keogh et al., 2011) et 9 nouvelles bases introduites dans (Bagnall et al., 2012). Une description succinte des caractéristiques de ces données est présentée dans la table 1. Cet ensemble de données présente une grande variété de bases tant en terme d applications, qu en terme de nombre d instances, de classes et en longueur de série. Les expériences sont menées en suivant un protocole train-test prédéfini pour chaque base. Nous comparons notre processus de classification, qu on appellera ici MODL-TSC, avec : (i) DTW-NN un classifieur basé sur le plus proche voisin et la distance Dynamic Time Warping, considéré par la littérature comme difficile à battre ; (ii) TSC-ENSEMBLE (Bagnall et al., 2012) qui exploite de multiples représentations via une méthode ensembliste et l agorithme du plus proche voisin (NN). Notons que depuis 2012, il existe d autres bases de données répertoriées par l UCR pour la TSC. Toutefois, nous nous limitons à ces 26 bases pour nos expérimentations comparatives car les performances prédictives de nos concurrents (rapportées de (Bagnall et al., 2012)) ne
8 Construction de descripteurs pour la classification supervisée de séries temporelles Bases #Train #Test Longueur Classes Ligthing Lighting ECG Adiac FaceFour words CBF Fish GunPoint OSULeaf SwedishLeaf SyntheticControl Trace TwoPatterns Wafer Yoga FaceAll Beef Coffee OliveOil Earthquakes HandOutlines FordA FordB ElectricDevices ARSim TAB. 1 Description des bases de données de séries temporelles. sont accessibles que pour ces bases. D autre part, les bases de séries de l UCR sont un cas particulier du cadre général dans lequel nous nous plaçons, puisque pour une base donnée, toutes les séries sont de la même longueur et utilisent le même domaine temporel (i.e., les t k sont identiques). Résultats. Les résultats en terme de taux d erreur sont reportés dans la table 2. Le meilleur résultat pour chaque base est mis en gras. Premièrement, les résultats globaux (Taux d erreur moyen, nombre de victoires et rang moyen) indiquent que MODL-TSC est très compétitif par rapport aux deux méthodes de l état de l art. Même si nous avons l avantage numérique, cet ensemble de données ne nous permet pas de montrer qu il y a une différence significative de performance entre les trois méthodes. En effet, nous avons procédé au test de Friedman (Demsar, 2006) et ne pouvons rejeter l hypothèse nulle. Notons les performances remarquables de MODL-TSC sur les bases OSULeaf, FordA, ElectricDevices et ARSim. Sur ces bases, la différence de performance est d au moins 0,1 (i.e. 10%) par rapport à ses concurrents. Ici, l apport des représentations (via les nouveaux descripteurs) est certainement à l oeuvre dans notre processus, alors que TSC-ENSEMBLE n exploite que 3 représentations et que DTW-NN se base sur les données originales. A l inverse, les performances de MODL-TSC sont dramatiques pour les bases ECG200, Coffee et OliveOil. La différence de performance tourne en notre défaveur (au moins 0,1 par rapport aux deux concurrents). Nous pensons que cette différence peut être dûe à deux raisons : (i) les bases d apprentissage de ECG200, OliveOil et Coffee sont très petites (quelques dizaines de courbes), ce qui rend l apprentissage difficile ; (ii) nous n avons pas encore trouvé la bonne représentation qui
9 D. Gay & M. Boullé #Attributs Bases DTW-NN TSC-ENSEMBLE MODL-TSC V/DV/DDV/IV/IIV/PS/ACF Ligthing2 0,1311 0,2295 0, /21/20/49/45/24/52 Lighting7 0,2877 0,3014 0, /21/21/38/36/22/39 ECG200 0,12 0,11 0,21 17/14/14/21/28/15/22 Adiac 0,3887 0,3555 0, /30/29/32/34/31/63 FaceFour 0,1818 0,1364 0, /12/29/22/34/11/18 50words 0,3297 0,3516 0, /179/77/118/89/55/129 CBF 0,0111 0,1722 0, /3/3/18/22/7/15 Fish 0,2171 0,2171 0, /36/26/31/44/48/47 GunPoint 0,0867 0,0467 0,02 29/15/13/20/25/23/20 OSULeaf 0,3843 0,4215 0, /107/30/105/102/31/64 SwedishLeaf 0,1776 0,152 0, /29/32/33/46/19/30 SyntheticControl 0,0233 0,09 0, /14/14/25/36/13/22 Trace 0,01 0,19 0,0 32/13/5/35/39/22 TwoPatterns 0,0007 0,1 0, /42/40/234/156/17/38 Wafer 0,0045 0,0044 0,0 149/183/178/52/74/23/47 Yoga 0,1653 0,1633 0, /54/54/72/84/38/41 FaceAll 0,1923 0,2941 0, /29/21/42/65/24/24 Beef 0,3667 0,4 0, /14/8/29/34/18/25 Coffee 0,0714 0,1786 0, /11/13/21/22/15/22 OliveOil 0,1667 0,2 0,6 45/29/16/40/56/26/46 Earthquakes 0,2734 0,2662 0,2878 8/17/21/64/54/16/27 HandOutlines 0,16 0,1243 0, /365/303/94/118/126/83 FordA 0,267 0,1515 0, /87/49/233/259/156/78 FordB 0,3812 0,2654 0, /63/64/226/272/147/70 ElectricDevices 0,35 0,3779 0, /62/80/163/109/126/137 ARSim 0,4426 0,3215 0, /23/56/676/293/30/830 Moyenne ER 0, , , #Victoires Moyenne Rang 2 2, , TAB. 2 Comparaisons des performances prédictives en terme de taux d erreur (ER) pour les méthodes DTW-NN, TSC-ENSEMBLE et notre processus MODL-TSC sur 26 bases. La dernière colonne rapporte le nombre de descripteurs construits par MODL-TSC pour chaque représentation.
10 Construction de descripteurs pour la classification supervisée de séries temporelles permet de construire de bons descripteurs. C est le cas pour OliveOil où l étape de coclustering de chacune des six représentations ne génère qu un seul cluster de courbes. Pour les autres (ECG200 et Coffee), même si l étape de coclustering produit des clusters, donc fournit des descripteurs, la majorité d entre eux ne sont pas considérés comme pertinents par le SNB. Ces expériences rappellent l importance des représentations pour la TSC d une manière générale, et en particulier dans notre processus. Nous pouvons donc espérer une amélioration des performances prédictives en rajoutant des représentations de la littérature dans notre processus. Interprétation : un exemple. Pour la représentation IV de la base TwoPatterns, la grille optimale obtenue par KHC est composée de 224 clusters de courbes, 11 intervalles pour X et 9 intervalles pour Y IV. Les deux variables les plus pertinentes (parmi toutes les variables générées à partir de toutes les représentations) selon les prétraitements MODL du SNB sont issues de la représentation IV et sont : 1. v 1, le nombre de points dans l intervalle I YIV =] ; 3, 9082] 2. v 2, l index du cluster le plus proche Le groupement de valeurs pour v 2 et la discrétisation pour v 1 fournissent les tables de contingence suivantes en apprentissage (cf tables 3 et 4) : p = #points I YIV c 1 c 2 c 3 c 4 0 p 7 100% 0,00% 0,00% 0,00% 7 < p 12 3,17% 17,46% 79,37% 0,00% 12 < p 26 0,97% 51,21% 45,17% 2,66% 26 < p 29 0,00% 25,58% 25,58% 48,84% 29 < p 0,46% 1,39% 0,93% 97,22% TAB. 3 Table de contingence de la variable v 1, nombre de points dans l intervalle I YIV = ] ; 3, 9082] issue de la représentation IV. Groupes d index de clusters c 1 c 2 c 3 c 4 G 1 0,39% 3,53% 3,53% 92,55% G 2 1,26% 0,42% 97,91% 0,42% G 3 3,42% 94,44% 0,00% 2,14% G 4 95,22% 2,21% 2,57% 0,00% TAB. 4 Table de contingence de la variable v 2, index du cluster le plus proche, issue de la représentation IV. Nous observons (table 3) que le nombre de points p d une courbe dans I YIV (i.e. le nombre de points dont la valeur est inférieure à -3,9082) est pertinent pour caractériser sa classe. En effet, en apprentissage, les courbes telles que p 7 sont de classe c 1 ; lorsque p > 29 elles sont très majoritairement de classe c 4 et lorsque 7 < p 12 elles sont majoritairement de classe c 3. Dans la table 4, nous observons tout d abord que le prétraitement supervisé par groupement de valeurs MODL sur la variable v 2 ( index du cluster de courbes le plus proche ) produit 4
11 D. Gay & M. Boullé groupes : G 1, (resp. G 2, G 3 et G 4 ) constitués de 56, (resp. 53, 53 et 62) index de clusters qui sont majoritairement de classe c 4 (resp. c 3, c 2, c 1 ). La forme diagonale de la table de contingence (table 4) indique la pertinence de l attribut v 2 pour caractériser la classe d une courbe. En effet, par exemple, si i C l index du cluster de courbes le plus proche d une courbe c id appartient au groupe G 2 (i.e. i C G 2 ), alors c id est considéré comme très similaire aux courbes de classe c 3. De plus, la variable index du cluster de courbes le plus proche est un indicateur de la pertinence de la représentation pour notre processus dans le problème courant de TSC. Dans cet exemple, la variable v 2 à elle seule permet de caractériser environ 95% de la base, donc la représentation IV est très pertinente pour caractériser les classes de la base TwoPatterns. A l inverse, pour la représentation originale (D V ), la grille optimale générée par KHC est composée de 255 clusters de courbes mais le prétraitement indique que la variable index du cluster de courbes le plus proche n est pas pertinente pour caractériser les classes de la base TwoPatterns. 4 Conclusion & Perspectives Nous avons proposé MODL-TSC, un processus générique de construction de descripteurs pour le problème de la classification supervisée de séries temporelles (TSC). Ce processus est libre de tout paramétrage utilisateur et donc simple d utilisation. Il se décompose en trois étapes : (i) génération de multiples représentations des données par le biais de transformations ; (ii) application d une technique de coclustering sur chacune des représentations ; iii construction de descripteurs à partir des résultats du coclustering. La nouvelle base de données objets-attributs dont les objets (identifiant les séries temporelles) sont décrits par des attributs issus des diverses représentations générées est notre base d apprentissage. Pour classer de nouvelles séries nous utilisons un classifieur naïf Bayésien sélectif. Les résultats expérimentaux ont montré que les performances prédictives de MODL-TSC sont très compétitives et comparables aux meilleures approches de la littérature. Les premiers résultats expérimentaux sont prometteurs et confirment l importance des transformations dans la TSC. En effet, selon les applications, certaines transformations faciliteront la découverte de motifs caractérisant les classes de séries temporelles. De plus, la combinaison de plusieurs représentations par le biais de notre processus MODL-TSC permet d atteindre des performances prédictives très compétitives. Nous avons utilisé quelques représentations simples dans ces travaux préliminaires pour démontrer le bien fondé de ce processus de construction de descripteurs ce qui nous laisse un potentiel d amélioration des performances pour les données où MODL-TSC est moins performant que ses concurrents, pour peu qu on trouve la bonne représentation. Chercher la ou les bonnes représentations via une transformation est certainement la principale perspective à ce travail et ce que nous pouvons recommander à ceux qui s intéressent à la TSC. La littérature sur la TSC regorge de représentations (voir (Wang et al., 2012) pour une vue d ensemble) et trouver une bonne représentation pour la TSC est toujours un sujet d actualité (e.g. (Lines et al., 2012)). D autre part, une perspective pratique sera d identifier la ou les bonnes représentations pour un domaine d application spécifique (e.g., ECG, consommation électrique,... ).
12 Construction de descripteurs pour la classification supervisée de séries temporelles Références Bagnall, A., L. M. Davis, J. Hills, et J. Lines (2012). Transformation based ensembles for time series classification. In SIAM DM 12, pp Boullé, M. (2006). MODL : A bayes optimal discretization method for continuous attributes. Machine Learning 65(1), Boullé, M. (2007). Compression-based averaging of selective naive Bayes classifiers. Journal of Machine Learning Research 8, Boullé, M. (2012). Functional data clustering via piecewise constant nonparametric density estimation. Pattern Recognition 45(12), Demsar, J. (2006). Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research 7, Ding, H., G. Trajcevski, P. Scheuermann, X. Wang, et E. J. Keogh (2008). Querying and mining of time series data : experimental comparison of representations and distance measures. PVLDB 1(2), Keogh, E., Q. Zhu, B. Hu, H. Y., X. Xi, L. Wei, et C. A. Ratanamahatana (2011). The UCR time series classification/clustering. series_data/. Liao, T. W. (2005). Clustering of time series data - a survey. Pattern Recognition 38(11), Lines, J., L. M. Davis, J. Hills, et A. Bagnall (2012). A shapelet transform for time series classification. In KDD 12, pp Ramsay, J. et B. Silverman (2005). Functional data analysis. Springer. Rissanen, J. (1978). Modeling by shortest data description. Automatica 14, Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal. Wang, X., A. Mueen, H. Ding, G. Trajcevski, P. Scheuermann, et E. Keogh (2012). Experimental comparison of representation methods and distance measures for time series data. Data Mining and Knowledge Discovery, Summary We suggest a parameter-free process for feature construction for time series classification. Our process is decomposed in three steps: (i) we transform original data into several simple representations; (ii) on each representation, we apply a coclustering method; (iii) we use coclustering results to build new features for time series. It results in a new transactional data set, made of time series identifiers described by features related to the various generated representations. We show that a Selective Naive Bayes classifier on this new data set is highly competitive when compared with state-of-the-art times series classification methods.
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion [email protected],
Principe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, [email protected] 2 Université
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.
Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes. Benjamin Auder 1 & Jairo Cugliari 2 1 Laboratoire LMO. Université Paris-Sud. Bât 425. 91405 Orsay Cedex, France. [email protected]
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables
Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables Dhafer Lahbib, Marc Boullé, Dominique Laurent France Télécom R&D - 2, avenue Pierre Marzin, 23300 Lannion [email protected]
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Annexe 6. Notions d ordonnancement.
Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. [email protected] Résumé Ce document
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES [email protected] 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Projet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Une approche non paramétrique Bayesienne pour l estimation de densité conditionnelle sur les rangs
Une approche non paramétrique Bayesienne pour l estimation de densité conditionnelle sur les rangs Carine Hue, Marc Boullé France Télécom R & D; 2, avenue Pierre Marzin; 22307 Lannion cedex [email protected];
Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication
Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication R. Carlos Nana Mbinkeu 1,3, C. Tangha 1, A. Chomnoue 1, A. Kuete
Validation probabiliste d un Système de Prévision d Ensemble
Validation probabiliste d un Système de Prévision d Ensemble Guillem Candille, janvier 2006 Système de Prévision d Ensemble (EPS) (ECMWF Newsletter 90, 2001) Plan 1 Critères de validation probabiliste
OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)
OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT) LAGGOUNE Radouane 1 et HADDAD Cherifa 2 1,2: Dépt. de G. Mécanique, université de Bejaia, Targa-Ouzemour
Laboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Chapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.
Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante. Objectifs et formulation du sujet Le syndrome de l apnée du sommeil (SAS) est un problème de santé publique
Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
INF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes
de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,[email protected]
Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée
Nicolas Creff Du 1er février au 31 juillet 2011 Promotion 2011 Majeure SCIA Rapport de Stage Titre : Clustering à l aide d une représentation supervisée Sujet : Personnalisation de scores à l aide de la
Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.
ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle
Mesure agnostique de la qualité des images.
Mesure agnostique de la qualité des images. Application en biométrie Christophe Charrier Université de Caen Basse-Normandie GREYC, UMR CNRS 6072 Caen, France 8 avril, 2013 C. Charrier NR-IQA 1 / 34 Sommaire
Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?
Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version
Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?
Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans
Mathématique et Automatique : de la boucle ouverte à la boucle fermée Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans [email protected] Plan 1. Un peu de
Transmission d informations sur le réseau électrique
Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE
INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE Le schéma synoptique ci-dessous décrit les différentes étapes du traitement numérique
Résumé des communications des Intervenants
Enseignements de la 1ere semaine (du 01 au 07 décembre 2014) I. Titre du cours : Introduction au calcul stochastique pour la finance Intervenante : Prof. M hamed EDDAHBI Dans le calcul différentiel dit
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux
Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier
Détection et reconnaissance des sons pour la surveillance médicale Dan Istrate le 16 décembre 2003 Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Thèse mené dans le cadre d une collaboration
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax [email protected],
L'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Sélection de Caractéristiques pour le Filtrage de Spams
Sélection de Caractéristiques pour le Filtrage de Spams Kamilia MENGHOUR, Labiba SOUICI-MESLATI Laboratoire LRI, Université Badji Mokhtar, BP 12, 23000, Annaba, Algérie. [email protected], [email protected]
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour [email protected] Une grande partie des illustrations viennent
Data Mining. Master 1 Informatique - Mathématiques UAG
Data Mining Master 1 Informatique - Mathématiques UAG 1.1 - Introduction Data Mining? On parle de Fouille de données Data Mining Extraction de connaissances à partir de données Knowledge Discovery in Data
Sillage Météo. Notion de sillage
Sillage Météo Les représentations météorologiques sous forme d animation satellites image par image sont intéressantes. Il est dommage que les données ainsi visualisées ne soient pas utilisées pour une
Travaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Intérêt du découpage en sous-bandes pour l analyse spectrale
Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,
Introduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Leçon N 4 : Statistiques à deux variables
Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d
ANALYSE STATISTIQUE PRÉDICTIVE
Yoshua Bengio Chaire de Recherche du Canada sur les Algorithmes d Apprentissage Statistique, Université de Montréal Charles Dugas ApSTAT Technologies Inc. Et Aviva Canada SALON INTELLIGENCE D AFFAIRE 8
Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE
UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction
Filtrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1
33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est
Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé
Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue
Expérience 3 Formats de signalisation binaire
Expérience 3 Formats de signalisation binaire Introduction Procédures Effectuez les commandes suivantes: >> xhost nat >> rlogin nat >> setenv DISPLAY machine:0 >> setenv MATLABPATH /gel/usr/telecom/comm_tbx
Classification Automatique de messages : une approche hybride
RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,
Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)
MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour
NON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
TD1 Signaux, énergie et puissance, signaux aléatoires
TD1 Signaux, énergie et puissance, signaux aléatoires I ) Ecrire l'expression analytique des signaux représentés sur les figures suivantes à l'aide de signaux particuliers. Dans le cas du signal y(t) trouver
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Les algorithmes de base du graphisme
Les algorithmes de base du graphisme Table des matières 1 Traçage 2 1.1 Segments de droites......................... 2 1.1.1 Algorithmes simples.................... 3 1.1.2 Algorithmes de Bresenham (1965).............
Spécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala [email protected] http://chirouble.univ-lyon2.fr/~ricco/data-mining
Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008
Master IAD Module PS Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance
Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3
Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU
Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris
Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe
Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe des n n groupes quantiques compacts qui ont la théorie
Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons
Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons Ahmad OSMAN 1a, Valérie KAFTANDJIAN b, Ulf HASSLER a a Fraunhofer Development Center
Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme
Chapitre 3 Quelques fonctions usuelles 1 Fonctions logarithme et eponentielle 1.1 La fonction logarithme Définition 1.1 La fonction 7! 1/ est continue sur ]0, +1[. Elle admet donc des primitives sur cet
Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies
Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies Ariane Lançon (Observatoire de Strasbourg) en collaboration avec: Jean-Luc Vergely,
Techniques d interaction dans la visualisation de l information Séminaire DIVA
Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, [email protected] 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques
Optimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Entreposage de données complexes pour la médecine d anticipation personnalisée
Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée
Cours de méthodes de scoring
UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-
Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,
Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très
Une comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Echantillonnage Non uniforme
Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas
L apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.
École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
Exercices Alternatifs. Une fonction continue mais dérivable nulle part
Eercices Alternatifs Une fonction continue mais dérivable nulle part c 22 Frédéric Le Rou (copleft LDL : Licence pour Documents Libres). Sources et figures: applications-continues-non-derivables/. Version
Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE
UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables
Exercices Alternatifs. Une fonction continue mais dérivable nulle part
Eercices Alternatifs Une fonction continue mais dérivable nulle part c 22 Frédéric Le Rou (copyleft LDL : Licence pour Documents Libres). Sources et figures: applications-continues-non-derivables/. Version
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT
Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,
TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE
ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École
PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE
PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,
Systèmes de transmission
Systèmes de transmission Conception d une transmission série FABRE Maxime 2012 Introduction La transmission de données désigne le transport de quelque sorte d'information que ce soit, d'un endroit à un
Le Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Etude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Introduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables.
Préparation non paramétrique des données pour la fouille de données multi-tables Dhafer Lahbib To cite this version: Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables.
Rappels sur les suites - Algorithme
DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................
