Clustering. Christine Decaestecker, ULB Marco Saerens, UCL. LINF2275 Clustering 1

Dimension: px
Commencer à balayer dès la page:

Download "Clustering. Christine Decaestecker, ULB Marco Saerens, UCL. LINF2275 Clustering 1"

Transcription

1 Clustering Christine Decaestecker, ULB Marco Saerens, UCL LINF75 Clustering 1

2 Classification non-supervisée (automatique) Méthodes de regroupement ("Clustering") Objectif : Sur base - soit d'un tableau de données X np (n individus, p variables) - soit d'un tableau de distances (ou de dissimilarité) inter-individus D nn, ou inter-variables. regrouper les individus en un petit nombre de classe homogène ou (de façon symétrique) regrouper les variables (moins utilisé!) types d'approche: * méthodes non hiérarchiques: => partitionnement en k groupes * * * * * classes * ** * * * * ** ** *** * ** * LINF75 Clustering

3 * méthodes hiérarchiques : - méthodes ascendantes (agglomératives) => regroupement par agglomération progressive d'éléments (individus ou groupes d'individus) les + proches à - méthodes descendantes (divisives): divisions successives en groupes LINF75 Clustering 3

4 Notions de base nécessaires au regroupement d'individus commune à toutes les méthodes: - mesure de distance ou de proimité (1) dissimilarité similarité inter-individus méthodes non-hiérarchiques: - critère de qualité d'un regroupement () (mesure du d d'homogénéité des groupes et du d de différence inter-groupes méthode hiérarchiques : - critère d'agrégation ou de division (3) Les choi de (1) + () ou (1) + (3) vont complètement déterminer le type de "groupe" à identifier dans les données.! fi on ne trouve que ce que l'on cherche! E: distance euclidienne fi identification de : groupes "sphériques" dans l'espace de données éventuellement agglomérés en chaînes par un certain critère d'agrégation hiérarchique fi utilisation de métrique Æ"forme" plus générale des groupes LINF75 Clustering 4

5 Distance - dissimilarité - similarité Conditions à satisfaire: distance : (1) d(i,j) = d(j,i) (rappel) () d(i,j) 0 (3) d(i,j) = 0 i = j (4) d(i,j) d(i,k) + d(k,j) (inégalité triangulaire) Si perte de la propriété (4) fi dissimilarité Similarité : (1) s (i,j) = s (j,i) () s(i,j) 0 (3) s(i,i) s(i,j) 1 distance d similarité s = (par eemple) 1 + d dissimilarité d similarité: d (i,j) = s(i,i) s(i,j) + s(j,j) distance Euclidienne possible uniquement si - s(i,i) =1 et la matrice des similarités S nn est définie non-négative : y T S y 0 (c-à-d: s y y 0) "y ÂÂ i k est une distance (vérifie (4)) LINF75 Clustering 5 ik d = (1 - s) i k

6 Distances - similarités inter-individus 1) Données numériques la plus usitée : distance euclidienne car la plus simple à calculer! points à égales distance d'un centre donné sont sur une "hyper-sphère" => on identifiera des groupes sphériques. Comme les variables ont des dispersions (variances), il est d'usage de normaliser les variables ou d'utiliser D 1s Ê Á = Á Ë comme métrique. Reste le problème des corrélations (covariances) inter-variables => prise en compte par la matrice W (variance-covariance) 1 s1 Mais: si groupes avec des "orientations", des "formes" différentes, chaque groupe G est caractérisé par une matrice W G différente. O 1 sp ˆ LINF75 Clustering 6

7 Eemple: G 1 matrice W 1 G fi difficulté de choi d'une métrique Eemple de stratégie utilisée: matrice W or G 1 et G inconnus fl W 1 et W pas calculables directement 1) identification de groupes avec une distance euclidienne (ou D 1s ) ) sur base des groupes ainsi identifiés, adaptation (calcul) des matrices W k par groupe. 3) reformation des groupes sur base de métriques "locales" déterminées par (encore appelée distance de Mahalanobis) W k -1 Toute méthode de "clustering" peut être aussi appliquée après une A.C.P. ( qui permet l'élimination des informations globalement corrélées) LINF75 Clustering 7

8 ) Données qualitatives (catégorielles) : Tableau des données Æ tableau disjonctif complet (binaire : présence/absence de modalité) X np Æ Z nm => utilisation de la distance euclidienne : d d ( i, i') = m  j= 1 ( z ij - z i ' j où ( i, i') = nombre de modalité discordantes entre les individus! X 1 X X 3 z ij = z i'j = (z ij - z i'j ) = ) ( z ij - z i' j ) Ï0 si z = Ì Ó 1 si z ij ij = z z i' j i' j présence ou absence simultanée de la modalité d (i, i') = 4 = nombre de variables qualitatives (X j ) ayant des valeurs! 0 d (i, i') p (p = nombre de variables initiales) LINF75 Clustering 8

9 mesure de similarité équivalente s( i, i') = p - d 1 = ( p - d ( i, i')) = Nombre de variables qualitatives X j concordantes souvent normalisation des mesures : s( i, i') E : = % de variables concordantes p autre mesure de similarité dans le cas d une variable binaire poids - au concordances 1-1 et au concordances et discordances => tableau des fréquences des concordances / discordances entre individus: individu i' 1 0 individu 1 a b a + b i 0 c d c + d a + c b + d m ( i, i') 0 ~ s ( i, i') 1! on ne tient plus compte du regroupement des modalités par variable qualitative initiale LINF75 Clustering 9

10 LINF75 Clustering 1 0 M M c b a a s m a s c b d a d a s c b d a d a s m d a s + + = = = = + = ) ( ) ( ) ( % de concordances ( distance euclidienne) double pondération des concordances doubles pondération des discordances ne tient compte que des "1-1" ne tient compte que des "1-1" et des discordances ("0-0" considéré comme non-significatif) M Autre distance intéressante: distance c entre les lignes du tableau disjonctif contribution de la modalité "j" Ê si n.j (fréquence d'observation) fi les modalités rares (peu observées) ont un impact élevé! '. '), ( Â ˆ Á Á Ë Ê - = j j i ij p z z j n n i i d

11 3) Données mites Soit - transformation des variables numériques en variables catégorielles (découpage en intervalles Æ pris comme modalités) fi distance/similarité sur tableau disjonctif - transformation des variables catégorielles en variables numériques - utilisation de mesures "mites" Principes d'une mesure mite : soit X np (p variables) d p 1 ( i, i') = Âd p j= 1 avec 0 d j 1 " j j ( i, i') Pour une variable numérique Ê ˆ ij - ij' Á Ë s j E : d j ( i, i') = È Ê ˆ Ê ij ÍmaÁ - miná i i ÍÎ Ë s j Ë s contribution de la variable "j" d j = 0 ij = i'j ij j ˆ intervalle de variation s = variance de la variable j X j LINF75 Clustering 1 1

12 Pour une variable qualitative E :! d j ( i, i') = 0 si ij = ij' = 1 sinon Les p variables ont des contributions indépendantes!! LINF75 Clustering 1

13 Similarité - association inter-variables Variables numériques Æ indice de corrélation - linéaire - des rangs aussi pour variables ordinales! Variables qualitatives distance du c + de nombreu indices d'association Principe : variables proches si les individus ont des entre les variables. valeurs similaires (qualitatives) valeurs corrélées (quantitatives) fi détection de groupes de variables similaires fi un groupe de variables similaires peut être remplacé par une seule variable représentative du groupe! fi fait apparaître des relations inter-variables! LINF75 Clustering 1 3

14 Méthode de partitionnement (non-hiérarchique) Principes de base : méthode de réallocation autour de centres mobiles. Méthode des "K-means" : K fié = nombre de groupes 0) Choisir K centres provisoires de groupe parmi les items à classer (par tirage aléatoire par eemple) réallocation Æ1) Allouer chaque item au groupe dont le centre est le plus proche recentrage Æ ) Calculer les centres de gravité des groupes formés en 1) 3) Répéter 1) et ) jusqu'à stabilisation. c 1 c g 1 g g 1 g LINF75 Clustering 1 4

15 Justification de la méthode Inertie d'un groupe G k (k : 1 Æ K) Inertie intra-groupe : Inertie inter-groupe: k  I W = I k k = 1 k  k =1 I B = G k d g k,g avec g = centre de gravité global (du nuage total) G k = n(k) = effectif du groupe G k I k =  d ( i,g k ) iœg k ( ) On a I = I + tot W I B I tot : = n  i =1 d ( i,g) g g 1 g g 3 g i intra + inter LINF75 Clustering 1 5

16 Une bonne partition des classes I W minimum (groupes homogènes) I B maimum (séparation inter-groupe)! I W diminue si K augmente fi ne permet pas de trouver le nombre idéal de groupes! mais permet de comparer partitions en K classes : la meilleure I W minimum (ou I B maimum) Propriété de la méthode des K-means : A chaque étape de réallocation-recentrage 1) + ), on peut montrer que I W diminue fi stabilisation lorsque I W ne diminue plus. Les plus grandes ÿ se font dans les premières étapes => la partition converge assez rapidement. ( +/- 10 itérations de 1) + )). Avantages de la méthode : - rapide et facile à mettre en œuvre - permet de traiter de grandes bases de données. LINF75 Clustering 1 6

17 Convergence de la méthode L inertie intra-classe est définie par L inertie totale est LINF75 Clustering 1 7

18 Convergence de la méthode Première étape: Et donc: On obtient ainsi: LINF75 Clustering 1 8

19 Convergence de la méthode Et donc Si bien que l on trouve que le prototype doit être le centre de gravité! LINF75 Clustering 1 9

20 Convergence de la méthode Deuième étape: Si p i (k) est la probabilité d affectation d une observation i à la classe d indice k (= règle d affectation des observations au classes), nous avons Nous observons facilement que la règle d affectation optimale est d affecter l observation à la classe la plus proche LINF75 Clustering 0

21 Convergence de la méthode Dès lors, l étape 1 et l étape diminuent successivement l inertie intraclasse Comme cette inertie ne peut pas être négative, cette diminution d inertie doit tendre vers zero Ainsi, la procedure converge LINF75 Clustering 1

22 Défauts de la méthode : 1) obligation de fier K. ) le résultat dépend fortement du choi des centres initiau. => ne fournit pas nécessairement le résultat optimum (c-à-d la partition en K groupes pour laquelle I W est minimum) => fournit un optimum local qui dépend des centres initiau. Remédiations Æ de nombreu développements. 1) pour la dépendance au choi des centres initiau : - approche simple : recommencer avec plusieurs tirages aléatoires de centres ( en nombre K identique). choisir la partition avec I W minimum. ( si aucun groupe vide, c-à-d même nombre de groupes!) - recherche de groupements stables (ou "formes fortes"): 1) effectuer plusieurs partitions en K classes (centres initiau différents) ) repérer les individus restés ensemble d'une partition à l'autre nombreu groupes stables d'effectifs variés (beaucoup de petits groupes!) LINF75 Clustering

23 3) à partir des groupes stables de grands effectifs (en nbre limité), recommencer la méthode des K-means en initialisant les centres au centres des groupes stables => permet également de déterminer une valeur de K plus appropriée au données! ) Valeur de K - Méthode ISODATA (et nombreu autres dérivés) Intercale des phases de fusion et d'éclatement de groupes dans l'algorithme "K-means". - fusion de groupes si leur distance est faible. (e : distance inter-centre < seuil) - éclatement d'un groupe en sous-groupes si l'inertie du groupe (I G ) est trop grande (> seuil) => paramètres (seuils) à fier!!! - Visualisation des données à partir d une analyse discriminante - Utilisation de critères à minimiser/maimiser autres que l'inertie intra-groupe, qui permettent de comparer des partitions avec des "K" différents!. => choi de la meilleure partition. (e : critère de Condorcet pour données qualitatives) => aspect important de la recherche en "clustering"! => il faut cependant se méfier de tels critères LINF75 Clustering 3

24 Méthode hiérarchiques (ascendantes) Principes : 1 élément = 1 item à classer ou groupe d'items déjà agrégés! 1) n éléments à classer matrice des distances (ou similarité) des n éléments à Æ Dis nn Ê0 Á Á Dis = Á Á Á Á Ë d 0 i' i 0 d ii' 0 ˆ 0 (matrice symétrique, 0 sur la diagonale) ) identification des éléments les + proches (d ii' minimum) Æ agréger en un nouvel élément 3) reste n éléments initiau + 1 nouvel élément => inter-distances connues calcul de la distance entre le nouvel élément (résultant de l'agrégation) et tous les autres. à définir = critère d'agrégation LINF75 Clustering 4

25 E : 4) recommencer les étapes ) et 3) jusqu'à l'agrégation complète : 1 seul élément qui regroupe tous les autres Etapes : fi suite de n partitions emboîtées à n, n 1,, k,, 1 groupe(s) telle que : partition en k groupes obtenue en regroupant groupes de la partition en k + 1 groupes LINF75 Clustering 5

26 Représentation sous forme de arbre hiérarchique ou "dendrogramme" distance (9) P 1 (8) (7) (6) (1) (3) (4) () (5) éléments initiau = items à classer P P 3 P 5 P 4 nœuds de l'arbre = groupes P k = partition en k classes (suite emboîtée : P n Æ P 1 ) fi hauteur des branches = distances entre les éléments regroupés. => de + en + hautes en montant dans la hiérarchie. LINF75 Clustering 6

27 Critère d'agrégation = distance / dissimilarité inter-groupes différents critères fi différentes hiérarchies! Critères les plus souvent utilisés critère - du "saut minimal" ("single linkage") d(g 1,G ) = Min d( (1), () ) (i) Œ G i - du "saut maimal" ("complete linkage") d(g 1,G ) = Ma d( (1), () ) - de la distance moyenne ("average linkage") d(g 1,G ) = 1 d( (1), () ) G 1.G  - de l'inertie (Méthode de Ward) Remarque préliminaire:! la notion d'inertie n'a de sens que pour des mesures de distances inter-individus ( c-à-d utilisant une métrique M symétrique, définie positive -1 comme I, D,, ou la distance c entre vecteurs binaires, pour des données 1 V s qualitatives). LINF75 Clustering 7

28 On peut montrer qu'entre partitions consécutives P k + 1 Æ P k (obtenue après fusion de éléments de P k + 1 ) : I B decroit et I W augmente ( I tot reste constante) fi fusionner les éléments A et B de P k + 1 tels que : I W (P k ) - I W (P k +1 ) minimum ou (équivalent) I B (P k ) - I B (P k +1 ) minimum d (A, B) = A.B A + B. d (g A,g B ) min A = effectifs de A g A = centre de gravité de A LINF75 Clustering 8

29 Méthode de Ward Démontrons d abord une relation utile à propos de l inertie par rapport à un vecteur z g est le centre de gravité du nuage de points de points i pondérés par n(i) n est ici le nombre de i différents LINF75 Clustering 9

30 Méthode de Ward L inertie du nuage de points par rapport à un point quelconque z revient à prendre l inertie du nuage de points par rapport à son centre de gravité g plus l inertie du centre de gravité g par rapport à z, en le pondérant au prorata du nombre de points qu il représente LINF75 Clustering 3 0

31 Méthode de Ward Nous avons donc: Soient deu groupes A et B devant être fusionnés LINF75 Clustering 3 1

32 Méthode de Ward Nous avons donc pour le centre de gravité commun Calculons l inertie inter-classe (between) avant (k + 1 groupes) et après (k groupes) fusion Dans le cas de l inertie inter-classe (between), après fusion, l on a un grand groupe de (n A + n B ) données avec, comme centre de gravité, g AB : LINF75 Clustering 3

33 Méthode de Ward Nous allons appliquer notre décomposition par rapport à un vecteur z Ce vecteur sera z = g dans ce cas-ci Il n y a que deu groupes (A et B), chacun représentant n A et n B observations Attention, le centre de gravité des deu groupes sera g AB et non pas g dans ce cas-ci! Il y aura donc décomposition en somme des inerties intra-classe et inertie par rapport à z = g LINF75 Clustering 3 3

34 Méthode de Ward Nous avons donc avant fusion (k + 1 groupes): où pour passer de la première à la deuième ligne, nous avons appliqué notre formule Dans laquelle nous remplacons n = ; 1 = g A ; = g B ; n(1) = n A ; n() = n B ; z = g; g = g AB (centre de gravité des données fusionées); N = n A + n B LINF75 Clustering 3 4

35 Méthode de Ward La différence est donc LINF75 Clustering 3 5

36 Eemple illustratif : élément A élément B d (A, B) critère d (, 4) saut minimal 1 5 d (1, 5) saut maimal ( d + d14 + d15 + d3 + d d5 ) distance moyenne ga g AB g B I - ( I + I B ) AB A inertie fi Variation importante des résultats (dendogramme) en fonction du critère choisi! (sauf si les groupes sont bien distincts) LINF75 Clustering 3 6

37 Eemple : saut minimal effet de chaînage entre groupes proches - indiscernables par - identifiable par saut minimal saut minimal (non ellipsoïdal) - discernables par - pas par saut maimal! saut maimal => compromis : distance moyenne LINF75 Clustering 3 7

38 En pratique : Essayer plusieurs méthodes / critères d'agrégation => détection de groupes stables surtout en "haut" des dendrogrammes! => partitions à faible nbre de groupes Problème de la coupure de l'arbre (pour déterminer une partition intéressante) à opérer : - après la série d'agrégation à faibles distances (branches courtes de l'arbre) et - avant les agrégations à grandes distances (branches longues) eemple : => 4 groupes (! pas toujours facile fi plusieurs propositions équivalentes de partitions à 3, 4, 5 groupes) toute méthode de regroupement (hiérarchique ou non) est sensible au points! aberrants ("outliers") très éloignés des autres. => à repérer (par la distance inter-points) et à omettre/isoler avant d'appliquer la(les) méthode(s). LINF75 Clustering 3 8

39 Méthodes mites => combiner les différentes approches pour un meilleur résultat (+ stable) Schéma : outliers à "isoler" données initiales 1) partition initiale - K-means - groupes stables ) classification hiérarchique au départ des centres. 3) partition en 3 classes par coupure de l'arbre 4) consolidation par réallocation au centres (K-means) LINF75 Clustering 3 9

40 Interprétation - description des groupes - centroïde de classes (variables numériques) g k T = [m k1,m k,...,m kp ] (vecteur des moyennes par groupe) - valeur-test = indice d'importance des variables = statistique d'écart entre valeurs internes au groupe et valeurs globales! Variables numériques : X i : comparaison de la moyenne dans le groupe G k (m ki ) et la moyenne générale (m i ) (en tenant compte de la variance de X i dans le groupe: ) mki - mi => valeur-test dans le groupe G k : tk ( X i ) = s ki s ki t k (X i ) = mesure de distance entre la moyenne du groupe et la moyenne générale en nbre d'écart-type. plus t k ( i ) est grand, plus X i est caractéristique de G k (valeur absolue) LINF75 Clustering 4 0

41 Variables nominales : fi modalité 'j' caractéristique de G k? nkj Comparaison des fréquences d'observation dans G k : et nk n dans l'ensemble des données : j n n kj n j plus >>> plus la modalité est caractéristique. n n => mesure : n n kj k n j - n LINF75 Clustering 4 1

42 Complémentarité entre Analyse Factorielle (A.C.P. ou A.C.M.) et regroupement Objectif pratique : décrire (tirer de l'information) d'un ensemble de données de grande taille. mise en œuvre de plusieurs techniques pour en avoir une vue plus complète! Eemple de stratégie : 1) Analyse factorielle : (A.C.P. ou A.C.M. suivant les données) => * 1ères visualisations (à dimensions) * réduction des données au q premiers facteurs importants fi élimine les fluctuations aléatoires ("bruit") qui constituent en général l'essentiel de la variance epliquée/recueillie par les derniers facteurs fi "lissage" de données fi homogénéité des sous-groupes! * système d'aes orthonomés => utilisation de la distance euclidienne LINF75 Clustering 4

43 ) Regroupement sur base des facteurs (dist. euclid.) avec interprétation des groupes 3) Visualisation des groupes sur le plan principal (éventuellement analyse discriminante) => repérer les individus appartenant à un même groupe => repérer la position des centres de gravité. => contrôle de * la position des groupes (ou centres de gravité) * leur forme * leur densité * leur dispersion intra-groupe/inter-groupe * leur séparation + contrôle de la signification/qualité des facteurs principau. Ae 1 rend compte d'un maimum de variabilité => devrait rendre compte de la séparation inter-groupe! Meilleur interprétation des aes grâce à la description des classes! fi validation mutuelle!! + aspects théoriques qui justifient cette complémentarité "intuitive" ( non détaillée ici) (eemple : critère de Ward est basé, comme l'a.c.p., sur la notion d'inertie) LINF75 Clustering 4 3

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

1 - PRESENTATION GENERALE...

1 - PRESENTATION GENERALE... Contenu PREAMBULE... 2 INTRODUCTION... 2 1 - PRESENTATION GENERALE... 4 Qualité et optimalité... 8 2 - AGREGATION AUTOUR DE CENTRES MOBILES... 9 2.1 LES BASES DE L'ALGORITHME... 10 2.2 TECHNIQUES CONNEXES...

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

Introduction. Préambule. Le contexte

Introduction. Préambule. Le contexte Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2. Eo7 Calculs de déterminants Fiche corrigée par Arnaud Bodin Eercice Calculer les déterminants des matrices suivantes : Correction Vidéo ( ) 0 6 7 3 4 5 8 4 5 6 0 3 4 5 5 6 7 0 3 5 4 3 0 3 0 0 3 0 0 0 3

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R? Analyses multivariées avec R Commander Analyses multivariées avec R Commander (via le package FactoMineR) Plate-forme de Support en Méthodologie et Calcul Statistique (SMCS) - UCL 1 Introduction à R 2

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

REVUE DE STATISTIQUE APPLIQUÉE

REVUE DE STATISTIQUE APPLIQUÉE REVUE DE STATISTIQUE APPLIQUÉE H. ABDALLAH G. SAPORTA Mesures de distance entre modalités de variables qualitatives; application à la classification Revue de statistique appliquée, tome 51, n o 2 (2003),

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

Nombre dérivé et tangente

Nombre dérivé et tangente Nombre dérivé et tangente I) Interprétation graphique 1) Taux de variation d une fonction en un point. Soit une fonction définie sur un intervalle I contenant le nombre réel a, soit (C) sa courbe représentative

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN L'analyse de données Polycopié de cours ENSIETA - Réf : 1463 Arnaud MARTIN Septembre 2004 Table des matières 1 Introduction 1 11 Domaines d'application 2 12 Les données 2 13 Les objectifs 3 14 Les méthodes

Plus en détail

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Une nouvelle approche de détection de communautés dans les réseaux sociaux UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS Département d informatique et d ingénierie Une nouvelle approche de détection de communautés dans les réseaux sociaux Mémoire (INF 6021) pour l obtention du grade de Maîtrise

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Quelques éléments de statistique multidimensionnelle

Quelques éléments de statistique multidimensionnelle ANNEXE 1 Quelques éléments de statistique multidimensionnelle Les méthodes d analyse statistique exploratoire utilisées au cours des chapitres précédents visent à mettre en forme de vastes ensembles de

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008 Master IAD Module PS Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo Dans ce projet, nous allons réaliser le code qui permet d'insérer sur une image, un logo sur un

Plus en détail

Optimisation, traitement d image et éclipse de Soleil

Optimisation, traitement d image et éclipse de Soleil Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

PLAN. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2

PLAN. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2 Apprentissage non-supervisé ou apprentissage multi-supervisé? Ricco RAKOTOMALALA Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ PLAN. Classification automatique, typologie, etc.. Interprétation

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

FctsAffines.nb 1. Mathématiques, 1-ère année Edition 2007-2008. Fonctions affines

FctsAffines.nb 1. Mathématiques, 1-ère année Edition 2007-2008. Fonctions affines FctsAffines.nb 1 Mathématiques, 1-ère année Edition 2007-2008 Fonctions affines Supports de cours de mathématiques de degré secondaire II, lien hpertete vers la page mère http://www.deleze.name/marcel/sec2/inde.html

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Séance 11 : Typologies

Séance 11 : Typologies Séance 11 : Typologies Sommaire Proc CLUSTER : Typologie hiérarchique... 3 Proc FASTCLUS : Typologie nodale... 8 Proc MODECLUS : Typologie non paramétrique... 11 - Les phénomènes observés (attitudes, comportements,

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases SINE QUA NON Découverte et Prise en main du logiciel Utilisation de bases Sine qua non est un logiciel «traceur de courbes planes» mais il possède aussi bien d autres fonctionnalités que nous verrons tout

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

I. Polynômes de Tchebychev

I. Polynômes de Tchebychev Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015 Énoncé Soit V un espace vectoriel réel. L espace vectoriel des endomorphismes de V est désigné par L(V ). Lorsque f L(V ) et k N, on désigne par f 0 = Id V, f k = f k f la composée de f avec lui même k

Plus en détail

Analyse dialectométrique des parlers berbères de Kabylie

Analyse dialectométrique des parlers berbères de Kabylie Saïd GUERRAB Analyse dialectométrique des parlers berbères de Kabylie Résumé de la thèse (pour affichage) Il est difficile de parler du berbère sans parler de la variation. Il y a d abord une variation

Plus en détail

Gestion de Projet. Génie Logiciel. Renaud Marlet. LaBRI / INRIA. http://www.labri.fr/~marlet. (d'après A.-M. Hugues) màj 19/04/2007

Gestion de Projet. Génie Logiciel. Renaud Marlet. LaBRI / INRIA. http://www.labri.fr/~marlet. (d'après A.-M. Hugues) màj 19/04/2007 1 Génie Logiciel (d'après A.-M. Hugues) Gestion de Projet Renaud Marlet LaBRI / INRIA http://www.labri.fr/~marlet màj 19/0/007 Est-ce bien nécessaire? Principes de gestion = beaucoup d'évidences Pourtant

Plus en détail

Limites finies en un point

Limites finies en un point 8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Travail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt

Travail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt Travail de session : Mémoire Le clustering de données Par Nicolas Sola & Mathieu Schmitt Résumé Le travail du clustering consiste à regrouper les données en classe ; nous obtenons par ce biais une forte

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Individus et informations supplémentaires

Individus et informations supplémentaires ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

Continuité et dérivabilité d une fonction

Continuité et dérivabilité d une fonction DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité

Plus en détail

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R². Statistiques - Cours Page 1 L I C E N C E S c i e n t i f i q u e Cours Henri IMMEDIATO S t a t i s t i q u e s 1 Gén éralités Statistique descriptive univari ée 1 Repr é s e n t a t i o n g r a p h i

Plus en détail

Projet de Traitement du Signal Segmentation d images SAR

Projet de Traitement du Signal Segmentation d images SAR Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,

Plus en détail

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique. Université de Mons Faculté des Sciences Institut d Informatique Service d Algorithmique Conception d un lecteur de musique intelligent basé sur l apprentissage automatique. Mémoire réalisé par Xavier DUBUC

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Cours d analyse numérique SMI-S4

Cours d analyse numérique SMI-S4 ours d analyse numérique SMI-S4 Introduction L objet de l analyse numérique est de concevoir et d étudier des méthodes de résolution de certains problèmes mathématiques, en général issus de problèmes réels,

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Développement décimal d un réel

Développement décimal d un réel 4 Développement décimal d un réel On rappelle que le corps R des nombres réels est archimédien, ce qui permet d y définir la fonction partie entière. En utilisant cette partie entière on verra dans ce

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires Chapitre 2 : Systèmes radio mobiles et concepts cellulaires Systèmes cellulaires Réseaux cellulaires analogiques de 1ère génération : AMPS (USA), NMT(Scandinavie), TACS (RU)... Réseaux numériques de 2ème

Plus en détail

Cours Informatique Master STEP

Cours Informatique Master STEP Cours Informatique Master STEP Bases de la programmation: Compilateurs/logiciels Algorithmique et structure d'un programme Programmation en langage structuré (Fortran 90) Variables, expressions, instructions

Plus en détail

Scénario: Données bancaires et segmentation de clientèle

Scénario: Données bancaires et segmentation de clientèle Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

Rappels sur les suites - Algorithme

Rappels sur les suites - Algorithme DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................

Plus en détail

LES GENERATEURS DE NOMBRES ALEATOIRES

LES GENERATEURS DE NOMBRES ALEATOIRES LES GENERATEURS DE NOMBRES ALEATOIRES 1 Ce travail a deux objectifs : ====================================================================== 1. Comprendre ce que font les générateurs de nombres aléatoires

Plus en détail

Théorie des sondages : cours 5

Théorie des sondages : cours 5 Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur

Plus en détail

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes STA108 Enquêtes et sondages Sondages àplusieurs degrés et par grappes Philippe Périé, novembre 2011 Sondages àplusieurs degrés et par grappes Introduction Sondages à plusieurs degrés Tirage des unités

Plus en détail