Analyse des données et Data Mining

Dimension: px
Commencer à balayer dès la page:

Download "Analyse des données et Data Mining"

Transcription

1 Analyse des données et Data Mining Analyse en composantes principales utc sy09 1

2 Objectif des méthodes factorielles Visualiser, traiter des données multidimensionnelles Problème difficile Information apportée par ces variables souvent redondante Exploiter cette redondance pour remplacer les variables initiales par un nombre réduit de nouvelles variables sans perdre trop d information Remplacer plusieurs variables par une seule : démarche habituelle : Moyenne àl école QI répartition des hommes politiques sur l axe droite-gauche Mieux à faire : conserver un aspect multidimensionnel Psychologues américains (Spearman, Burt, Thurstone) Données : résultats à des tests psychologiques Objectif ; facteur général d aptitude + facteurs spécifiques (mémoire, intelligence,...) utc sy09 2

3 Exemple de l analyse en composantes principales Variables quantitatives Nouvelles variables = combinaisons linéaires des variables initiales Non corrélées Géométriquement : chercher les droites, les plans et de manière plus générale les variétés linéaires proches du nuage des individus K. Pearson (1900) : 2 variables H. Hotelling (1933) : plus de 2 variables de variables. Référence récente : Jackson (1991) utc sy09 3

4 Les différentes méthodes factorielles Dépendent de la forme des données Mêmes bases mathématiques Différent de «factor analysis» Anglo-saxons Statistiques inférentielles s appuyant sur un modèle statistique Assez peu utilisées en France ACP : tableaux de variables quantitatives AFC : tableaux de contingence ACM : tableaux de variables qualitatives AFTD : tableaux de proximités AFD : Variable à discriminer utc sy09 4

5 Les données X tableau individus, variables quantitatives Nuage N(Ω) de R p muni de la métrique euclidienne X centré en colonne Matriciellement : X = Y 1 n Y si Y est la matrice initiale utc sy09 5

6 Formulation du problème Représentation fidèle du nuage des individus dans un espace plus simple : Espaces choisis : Droite, plan,... Espace affine de dimension de petite dimension Il faut fixer la dimension k<p Il existe des extensions à d autres types d espaces Type de représentation : Projection orthogonale Fidélité : Minimisation des «écarts» entre les points du nuage et leurs projections Minimisation de l inertie par rapport à l espace affine utc sy09 6

7 Formulation mathématique Pb1 : Trouver le sous-espace affine E k de dimension k tel que I Ek Théorème de Huygens : E k g g =0 E k sous-espace vectoriel De plus I Ek + I E k = I = cste Pb2 : Trouver le sous-espace vectoriel E k t.q. I E k soit maximum k = 1 : droite des moindres carrés ACP : régression orthogonale Différent de la droite de régression de y par rapport à x Différent de la droite de régression de x par rapport à y soit minimum utc sy09 7

8 Résolution du problème : axes factoriels Décomposition spectrale de la matrice de variance S = 1 n XX S sym. 0 diagonalisable, valeurs propres 0, vecteurs propres λ 1... λ p valeurs propres ordonnées u 1,...,u p les vecteurs propres normés correspondant : base orthonormée Solution : les propriétés spectrales permettent de montrer que les sous-espaces recherchés sont définis de la façon suivante : E 1 = u 1 ; E 2 = E 1 u 2... E k = E k 1 u k En outre : I u k = λ k u k : axe factoriel (ou axe principal d inertie) utc sy09 8

9 Résultats pratiques La recherche des sous-espaces E k est donc obtenue de la façon suivante : Diagonaliser S Ordonner les vecteurs propres dans l ordre décroissant des valeurs propres Normaliser des vecteurs propres Notations matricielles : Matrice des vecteurs propres U =(u 1,...,u p ) Matrice diagonale des valeurs propres L =diag(λ 1,...,λ p ) Remarque : UU = I U SU = L SU = UL utc sy09 9

10 Inerties expliquées On a I u k = λ k E k = u 1... u k et u k orthogonaux D où I E k = λ λ k Remarques pour k = p : on retrouve I = trace(s) Si r est le rang de la matrice X(r min(p, n)) : λ 1,...,λ r > 0 et λ r+1,...,λ p =0 On a donc I E r = I : le nuage est donc dans E r utc sy09 10

11 Choix du nombre k d axes à retenir Avec le pourcentage d inertie pourcentage d inertie expliquée par E 1 = 100 λ 1 p α=1 λ = 100 λ 1 ; α trace(s) pourcentage d inertie expliquée par E 2 = 100 (λ 1+λ 2 ) p α=1 λ α... ; = 100 (λ 1+λ 2 ) trace(s) ; pourcentage d inertie expliquée par E k = 100 (λ 1+λ λ k ) p α=1 λ α = 100 (λ 1+λ λ k ) trace(s) Méthode graphique du «coude» Utilisation de tests : par exemple H 0 : λ k+1 =... = λ p utc sy09 11

12 Composantes Principales Définition Pb initial : représenter les individus dans un espace de petite dimension E k Comment obtenir cette représentation? Coordonnées d un individu i sur E k : c 1 i...,cα i,...,ck i où cα i est la position de i sur l axe α Composantes principales : c α =(c α 1,...,c α n) Pour tracer le plan factoriel (α, β), il suffit de calculer c α et c β Pour α>r,onac α = 0 (inertie expliquée nulle) i Ω (cα i )2 Expression des valeurs propres λ α = I uα = 1 n Calcul des composantes principales : projection des x i sur les vecteurs de base c α i =< x i, u α >= x iu α ou encore c α = Xu α Matriciellement si C =(c1,...,c p ): C = XU utc sy09 12

13 Composantes principales : nouvelles variables c α associe à chaque individu une valeur réelle : nouvelle variable Propriétes combinaisons linéaires des variables x j centrées, de variance λ α et non corrélées Vecteurs propres de 1 n XX, matrice des produits scalaires avec les valeurs propres λ α Autre interprétation de l ACP : Trouver k nouvelles variables, combinaisons linéaires normées ( u α =1)desp variables centrées initiales, non corrélées deux à deux et de variance maximum Solution : vecteurs propres normées de la matrice 1 n XX : c α Diagonaliser XX ou X X? utc sy09 13

14 Formule de reconstitution p r X = CU ou X = = c α u α = c α u α α=1 α=1 Décomposition de la matrice X en une somme de matrices de rang 1 «Reconstitution» de X avec les composantes principales et les axes factoriels Approximation : X X = k c α u α = CŨ. α=1 Relation quelquefois utilisée pour compresser les données utc sy09 14

15 Qualité delareprésentation Qualité globale : pourcentage d inertie pris en compte par E k λ λ k trace(s).100 Contribution d un axe à un individu : proportion de l inertie de l individu conservée sur l axe Inertie de l individu : 1 n x i 2 (I = p i=1 1 n x i 2 ) Inertie de l individu sur l axe : 1 n (ci α) 2 Contribution COR(i, α) = (cα i )2 x i 2 Carré du cosinus de l angle (x i, u α ) Varie de 1 (i bien représenté) à0(i mal représenté) Généralisation : contribution relative de E k k k α=1 QLT (i, k) = (cα i )2 x i 2 = COR(i, α) utc sy09 15 i=1

16 Qualité de la représentation (suite) Contribution d un individu à un axe: proportion d inertie de l axe apportée par un individu Inertie de l axe Contribution I uα = λ α = 1 n CTR(i, α) = n (c α i ) 2 i=1 1 n (cα i )2 λ α utc sy09 16

17 Représentation des variables Objectif : visualiser les corrélations x j, x j et les corrélations c α, x j Représentation des variables normées ( cercle des corrélations) : les corrélations x j, x j seront visualisées par les cosinus Les composantes principales normées v α = 1 λα c α forment une base orthonormée de l espace vectoriel engendré par les variables initiales Dans cette base : les coordonnées des variables normées sur les axes sont les corrélations c α, x j Calcul des coordonnées : d j α = cor(x j, c α ) ou encore D = D 1 σ UL1 2 Qualité de représentation : dépend de la position des projections par rapport au cercle de corrélations utc sy09 17

18 Les éléments supplémentaires (ou illustratifs) Représentation d individus ou de variables n ayant pas participé à l analyse Principe : leur appliquer les mêmes transformations que celles qui ont été appliquées aux individus ou aux variables de départ Individu supplémentaire : coordonnée sur l axe u α de l individu y s : centrage en colonne : x s = y s x =(y 1 s x 1,...,y p s x p ) Projection sur l axe : < x s, u α >= x su α Variable supplémentaire : coordonnée sur l axe v α de la variable s s Centrage en colonne : x s =(y s 1 y s,...,y s p y s ) Projection sur l axe : < x s, v α > Dp =(x s ) D p c α λα utc sy09 18

19 Les éléments supplémentaires : utilisation Représentation d individus dont la fiabilité est suspecte Représentation d individus prenant des valeurs atypiques qui prendraient une part trop prépondérante à la formation des axes s ils étaient pris en compte Représentation d un groupe d individus par leur centre de gravité Représentation d éléments de natures différentes des éléments initiaux : variables actives : notes scolaires et variables supplémentaires : notes de tests psychologiques Individus actifs : malades et individus supplémentaires : personnes saines utc sy09 19

20 Exemple d ACP : Les données math scie fran lati d-m jean aline annie monique didier andré pierre brigitte evelyne Moy Données initiales math scie fran lati dess Données centrées utc sy09 20

21 Matrice de variance S = 1 9 X X = math scie fran lati dess math scie fran lati dess Valeurs propres Axes factoriels Inertie % d inertie % d inertie expliquée expliquée cumulée u 1 u 2 u 3 u 4 u utc sy09 21

22 Contributions relatives des axes aux individus Contributions relatives des individus aux axes jean aline annie monique didier andré pierre brigitte evelyne jean aline annie monique didier andré pierre brigitte evelyne utc sy09 22

23 Composantes principales jean aline annie monique didier andré pierre brigitte evelyne Analyse dans R n F1 F2 F3 F4 F 5 math scie fran lati d-m utc sy09 23

24 ACP : Exemple des notes (variables) 1 fran 0.5 lati Axe 2 0 d m 0.5 math scie Axe 1 utc sy09 24

25 ACP : Exemple des notes (variables) Axe 3 0 fran math scie lati d m Axe 1 utc sy09 25

26 ACP : Exemple des notes (individus) 6 pier anni evel 2 Axe moni 1 alin 2 3 jean didi 4 brig andr Axe 1 utc sy09 26

27 3 2 jean alin ACP : Exemple des notes (individus) pier moni 1 didi 0 anni Axe andr brig evel Axe 1 utc sy09 27

28 Taille du cerveau et intelligence Référence : Reference : Willerman, L., Schultz, R., Rutledge, J. N., and Bigler, E. (1991), In Vivo Brain Size and Intelligence, Intelligence, 15, Description : 40 étudiants en psychologie et 7 variables Sexe 3 mesures d intelligence FSIQ : Full Scale IQ scores based on the four Wechsler (1981) subtests VIQ : Verbal IQ scores based on the four Wechsler (1981) subtests PIQ : Performance IQ scores based on the four Wechsler (1981) subtests Weight : taille de l étudiant Height : poids de l étudiant MRI (Magnetic Resonance Imaging) : taille du cerveau utc sy09 28

29 Les données FSIQ VIQ PIQ W H MRI 1F M M M F F F F M M F M M F F F F M F M FSIQ VIQ PIQ WEIG HEIG MRI 21M M F M F M F M F F F M M M F F M F M M utc sy09 29

30 Corrélations FSIQ VIQ PIQ WEIG HEIG MRI FSIQ VIQ PIQ WEIG HEIG MRI ACP : valeurs propres Variance Pourc. de variance Pourcentage cumulé utc sy09 30

31 ACP (correlation) : Taille du cerveau (variables) 1 MRI HEIG WEIG 0.5 PC 2 0 PIQ FSIQ VIQ utc sy PC 1

32 ACP (correlation) : Taille du cerveau (individus) PC utc sy09 PC 1 32

33 ACP (correlation) : Taille du cerveau (individus) 3 f m 2 1 PC utc sy09 PC 1 33

34 Fichier notes.rd math scie fran lati d-m jean aline annie monique didier andre pierre brigitte evelyne Y <- as.matrix(data) n <- dim(y)[1] Programme R # Centrage du tableau X <- Y-matrix(1,n,1)%*% apply(y,2,mean) # Reduction du tableau (eventuellement) #X <- X/matrix(1,n,1)%*% apply(x,2,sd) # Calcul de la matrice de covariance ou de correlation S <- (1/n)*t(X)%*%X # Calcul des valeurs propres et des axes d inertie tmp<-eigen(s,symmetric=true) L <- diag(tmp$values) U <- tmp$vectors # Calcul des composantes principales des individus C <- X%*% U # Représentation des variables D <- diag(1/(sqrt((n-1)/n)*sd(x))) %*% U %*% sqrt(l) # Calcul des contributions COR <- diag(1/apply(x^2,1,sum))%*% C^2 CTR <- (1/n)*C^2 %*% diag(1/diag(l)) # Tracé des graphiques plot(c[,1],c[,2],type="n") text(c[,1],c[,2],rownames(data));abline(h=0);abline(v=0) plot(c[,1],c[,3],type="n") text(c[,1],c[,3],rownames(data));abline(h=0);abline(v=0) plot(-1:1,-1:1,type="n",xlab= Axe 1,ylab= Axe 2 ) text(d[,1],d[,2],colnames(data));abline(h=0);abline(v=0) curve(sqrt(1-x^2),-1,1,add=true) curve(-sqrt(1-x^2),-1,1,add=true) plot(-1:1,-1:1,type="n",xlab= Axe 1,ylab= Axe 3 ) text(d[,1],d[,3],colnames(data));abline(h=0);abline(v=0) curve(sqrt(1-x^2),-1,1,add=true) curve(-sqrt(1-x^2),-1,1,add=true) utc sy09 34

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES 2011 2012 ANALYSE DE DONNEES 2011 2012 LICENCE 3 SCIENCES ECONOMIQUES COURS DE M. THIERRY BLAYAC Analyse de données [Tapez le sous-titre du document] ANALYSE DE DONNEES Page 1 H34VEN Cours pour Licence

Plus en détail

Cours 2-3 Analyse des données multivariées

Cours 2-3 Analyse des données multivariées Cours 2-3 des données s Ismaël Castillo École des Ponts, 13 Novembre 2012 Plan 1 2 3 4 1. On s intéresse à un jeu de données multi-dimensionel, avec n individus observés et p variables d intérêt ( variables

Plus en détail

Analyse en Composantes. Principales

Analyse en Composantes. Principales AgroParisTech Analyse en Composantes Principales C Duby, S Robin Table des matières Introduction 3 2 Tableau de données 4 3 Choix d une distance 6 4 Choix de l origine 7 5 Moments d inertie 9 5 Inertie

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE Plan du cours Qu est-ce que le data mining? À quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Partie I. Les données quantitatives

Partie I. Les données quantitatives Variables quantitatives : analyse en composantes principales Jean-Marc Lasgouttes https://whorocqinriafr/jean-marclasgouttes/ana-donnees/ Partie I Les données quantitatives Description de données quantitatives

Plus en détail

Partie I. Les données quantitatives

Partie I. Les données quantitatives Variables quantitatives : analyse en composantes principales Jean-Marc Lasgouttes https://whorocqinriafr/jean-marclasgouttes/ana-donnees/ Partie I Les données quantitatives Description de données quantitatives

Plus en détail

Analyse de Données. Analyse en Composantes Principales (ACP)

Analyse de Données. Analyse en Composantes Principales (ACP) Analyse de Données Analyse en Composantes Principales (ACP) Analyse en composantes principales (ACP) ** Sur toute la fiche, on notera M' la transposée de M. Cadre de travail : On a des données statistiques

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

1 Diagonalisation des endomorphismes auto-adjoints, en dimension finie

1 Diagonalisation des endomorphismes auto-adjoints, en dimension finie Annette Paugam Diagonalisation des auto-adjoints Applications aux formes quadratiques : Directions principales Applications en Géométrie, en Statistique et en Mécanique Les paragraphes, 2, 3 donnent un

Plus en détail

Cours 7 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) Master 2 2005/2006

Cours 7 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) Master 2 2005/2006 Cours 7 ANALYSE EN COMPOSANTES PRINCIPALES (ACP) Master 2 2005/2006 . Les données NOMS PUISS CYLI Co uple Ma xi LONG LARG H AUT COFFRE RESE POIDS VITE CONS ALF 47,9 JTD Distinctive 5 90 28 4,7,73,44 280

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 9 ANALYSE MULTIDIMENSIONNELLE L analyse des données multidimensionnelles regroupe un ensemble de méthodes

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

Analyse de données multidimensionnelles

Analyse de données multidimensionnelles Analyse de données multidimensionnelles M1 Statistique et économétrie, 2014 Projet - V. Monbet Le projet est composé de deux parties indépendantes. Les données sont disponibles sur la page web du cours.

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Plan du cours Analyse en Composantes Principales Introduction Les données Leurs représentations La méthode Modèle Interprétation statistique Espace principal Composantes Principales Représentations Graphiques

Plus en détail

Introduction. Préambule. Le contexte

Introduction. Préambule. Le contexte Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments

Plus en détail

Séance 10 : Analyse factorielle des correspondances

Séance 10 : Analyse factorielle des correspondances Séance 10 : Analyse factorielle des correspondances Sommaire Proc CORRESP : Analyse de tableaux d effectifs... 2 Exemple 1 :... 6 L analyse en composantes principales traite des variables quantitatives.

Plus en détail

CH1 : Introduction à l Analyse Des Données (ADD) B- Les données et leurs caractéristiques C- Grandeurs associées aux données

CH1 : Introduction à l Analyse Des Données (ADD) B- Les données et leurs caractéristiques C- Grandeurs associées aux données CH1 : Introduction à l Analyse Des Données (ADD) A- Introduction A- Introduction B- Les données et leurs caractéristiques C- Grandeurs associées aux données A-1 Les méthodes Lors de toute étude statistique,

Plus en détail

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC)

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC) L3 Géographie UE Méthodologie Statistiques COURS 1 Salle 125 Intervenants : Nadège Martiny & Julien Crétat UFR Sciences Humaines (Département de Géographie) UMR Centre de Recherches de Climatologie (CRC)

Plus en détail

Les macros SAS. d'analyse des données

Les macros SAS. d'analyse des données INSTITUT NATIONAL DE LA STATISTIQUE ET DES ÉTUDES ÉCONOMIQUES DIRECTION GÉNÉRALE 18, boulevard Adolphe Pinard - 75675 PARIS CEDEX 14 Les macros SAS d'analyse des données Document n F 9405 15 mars 1994

Plus en détail

Analyse des données Master Statistique et économétrie Notes de cours. V. Monbet

Analyse des données Master Statistique et économétrie Notes de cours. V. Monbet Analyse des données Master Statistique et économétrie Notes de cours V. Monbet Master 1-2013-2014 Table des matières 1 Introduction 5 2 Rappels et compléments d algèbre linéaire Décompositions de matrices

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Université de Rennes 2 Statistiques des données M1-GEO Ouvrages recommandés Analyse en composantes principales Ces livres sont à la BU. Pour les acheter, venir au bureau A-240 ou envoyer un mail : nicolas.jegou@uhb.fr

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr1103 Initiation à l analyse en composantes principales A.B. Dufour & D. Clot Une première approche très intuitive et interactive de l ACP. Table des matières 1 Introduction

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.

Plus en détail

PAD - Notes de cours. S. Rigal, D. Ruiz, et J. C. Satgé

PAD - Notes de cours. S. Rigal, D. Ruiz, et J. C. Satgé ALGÈBRE PAD - Notes de cours S. Rigal, D. Ruiz, et J. C. Satgé November 23, 2006 Table des Matières Espaces vectoriels Applications linéaires - Espaces vectoriels............................... 3 -. Approche

Plus en détail

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R? Analyses multivariées avec R Commander Analyses multivariées avec R Commander (via le package FactoMineR) Plate-forme de Support en Méthodologie et Calcul Statistique (SMCS) - UCL 1 Introduction à R 2

Plus en détail

Analyse des Données. Travaux Pratiques 3

Analyse des Données. Travaux Pratiques 3 Analyse des Données Travaux Pratiques 3 1 Introduction Ce TP sera consacré aux analyses factorielles. La première partie présentera un exemple réel (et poussé) d une analyse factorielle des correspondances

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Analyse en Composantes Principales (ACP)

Analyse en Composantes Principales (ACP) 1 Analyse en Composantes Principales (ACP) Analyse en Composantes Principales (ACP) Résumé Méthode factorielle de réduction de dimension pour l exploration statistique de données quantitatives complexes

Plus en détail

Data mining 1. Exploration Statistique

Data mining 1. Exploration Statistique PUBLICATIONS DU LABORATOIRE DE STATISTIQUE ET PROBABILITÉS Data mining 1 Exploration Statistique ALAIN BACCINI & PHILIPPE BESSE Version septembre 2004 mises à jour : wwwlspups-tlsefr/besse Laboratoire

Plus en détail

en utilisant un point-virgule.

en utilisant un point-virgule. 6 Chapitre Chapitre 6. Géométrie analytique Ce chapitre présente les possibilités de votre calculatrice dans le domaine de la géométrie analytique, tout particulièrement pour les problèmes liés aux espaces

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET EXEMPLE D APPLICATION Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus, 35042 Rennes cedex email : pages@agrorennes.educagri.fr Résumé

Plus en détail

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple

Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple Analyse simultanée de variables quantitatives et qualitatives à l aide de l analyse factorielle multiple Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus France Analyse Factorielle Multiple

Plus en détail

CHAPITRE V. de U U dans Hom(F, F ) est de classe C. b dans Hom(F,F ) est de classe C, l application b b. de U U

CHAPITRE V. de U U dans Hom(F, F ) est de classe C. b dans Hom(F,F ) est de classe C, l application b b. de U U CHAPITRE V FIBRÉS VECTORIELS 1. Fibrés vectoriels 1. Cartes et atlas vectoriels Soit B une variété différentielle. Considérons un B -ensemble, c est à-dire un ensemble M muni d une application p : M B.

Plus en détail

Formulaire de maths Algèbre linéaire et multilinéaire

Formulaire de maths Algèbre linéaire et multilinéaire Formulaire de maths Algèbre linéaire et multilinéaire Nom Formule Espaces vectoriels Famille libre On dit que la famille est libre si Famille liée On dit que la famille est liée si Théorème de la base

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus²

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Développement Parc Altaïs 74650 CHAVANOD Tél : 33 / 4.50.69.82.98. Fax : 33 / 4.50.69.82.78.

Plus en détail

2. MATRICES ET APPLICATIONS LINÉAIRES

2. MATRICES ET APPLICATIONS LINÉAIRES 2. MATRICES ET APPLICATIONS LINÉAIRES 2.1 Définition Une matrice n m est un tableau rectangulaire de nombres (réels en général) à n lignes et m colonnes ; n et m sont les dimensions de la matrice. Notation.

Plus en détail

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN Pôle Informatique de Recherche et d Enseignement en Histoire ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN A. PREMIER PAS 1. INTEGRATION DU TABLEAU

Plus en détail

UNE INTRODUCTION A L'ANALYSE FACTORIELLE DES CORRESPONDANCES AVEC. SPSS pour Windows. Dominique Desbois

UNE INTRODUCTION A L'ANALYSE FACTORIELLE DES CORRESPONDANCES AVEC. SPSS pour Windows. Dominique Desbois 61 UNE INTRODUCTION A L'ANALYSE FACTORIELLE DES CORRESPONDANCES AVEC SPSS pour Windows Dominique Desbois INRA-ESR Nancy et SCEES 4 avenue de Saint-Mandé, 75570 Paris Cedex 1 Fax : +33 1 49 55 85 00 E-mail

Plus en détail

Cours Diagonalisation

Cours Diagonalisation Cours Diagonalisation par Pierre Veuillez 1 Objectif Pour une matrice A donnée, déterminer une matrice D diagonale et une matrice P inversible telle que A = P D P 1. Interprètation : Quelle relation reconnaît-on?

Plus en détail

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercice : la frontière des portefeuilles optimaux sans actif certain Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué

Plus en détail

Applications Bilinéaires et Formes Quadratiques

Applications Bilinéaires et Formes Quadratiques Ce cours peut être librement copié et distribué. Il est recommandé d en télécharger la version la plus récente à partir de : http://www.math.jussieu.fr/~alp. Toute remarque, correction ou suggestion doit

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Analyse factorielle des correspondances de Benzécri

Analyse factorielle des correspondances de Benzécri Analyse factorielle des correspondances de Benzécri One Pager Décembre 2013 Vol. 8 Num. 011 Copyright Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration

Plus en détail

133: endomorphismes remarquables d'un espace vectoriel euclidien de dimension nie

133: endomorphismes remarquables d'un espace vectoriel euclidien de dimension nie 133: endomorphismes remarquables d'un espace vectoriel euclidien de dimension nie Pierre Lissy March 8, 2010 On considère un espace vectoriel euclidien de dimension nie n, le produit scalaire sera noté

Plus en détail

Aide - mémoire de statistique appliquée à la biologie

Aide - mémoire de statistique appliquée à la biologie Aide - mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Maxime HERVE 3 ème version 2011 (1 ère version 2010) Avant-propos Lors de mon

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

Quelques manipulations avec R et utilisation de la «librairie» IPErad (version avril 2010)

Quelques manipulations avec R et utilisation de la «librairie» IPErad (version avril 2010) Quelques manipulations avec R et utilisation de la «librairie» IPErad (version avril 2010) Ce document constitue une brève introduction à l utilisation de R. Elle rassemble des éléments épars présentés

Plus en détail

ISFA 2 année 2002-2003. Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

ISFA 2 année 2002-2003. Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses. On considère la matrice de données : ISFA 2 année 22-23 Les questions sont en grande partie indépendantes Merci d utiliser l espace imparti pour vos réponses > ele JCVGE FM1 GM JCRB FM2 JMLP Paris 61 29

Plus en détail

Cours 5: Exemples d application www.enseeiht.fr/~gergaud/teaching

Cours 5: Exemples d application www.enseeiht.fr/~gergaud/teaching Cours 5: Exemples d application www.enseeiht.fr/~gergaud/teaching Joseph Gergaud 30 novembre 5 Exemples d application 1/ 25 1 Inertie Variables Individus Calculs 2 ACP Variables nominales supplémentaires

Plus en détail

Analyses statistiques multivariées. Béatrice de Tilière

Analyses statistiques multivariées. Béatrice de Tilière Analyses statistiques multivariées Béatrice de Tilière 23 novembre 2009 ii Table des matières 1 La Statistique 1 1.1 Généralités.................................. 1 1.2 Un peu de vocabulaire............................

Plus en détail

Programme de mathématiques TSI1

Programme de mathématiques TSI1 Programme de mathématiques TSI1 1. PROGRAMME DE DÉBUT D ANNÉE I. Nombres complexes et géométrie élémentaire 1. Nombres complexes 1 2. Géométrie élémentaire du plan 3 3. Géométrie élémentaire de l espace

Plus en détail

Travaux dirigés avec SAGE (partie III)

Travaux dirigés avec SAGE (partie III) Math 3 Année 2010-2011 Sommaire 1 Vecteurs et matrices 2 1.1 Construction, opérations élémentaires............................. 2 1.1.1 Vecteurs.......................................... 2 1.1.2 Matrices..........................................

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Projection orthogonale sur une droite du plan, projection vectorielle associée. Applications (calculs de distances et d angles, optimisation )

Projection orthogonale sur une droite du plan, projection vectorielle associée. Applications (calculs de distances et d angles, optimisation ) Projection orthogonale sur une droite du plan, projection vectorielle associée. Applications (calculs de distances et d angles, optimisation ) Introduction : On se place dans plan affine euclidien muni

Plus en détail

Chapitre 3 RÉGRESSION ET CORRÉLATION

Chapitre 3 RÉGRESSION ET CORRÉLATION Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 3 RÉGRESSION ET CORRÉLATION La corrélation est une notion couramment utilisée dans toutes les applications

Plus en détail

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Année 2008/2009 1 Décomposition QR On rappelle que la multiplication avec une matrice unitaire Q C n n (c est-à-dire Q 1 = Q = Q T ) ne change

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : économique et commerciale Option : Scientifique (ECS) Discipline : Mathématiques- Informatique Seconde année Ministère de l enseignement

Plus en détail

PC* Devoir 6: Corrigé 2011 2012. Partie I : Généralités

PC* Devoir 6: Corrigé 2011 2012. Partie I : Généralités PC* Devoir 6: Corrigé 20 202 Partie I : Généralités I.A - Questions préliminaires a b c I.A.) M S M = b l m avec (a, b, c, l, m, t) R 6. c m t Les éléments de S sont les matrices de la forme : M = ae +

Plus en détail

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM Emmanuel Rachelson and Matthieu Vignes 9 octobre 2013, SupAero - ISAE 1 Présidentielles 2008 - AFC Récupérer les données,

Plus en détail

Courte initiation à R

Courte initiation à R Courte initiation à R Data science Master 2 ISIDIS Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/~verel Université du Littoral Côte d Opale Laboratoire LISIC Equipe OSMOSE

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

HENRI ROUDIER ALGEBRE LINEAIRE COURS & EXERCICES CAPES &AGRÉGATION INTERNES & EXTERNES DEUXIÈME ÉDITION REVUE &.AUGMENTÉE VUIBERT

HENRI ROUDIER ALGEBRE LINEAIRE COURS & EXERCICES CAPES &AGRÉGATION INTERNES & EXTERNES DEUXIÈME ÉDITION REVUE &.AUGMENTÉE VUIBERT HENRI ROUDIER ALGEBRE LINEAIRE COURS & EXERCICES CAPES &AGRÉGATION INTERNES & EXTERNES DEUXIÈME ÉDITION REVUE &.AUGMENTÉE VUIBERT Table analytique des matières 1. La structure d'espace vectoriel 1. Espaces

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

La régression logistique PLS

La régression logistique PLS La régression logistique PLS Michel Tenenhaus Groupe HEC, 78351 Jouy-en-Josas 1 Introduction La régression PLS permet de relier une ou plusieurs variables de réponse y àun ensemble de variables prédictives

Plus en détail

Analyse de données fonctionnelles avec le paquet fda

Analyse de données fonctionnelles avec le paquet fda Analyse de données fonctionnelles avec le paquet fda Christophe Pouzat Jeudi 29 mars 2012 Outline Introduction Des données brutes aux fonctions Analyse de l échantillon de fonctions Sommaire Introduction

Plus en détail

Feuilles de TD du cours d Algèbre S4

Feuilles de TD du cours d Algèbre S4 Université Paris I, Panthéon - Sorbonne Licence M.A.S.S. 203-204 Feuilles de TD du cours d Algèbre S4 Jean-Marc Bardet (Université Paris, SAMM) Email: bardet@univ-paris.fr Page oueb: http://samm.univ-paris.fr/-jean-marc-bardet-

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

Analyse des données et algèbre linéaire

Analyse des données et algèbre linéaire Analyse des données et algèbre linéaire Fondamentaux pour le Big Data c Télécom ParisTech 1/15 Machine-Learning : Une donnée x i = un ensemble de features (caractères) d un individu i x i = (x i,1,...,

Plus en détail

MAP 553 Apprentissage statistique

MAP 553 Apprentissage statistique MAP 553 Apprentissage statistique Université Paris Sud et Ecole Polytechnique http://www.cmap.polytechnique.fr/~giraud/map553/map553.html PC1 1/39 Apprentissage? 2/39 Apprentissage? L apprentissage au

Plus en détail

2.1.1 Sélectionner les variables... 10

2.1.1 Sélectionner les variables... 10 Web'Stat est le dernier né des logiciels Sphinx. Entièrement en ligne, il propose un panel complet d'outils d'analyses statistiques avancées : équations structurelles, classifications hiérarchiques, régressions

Plus en détail

Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional

Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional Enseignant : As. Pr. Marie-Noelle Duquenne I. Les Méthodes factorielles La question traitée dans ce document porte

Plus en détail

3. ACM Analyse des Correspondances Multiples

3. ACM Analyse des Correspondances Multiples 3. ACM Analyse des Correspondances Multiples Analyse des Correspondances Multiples - ACM 1 Plan 1. Exemples, problématique 2. Le tableau de données étudié 3. Principe d une ACM 4. L ajustement des deux

Plus en détail

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres VOITURE: On étudie 6 différents paramètres mécaniques (les variables), exprimées dans des unités différentes, de 24 modèles de voitures (les individus). Modèle Cylindre Puissance Vitesse Poids Longueur

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Année 2011-2012. Biostatistiques. Rappels de cours et travaux dirigés. Analyse des données M2. jean-marc.labatte@univ-angers.

Année 2011-2012. Biostatistiques. Rappels de cours et travaux dirigés. Analyse des données M2. jean-marc.labatte@univ-angers. Année 2011-2012 Biostatistiques Rappels de cours et travaux dirigés Analyse des données M2 auteur : Jean-Marc Labatte jean-marc.labatte@univ-angers.fr - 1 - Table des matières SOMMAIRE VIII ANALYSE EN

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

WEKA, un logiciel libre d apprentissage et de data mining

WEKA, un logiciel libre d apprentissage et de data mining WEKA, un logiciel libre d apprentissage et de data mining Yves Lechevallier INRIA-Rocquencourt Présentation de WEKA 3.4 Format ARFF WEKA Explorer WEKA Experiment Environment WEKA KnowledgeFlow E_mail :

Plus en détail

Plateforme. Analyse statistique des données d expression ROBERT-GRANIÉ 3 & MAGALI SAN CRISTOBAL 4

Plateforme. Analyse statistique des données d expression ROBERT-GRANIÉ 3 & MAGALI SAN CRISTOBAL 4 Plateforme BioStatistique Analyse statistique des données biologiques à haut débit. Développement de méthodologies adaptées. Accompagnement au montage de projets. Formation au traitement et à l analyse

Plus en détail

Individus et informations supplémentaires

Individus et informations supplémentaires ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter

Plus en détail

Analyse Statistique et Introduction aux bases de données

Analyse Statistique et Introduction aux bases de données Centre National d Etudes Agronomiques des Régions Chaudes Analyse Statistique et Introduction aux bases de données Mastère Développement Agricole Tropical Année 2003-2004, UV : DAT 104 Stéphanie Laffont

Plus en détail

6.11 Bases de Lanczos bi-orthogonales pour des matrices non symétriques

6.11 Bases de Lanczos bi-orthogonales pour des matrices non symétriques Chapitre 6 Méthodes de Krylov 611 Bases de Lanczos bi-orthogonales pour des matrices non symétriques Dans le cas où la matrice A n est pas symétrique, comment peut-on retrouver une matrice de corrélation

Plus en détail

Introduction à l analyse des correspondances et à la classification

Introduction à l analyse des correspondances et à la classification Introduction à l analyse des correspondances et à la classification Bertrand Iooss Véronique Verrier EDF R&D Département Management des Risques Industriels Cours IUP SID Toulouse - M1-17/10/2011 14/10/2011

Plus en détail

Partie 1 : Étude des caractéristiques d un ensemble d hôtels

Partie 1 : Étude des caractéristiques d un ensemble d hôtels Analyse de données M1 Statistique et économétrie - 2012 V. Monbet Classification Partie 1 : Étude des caractéristiques d un ensemble d hôtels Le fichier hotels.csv contient des caractéristiques liées au

Plus en détail