CH1 : Introduction à l Analyse Des Données (ADD) B- Les données et leurs caractéristiques C- Grandeurs associées aux données

Documents pareils

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L information sera transmise selon des signaux de nature et de fréquences différentes (sons, ultrasons, électromagnétiques, électriques).

1 Complément sur la projection du nuage des individus

dénombrement, loi binomiale

Analyse en Composantes Principales

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

La classification automatique de données quantitatives

Module : réponse d un système linéaire

S2I 1. quartz circuit de commande. Figure 1. Engrenage

Logiciel XLSTAT version rue Damrémont PARIS

Des familles de deux enfants

Accès optiques : la nouvelle montée en débit

Santé et hygiène bucco-dentaire des salariés de la RATP

Extraction d informations stratégiques par Analyse en Composantes Principales

Exercice : la frontière des portefeuilles optimaux sans actif certain

Introduction à l approche bootstrap

Cours 02 : Problème général de la programmation linéaire

Introduction. Préambule. Le contexte

Relation entre deux variables : estimation de la corrélation linéaire

prix par consommateur identiques différents prix par identiques classique 3 unité différents 2 1

Un modèle de composition automatique et distribuée de services web par planification

Chapitre 3. Les distributions à deux variables

Kit de dépistage et de déclaration du virus Ebola (CARE)

ACP Voitures 1- Méthode

Les marchés du crédit dans les PVD

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Manuel de l'utilisateur

DIVERSIFICATION DES ACTIVITES ET PRIVATISATION DES ENTREPRISES DE CHEMIN DE FER : ENSEIGNEMENTS DES EXEMPLES JAPONAIS

En vue de l'obtention du. Présentée et soutenue par Philippe NERISSON Le 5 février 2009

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

FORMULAIRE DE STATISTIQUES

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Aide-mémoire de statistique appliquée à la biologie

L'analyse des données à l usage des non mathématiciens

Programmation linéaire

Sous le feu des questions

INF6304 Interfaces Intelligentes

Chambre Régionale de Métiers et de l Artisanat. Région Auvergne. Région Auvergne

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Leçon N 4 : Statistiques à deux variables

Évaluation de la régression bornée

VOIP. Pr MOUGHIT Mohamed Cours VOIP Pr MOUGHIT Mohamed 1

STATISTIQUES. UE Modélisation pour la biologie

Enjeux mathématiques et Statistiques du Big Data

Procès - Verbal du Conseil Municipal Du lundi 15 décembre 2014

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

TABLE DES MATIERES. C Exercices complémentaires 42

Découvrez les bâtiments* modulaires démontables

TP : Outils de simulation. March 13, 2015

Fonctions de plusieurs variables

NFE107 Urbanisation et architecture des systèmes d information. Juin «La virtualisation» CNAM Lille. Auditeur BAULE.L 1

Avant-après, amont-aval : les couples de tableaux totalement appariés

Guide d utilisation (Version canadienne) Téléphone sans fil DECT 6.0/ avec répondeur et afficheur/ afficheur de l appel en attente CL83101/CL83201/

«INVESTIR SUR LE MARCHE INERNATIONAL DES ACTIONS A-T-IL PLUS D EFFET SUR LA PERSISTANCE DE LA PERFORMANCE DES FONDS? ILLUSTRATION BRITANNIQUE»

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Initiation à l analyse en composantes principales

Méthodologie version 1, juillet 2006

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Catalogue 3 Chaine sur Mesure

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

Exercices Corrigés Premières notions sur les espaces vectoriels

Scénario: Données bancaires et segmentation de clientèle

Commande prédictive des systèmes non linéaires dynamiques

David Trick, David Trick and Associates

Compression scalable d'images vidéo par ondelettes 2D+t

Programmes des classes préparatoires aux Grandes Ecoles

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Projet Matlab : un logiciel de cryptage

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

données en connaissance et en actions?

FONCTION DE DEMANDE : REVENU ET PRIX

VI. Tests non paramétriques sur un échantillon

Cours d électricité. Circuits électriques en courant constant. Mathieu Bardoux. 1 re année

Cours de méthodes de scoring

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Théorie et codage de l information

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Simulation de variables aléatoires

I. Polynômes de Tchebychev

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Bois. P.21 Bois-béton à Paris. Carrefour du Bois. Saturateurs. Usinage fenêtres. Bardages P.25 P.34 P.31 P.37. La revue de l activité Bois en France

Individus et informations supplémentaires

Analyse des correspondances avec colonne de référence

Chap III : Les tableaux

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

Cours d analyse numérique SMI-S4

Chapitre 2. Matrices

INTRODUCTION AU DATA MINING

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Documents et lieux de mémoire de la persécution et de la déportation des Juifs à Nîmes. Pistes d'intervention auprès des classes de 3e et de 1ère.

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Théorie des sondages : cours 5

PROBABILITES ET STATISTIQUE I&II

.NET remoting. Plan. Principes de.net Remoting

Vous êtes un prestataire touristique dans les Monts de Guéret? L Office de Tourisme du Grand Guéret peut vous accompagner!

Introduction au Data-Mining

Transcription:

CH1 : Introduction à l Analyse Des Données (ADD) A- Introduction A- Introduction B- Les données et leurs caractéristiques C- Grandeurs associées aux données

A-1 Les méthodes Lors de toute étude statistique, il est nécessaire de décrire et exlorer les données avant d en tirer de quelconques lois ou modèles rédictifs. Dans beaucou de situations, les données sont tro nombreuses our ouvoir être visualisables (nombre de caractéristiques tro élevées) Il est alors nécessaire d extraire l information ertinente qu elles contiennent ; Les techniques d ADD réondent à ce besoin.

A -1 Les méthodes ADD = ensemble de méthodes descritives ayant our objectif de résumer et visualiser l information ertinente contenue dans un grand tableau de données

A -1 Les méthodes Trois grandes familles de méthodes: Objectif Variables quanti Variables quali/mixtes Reérer et visualiser les Analyse en Analyse factorielle des corrélations multiles entre variables et/ou les ressemblances entre individus comosantes rinciales (ACP) corresondances (AFC AFCM) Réaliser une tyologie des individus Caractériser de groues d individus à l aide de variables Methodes de classification (CAH,..) Analyse discriminante (AFD,..) AFC ou AFCM et classification Analyse discriminante (AFD,..)

A-2 Exemles

A-2 Exemles ACP: Deux grandes tendances : L axe 1 distingue les états de Floride, Colorado, Arizona, Californie, Maryland caractérisés ar un fort taux de délits en tous genres aux autres états. L axe 2 est un axe de gravité des délits : s oosent les états ayant un fort taux de délits mineurs (Colorado, Arizona) aux états concernés ar des délits majeurs (Alabama, Louisiane).

A-2 Exemles Classification On distingue 4 groues d états : le groue vert, caractérisé ar un taux de délits en tous genres inférieur à la moyenne Le groue bleu caractérisé ar un taux de délits en tous genres suérieur à la moyenne Le groue noir caractérisé ar un taux de délits graves suérieur à la moyenne Le groue rouge caractérisé ar un taux de délits mineurs suérieur à la moyenne delits mineurs -----delits majeurs -2-1 0 1 2 rerésentation dans les axes d'une ACP(rogramme3) Louisiana Alabama Georgia Kentucky Arkansas Alaska Illinois Maryland California Indiana Florida Kansas Idaho Connecticut Maine Iow a Colorado Delaw are Arizona Haw aii -3-2 -1 0 1 2 3 forte criminalite ---- faible criminalite

A-2- Exemles

A-2 Exemles (ACP sous statistica)

Analyse discriminante A-2 Exemles 3 groues de ersonnes reérées ar 4 variables : age revenu atrimoine emrunt LD2-4 -2 0 2 4 Jeunes 2 2 2 3 3 3 3 1 1 1 ages -4-2 0 2 4 Gros atrimoines emrunt eleve LD1

A-2 Exemles Le groue 1 est un groue de gens assez jeunes à revenus lus faibles que la moyenne dont le atrimoine est nettement lus faible que dans les autres classes et le taux d emrunt lus élevé que la moyenne Le groue 2 est caractérisé ar des gens jeunes de revenus moyens, mais dont le atrimoine est très imortant et le taux d emrunt très faible Le groue 3 est caractérisé ar des gens lus agés de revenus confortables et de atrimoine assez imortant, ayant un taux d emrunt lus élevé que dans les autres classes

B 1 Tableau individu*variables On observe caractéristiques e,..., e,... e 1 i n X,... X 1 quantitatives sur n individus On note x ij la valeur de la variable X observée sur l individu e j i Individu e1 e2 X 1 X 2 x 11 x 12 x 21 x 22 X x 1 j j x 2 j X x 1 x 2 ei x i1 x i2 x ij x i en x n1 x n2 x nj x n

B 1 Tableau individu*variables Le tableau eut être mis sous forme matricielle X = x x... x... x 11 12 1 j 1 x 21 x 22... x 2 j... x 2.................. x i1 x i2... x ij... x i.................. x x... x... x n1 n2 nj n

B 1 Tableau individu*variables Chaque individu est décrit ar variables, formant un vecteur de dimension, aelé vecteur individu. x i 1... e = x R i ij... x i

B 1 Tableau individu*variables Chaque variable eut être rerésentée ar un vecteur de dimension n, aelé vecteur variable, corresondant aux valeurs rises ar cette variable sur les n individus. x 1 j... x = x R j ij n... x nj

B 1 Les données: tableau individu*variables

B.2- Matrice des oids associés aux individus Les données euvent être ondérées : Le oids attribué à chaque individu exrime l imortance que l on désire lui accorder dans l étude (rerésentativité de l échantillon étudié dans la oulation) : 0 0 0 0 1 0 1, i = 1,... n i 0... 0 0 0 n P = 0 0 0 0 i = 1 i i = 1 0 0 0... 0 0 0 0 0 Généralement P = 1 n I n (même oids our tous les individus) n

B-3 Nuages de oints Ils ermettent de visualiser les liens entre les variables ou les ressemblances/dissemblances entre individus contenus dans le tableau de données X. Nuage des oints-individus = coordonnées des n vecteurs individus e dans le reère de R dont les axes sont les variables du tableau. e ' x,..,... i i1 x ij x = i Nuage des oints-variables = coordonnées des vecteurs variables dans le reère de R n dont les axes sont déterminés ar les n individus. X = [ x,...,,... ]' j 1j x ij x nj e i X j

B-3 Nuages de oints On disose de 6 variables rerésentant les taux de différents délits commis our 100000 habitants dans 20 Etats des Etats-unis. Ces données euvent être mises dans un tableau individu*variable ETAT Meurtre Rat vol attaque viol larcin Alabama 14.2 25.2 96.8 278.3 1135.5 1881.9 Alaska 10.8 51.6 96.8 284.0 1331.7 3369.8 Arizona 9.5 34.2 138.2 312.3 2346.1 4467.4 Arkansas 8.8 27.6 83.2 203.4 972.6 1862.1 California 11.5 49.4 287.0 358.0 2139.4 3499.8 Colorado 6.3 42.0 170.7 292.9 1935.2 3903.2 Connecticut 4.2 16.8 129.5 131.8 1346.0 2620.7 Delaware 6.0 24.9 157.0 194.2 1682.6 3678.4 Florida 10.2 39.6 187.9 449.1 1859.9 3840.5 Georgia 11.7 31.1 140.5 256.5 1351.1 2170.2 Hawaii 7.2 25.5 128.0 64.1 1911.5 3920.4 Idaho 5.5 19.4 39.6 172.5 1050.8 2599.6 Illinois 9.9 21.8 211.3 209.0 1085.0 2828.5 Indiana 7.4 26.5 123.2 153.5 1086.2 2498.7 Iowa 2.3 10.6 41.2 89.8 812.5 2685.1 Kansas 6.6 22.0 100.7 180.5 1270.4 2739.3 Kentucky 10.1 19.1 81.1 123.3 872.2 1662.1 Louisiana 15.5 30.9 142.9 335.5 1165.5 2469.9 Maine 2.4 13.5 38.7 170.0 1253.1 2350.7 Maryland 8.0 34.8 292.1 358.9 1400.0 3177.7

B-3 Nuages de oints Les n individus forment un nuage de oints dans le sous-esace de défini ar les variables, aelé nuage des oints-individus R nuage des oints-individus 60 rat 40 20 0 0 5 10 15 20 meurtre Le taux de meurtre et le taux de rat sont corrélés ositivement, ce qui signifie que les états où il y a beaucou de meurtres sont généralement des états où il y a beaucou de rat, et inversement.

B-3 Nuages de oints Les variables forment un nuage de oints dans le sous-esace de défini ar les individus, aelé nuage des oints-variables. alaska 3 6 0 0 3 4 0 0 3 2 0 0 3 0 0 0 2 8 0 0 2 6 0 0 2 4 0 0 2 2 0 0 2 0 0 0 18 0 0 16 0 0 14 0 0 12 0 0 10 0 0 8 0 0 6 0 0 4 0 0 2 0 0 0 Nuage de s o ints -variable s our le table au ré duit à de ux individus meutre rat vol attaque viol lar cin 0 500 10 0 0 150 0 2 0 00 alabam a R n on eut comarer ar raort à la remière bissectrice les valeurs rises ar les variables sur les différents individus afin d identifier des individus roches en terme de valeurs rises ar les variables. Ainsi, l Alaska se distingue ar un nombre relativement imortant de larcins.

B-4 Centre de gravité Le centre de gravité du nuage de oints individus G caractérise la osition globale de nuage (individu) dans le reère défini ar les variables. C est le oint autour duquel «gravitent» les individus du nuage. x 1 x n G 2 x = x = j i 1... = i ij x Au lus G est loin de l origine, au moins le nuage est centré. RQ : lorsque les oids sont égaux, G est le vecteur des moyennes.

B-4 Centre de gravité nuage des oints-individus 60 rat 40 20 0 0 5 10 15 20 meurtre

B-4 Centre de gravité Centre de gravité du tableau des rotéine >mean(roteine) VR VB Oeufs Lait Poisson Céréales Amidon Noix FL 9.828 7.896 2.936 17.112 4.284 32.248 4.276 3.072 4.136

B-5 Inertie V = Var( X ) Cov( X, X )... Cov( X, X )... Cov( X, X ) 1 1 2 1 j 1 Cov( X, X ) Var( X )... Cov( X, X )... Cov( X, X ) 1 2 2 2 j 2.................. Cov( X, X ) Cov( X, X )... Var( X )... Cov( X, X ) 1 j 2 j j j.................. Cov( X, X ) (, )... (, )... ( ) 1 Cov X X Cov X X Var X 2 j

B-5 Inertie On eut définir une distance ou éloignement entre individus : e e ² = ( x x )² j=1 = 1 ij kj d²( e, e ) = = ( e e )'( e e ) i k i k i k i k Alication : Eloignement d un oint du nuage ar raort au centre de gravité : d²( e, G) = ( x x )² i j = 1 ij j

B-5 Inertie Inertie du nuage de oints ar raort à son centre de gravité = somme ondérée des éloignements au centre de gravité n I = d ²( e, G ) = j = i = 1 i i j= 1 = Var ( X ) = Tr ( V ) I caractérise la disersion ou la forme du nuage ar raort à son centre. : au lus I est élevée, au lus le nuage est disersé autour de son centre de gravité. Une inertie nulle signifie que tous les individus sont identiques. Lorsque les variables sont centrées et réduites I= L inertie mesure la quantité d information contenue dans X

B-5 Inertie > cov=cov(crime2) > c=as.matrix(cov); c Meutre Rat Vol Attaque Viol Larcin Meutre 14.95190 25.01378 165.2459 251.4141 645.1653 286.0809 Rat 25.01378 115.76964 562.6393 798.5073 3313.5864 4795.5602 Vol 165.24587 562.63926 7805.4693 4934.1608 24347.0033 28650.7691 Attaque 251.41408 798.50735 4934.1608 10050.6739 27006.2014 29427.3639 Viol 645.16533 3313.58639 24347.0033 27006.2014 187017.9416 248665.3015 Larcin 286.08095 4795.56021 28650.7691 29427.3639 248665.3015 526943.4505 > I=sum(diag(c));I [1] 731948.3

C-1 Tableau centré associé à X Centrage : ermet de ramener toutes les colonnes de X a la même origine, zero: x x x ij ij j Matrice centrée : Xc = X EG' x x x x... x x... x 11 1 12 2 1 1 x j j x x x x... x x... x x 21 1 22 2 2 j j 2.................. X c = x x x x... x x... x x i1 1 i2 2 ij j i.................. x x x... x x... x x n1 x n2 2 nj j n 1

C-2 Tableau centré-réduit associé à X Réduction = ramener toutes les variables à une même origine 0 et un même écart-tye 1. x x Centrage + réduction = x ij j ij σ ( X ) j Xr = X D 1 c s D s = σ ( X ) 1 0 0 0 0 0... 0 0 0 0 0 σ ( X j ) 0 0 0 0 0... 0 0 0 0 0 σ ( X )

C-2 Tableau centré-réduit associé à X x x x x x x x x 11 1 12 2... 1j j... 1 σ ( X ) σ ( X ) σ ( X ) σ ( X ) 1 2 j x x x x x x x x 21 1 22 2... 2 j j... 2 σ ( X ) σ ( X ) σ ( X ) σ ( X ) 1 2 j.................. X r = x x x x x x x x i1 1 i2 2... ij j... i σ ( X ) σ ( X ) σ ( X ) σ ( X ) 1 2 j.................. x x n1 1 σ ( X ) 1 x x x x 2 2... nj j x... n x n σ ( X ) σ ( X ) σ ( X ) 2 j

C-2 Tableau centré-réduit associé à X > crimer=scale(crime2)*sqrt(20/19); round(crimer, digit=3) Meutre Rat Vol Attaque Viol Larcin Alabama 1.793-0.051-0.317 0.686-0.371-1.116 Alaska 0.890 2.466-0.317 0.744 0.094 0.987 Arizona 0.546 0.807 0.164 1.034 2.501 2.539 Arkansas 0.360 0.178-0.475-0.081-0.758-1.144 California 1.076 2.257 1.892 1.501 2.011 1.171 Colorado -0.304 1.551 0.541 0.835 1.526 1.741 Connecticut -0.861-0.852 0.063-0.814 0.128-0.071

C-2 Tableau centré-réduit associé à X données initiales 14 12 10 8 6 4 2 0 0 1 2 3 4 5 données centrées données centrées réduites 2 1,5 1 0,5 0-0,5 0 1 2 3 4 5-1 -1,5-2 8 6 4 2 0 0-2 0,5 1 1,5 2 2,5 3 3,5 4 4,5-4 -6

C-3 Matrice de variance-covariance associée à X V = Var( X ) Cov( X, X )... Cov( X, X )... Cov( X, X ) 1 1 2 1 j 1 Cov( X, X ) Var( X )... Cov( X, X )... Cov( X, X ) 1 2 2 2 j 2.................. Cov( X, X ) Cov( X, X )... Var( X )... Cov( X, X ) 1 j 2 j j j.................. Cov( X, X ) (, )... (, )... ( ) 1 Cov X X Cov X X Var X 2 j V = X ' cpxc cov( X n, X ) = ( )( ) c ' c j l i xij x j xil xl = X PX j l i= 1 Var( X ) = cov( X, X ); σ ( X ) = Var( X ) j j j j j

C-3 Matrice de corrélation associée à X Le coefficient de corrélation linéaire entre deux variables quantitatives ermet de mesurer le lien linéaire entre ces deux variables: Cov( X, X ) r( X, X ) = j k j k σ ( X ) σ ( X ) j k r( X, X ) = X r ' PX r j k j k r X X, d autant lus grand en valeur absolue que le lien j k linéaire est grand. Nul si absence de lien linéaire. 1 (, ) 1

C-3 Matrice de corrélation associée à X R = 1 r( X1, X 2)... r( X1, X j )... r( X1, X ) r( X1, X 2) 1... r( X 2, X j )... r( X 2, X ).................. r ( X1, X j ) r ( X 2, X j )... 1... r ( X j, X ).................. r( X1, X ) r( X 2, X )... r( X j, X )... 1 R = X ' PX D 1VD 1 r r = s s

C-3 Matrice de corrélation associée à X > cor=cor(crime2) #=cov(crimer) > cor Meutre Rat Vol Attaque Viol Larcin Meutre 1.0000000 0.6012205 0.4837076 0.6485505 0.3858168 0.1019198 Rat 0.6012205 1.0000000 0.5918793 0.7402595 0.7121301 0.6139882 Vol 0.4837076 0.5918793 1.0000000 0.5570782 0.6372420 0.4467399 Attaque 0.6485505 0.7402595 0.5570782 1.0000000 0.6229085 0.4043633 Viol 0.3858168 0.7121301 0.6372420 0.6229085 1.0000000 0.7921210 Larcin 0.1019198 0.6139882 0.4467399 0.4043633 0.7921210 1.0000000

C.4- Ecriture matricielles imortantes Le carré de la P-norme d une variable centrée Xj est sa variance 2 X = X ' PX =σ 2 ( X ) j P j j j Le carré de la P-norme d une variable centrée réduite Xj est égal à 1 Le P-roduit scalaire entre deux variables centrées est leur covariance X, ' j X k = X PX = Cov( X, X ) P j k j k Le P-roduit scalaire entre deux variables centrées réduites est leur coefficient de corrélation X ' PX = r( X, X ) j k j k