Statistique descriptive bidimensionnelle



Documents pareils
SÉRIES STATISTIQUES À DEUX VARIABLES

STATISTIQUE : TESTS D HYPOTHESES

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

EXERCICES : DÉNOMBREMENT

Séquence 5. La fonction logarithme népérien. Sommaire

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

Statistique Numérique et Analyse des Données

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

Initiation à l analyse factorielle des correspondances

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Chapitre 3 : Fonctions d une variable réelle (1)

Module 3 : Inversion de matrices

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Limites des Suites numériques

20. Algorithmique & Mathématiques

1 Mesure et intégrale

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Comportement d'une suite

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Dénombrement. Chapitre Enoncés des exercices

Principes et Méthodes Statistiques

Chapitre 3 : Transistor bipolaire à jonction

Cours de Statistiques inférentielles

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Etude de la fonction ζ de Riemann

Cours 5 : ESTIMATION PONCTUELLE

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Séries réelles ou complexes

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

14 Chapitre 14. Théorème du point fixe

STATISTIQUE AVANCÉE : MÉTHODES

Probabilités et statistique pour le CAPES

UNIVERSITÉ DE SFAX École Supérieure de Commerce

c. Calcul pour une évolution d une proportion entre deux années non consécutives

4 Approximation des fonctions

2 ième partie : MATHÉMATIQUES FINANCIÈRES

Chap. 5 : Les intérêts (Les calculs financiers)

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

Exercices de mathématiques

Processus et martingales en temps continu

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Tableaux Croisés et Diagrammes en Mosaïque : Pour Voir Les Probabilités Marginales et Conditionnelles.

DETERMINANTS. a b et a'

55 - EXEMPLES D UTILISATION DU TABLEUR.

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

CHAPITRE 2 SÉRIES ENTIÈRES

Les Nombres Parfaits.

Université Pierre et Marie Curie. Biostatistique PACES - UE

Suites et séries de fonctions

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Baccalauréat S Asie 19 juin 2014 Corrigé

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

Processus géométrique généralisé et applications en fiabilité

MESURE DE L'INFORMATION

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Chaînes de Markov. Arthur Charpentier

Les algorithmes de tri

Solutions particulières d une équation différentielle...

INTRODUCTION AUX MATRICES ALÉATOIRES. par. Djalil Chafaï

RÈGLES ORDINALES : UNE GÉNÉRALISATION DES RÈGLES D'ASSOCIATION

Terminale S. Terminale S 1 F. Laroche

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Sommaire Chapitre 1 - L interface de Windows 7 9

Gérer les applications

Compte Sélect Banque Manuvie Guide du débutant

GUIDE METHODOLOGIQUE INDUSTRIES, OUVREZ VOS PORTES

Des résultats d irrationalité pour deux fonctions particulières

Échantillonnage et estimation

Formation d un ester à partir d un acide et d un alcool

MUTUELLE D&O MUTUELLE D&O. Copilote de votre santé. AGECFA-Voyageurs CARCEPT CARCEPT-Prévoyance CRC CRIS CRPB-AFB

Les études. Recommandations applicables aux appareils de levage "anciens" dans les ports. Guide Technique

Tests non paramétriques de spécification pour densité conditionnelle : application à des modèles de choix discret

Simulations interactives de convertisseurs en électronique de puissance

Risque de longévité et détermination du besoin en capital : travaux en cours

Le chef d entreprise développe les services funéraires de l entreprise, en

Lorsque la sécurisation des paiements par carte bancaire sur Internet conduit à une concurrence entre les banques et les opérateurs de réseau

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Mécanique non linéaire

Data mining 1. Exploration Statistique

Transcription:

1 Statistique descriptive bidimesioelle Statistique descriptive bidimesioelle Résumé Liaisos etre variables quatitatives (corrélatio et uages de poits), qualitatives (cotigece, mosaïque) et de types différets (rapport de corrélatio) Itroductio au cas multidimesioel Retour au pla 1 Itroductio Das cette sectio, o s itéresse à l étude simultaée de deux variables X et Y, étudiées sur le même échatillo, toujours oté Ω L objectif essetiel des méthodes présetées est de mettre e évidece ue évetuelle variatio simultaée des deux variables, que ous appelleros alors liaiso Das certais cas, cette liaiso peut être cosidérée a priori comme causale, ue variable X expliquat l autre Y ; das d autres, ce est pas le cas, et les deux variables jouet des rôles symétriques Das la pratique, il coviedra de bie différecier les deux situatios et ue liaiso etraîe pas écessairemet ue causalité Sot aisi itroduites les otios de covariace, coefficiet de corrélatio liéaire, régressio liéaire, rapport de corrélatio, idice de cocetratio, khi-deux et autres idicateurs qui lui sot liés De même, ous présetos les graphiques illustrat les liaisos etre variables : uage de poits (scatterplot), diagrammes-boîtes parallèles, diagramme de profils, tableau de uages (scatter-plot matrix) 2 Deux variables quatitatives 21 Nuage de poits Il s agit d u graphique très commode pour représeter les observatios simultaées de deux variables quatitatives Il cosiste à cosidérer deux axes perpediculaires, l axe horizotal représetat la variable X et l axe vertical la variable Y, puis à représeter chaque idividu observé par les coordoées des valeurs observées L esemble de ces poits doe e gééral ue idée as- ACAT1 075 070 065 060 055 055 050 045 040 035 030 X36b4 FIGURE 1 Souris : Nuage de poits illustrat la faible liaiso liéaire etre les expressios de deux gèes (corrélatio de 0,33) sez boe de la variatio cojoite des deux variables et est appelé uage O otera qu o recotre parfois la termiologie de diagramme de dispersio, traductio plus fidèle de l aglais scatter-plot Le choix des échelles à reteir pour réaliser u uage de poits peut s avérer délicat D ue faço géérale, o distiguera le cas de variables homogèes (représetat la même gradeur et exprimées das la même uité) de celui des variables hétérogèes Das le premier cas, o choisira la même échelle sur les deux axes (qui serot doc orthoormés) ; das le secod cas, il est recommadé soit de représeter les variables cetrées et réduites sur des axes orthoormés, soit de choisir des échelles telles que ce soit sesiblemet ces variables là que l o représete (c est e gééral cette secode solutio qu utiliset, de faço automatique, les logiciels statistiques) 22 Rappel : variables cetrées et réduites Si X est ue variable quatitative de moyee x et d écart type σ X, o appelle variable cetrée associée à X la variable X x (elle est de moyee

2 Statistique descriptive bidimesioelle ulle et d écart type σ X ), et variable cetrée et réduite (ou tout simplemet variable réduite) associée à X la variable X x σ X (elle est de moyee ulle et d écart type égal à u) Ue variable cetrée et réduite s exprime sas uité 23 Idice de liaiso Le coefficiet de corrélatio liéaire est u idice redat compte umériquemet de la maière dot les deux variables cosidérées variet simultaémet Il est défii à partir de la covariace qui gééralise à deux variables la otio de variace : cov(x, Y ) = = w i [x i x][y i y] i=1 w i x i y i x y i=1 La covariace est ue forme biliéaire symétrique qui peut predre toute valeur réelle et dot la variace est la forme quadratique associée E particulier, o e déduit les deux formules suivates : var(x + Y ) = var(x) + var(y ) + 2cov(X, Y ), [cov(x, Y )] 2 var(x)var(y ) ; (cette derière propriété est l iégalité de Cauchy-Schwarz) la covariace déped des uités de mesure das lesquelles sot exprimées les variables cosidérées ; e ce ses, ce est pas u idice de liaiso itrisèque C est la raiso pour laquelle o défiit le coefficiet de corrélatio liéaire (appelé coefficiet de Pearso ou de Bravais-Pearso), rapport etre la covariace et le produit des écarts-types : corr(x, Y ) = cov(x, Y ) σ X σ Y Le coefficiet de corrélatio est égal à la covariace des variables cetrées et réduites respectivemet associées à X et Y : corr(x, Y ) = cov( X x σ X, Y y σ Y ) Par coséquet, corr(x, Y ) est idépedat des uités de mesure de X et de Y Le coefficiet de corrélatio est symétrique et pred ses valeurs etre -1 et +1 Les valeurs 1 et +1 correspodet à ue liaiso liéaire parfaite etre X et Y (existece de réels a, b et c tels que : ax + by + c = 0) Notos pour mémoire la possibilité d utiliser d autres idicateurs de liaiso etre variables quatitatives Costruits sur les rags (corrélatio de Spearma) ils sot plus robustes faces à des situatios de o liéarité ou des valeurs atypiques mais restet très réducteurs 3 Ue variable quatitative et ue qualitative 31 Notatios Soit X la variable qualitative cosidérée, supposée à m modalités otées x 1,, x l,, x m et soit Y la variable quatitative de moyee y et de variace σ 2 Y Désigat par Ω l échatillo cosidéré, chaque modalité x l de X défiit ue souspopulatio (u sous-esemble) Ω l de Ω : c est l esemble des idividus, supposés pour simplifier de poids w i = 1/ et sur lesquels o a observé x l ; o obtiet aisi ue partitio de Ω e m classes dot ous oteros 1,, m les cardiaux (avec toujours m l=1 l =, où = card(ω)) Cosidérat alors la restrictio de Y à Ω l (l = 1,, m), o peut défiir la moyee et la variace partielles de Y sur cette sous-populatio ; ous les oteros respectivemet y l et σ 2 l : 32 Boîtes parallèles y l = 1 Y (ω i ) ; l ω i Ω l σl 2 = 1 [Y (ω i ) y l ] 2 l ω i Ω l Ue faço commode de représeter les doées das le cas de l étude simultaée d ue variable quatitative et d ue variable qualitative cosiste à réaliser

3 Statistique descriptive bidimesioelle Le premier terme de la décompositio de σy 2, oté σ2 E, est appelé variace expliquée (par la partitio, c est-à-dire par X) ou variace iter (betwee) ; le secod terme, oté σr 2, est appelé variace résiduelle ou variace itra (withi) 34 Rapport de corrélatio Il s agit d u idice de liaiso etre les deux variables X et Y qui est défii par : s Y/X = σe 2 σy 2 ; FIGURE 2 Baque : Diagrammes-boites illustrat les différeces de distributio des âges e foctio de la possessio d ue carte Visa Premier des diagrammes-boîtes parallèles ; il s agit, sur u même graphique doté d ue échelle uique, de représeter pour Y u diagramme-boîte pour chacue des sous-populatios défiies par X La comparaiso de ces boîtes doe ue idée assez claire de l ifluece de X sur les valeurs de Y, c est-à-dire de la liaiso etre les deux variables 33 Formules de décompositio Ces formules idiquet commet se décomposet la moyee et la variace de Y sur la partitio défiie par X (c est-à-dire commet s écrivet ces caractéristiques e foctio de leurs valeurs partielles) ; elles sot écessaires pour défiir u idice de liaiso etre les deux variables y = 1 σ 2 Y = 1 m l y l ; l=1 m l (y l y) 2 + 1 l=1 m l σl 2 = σe 2 + σr 2 l=1 X et Y état pas de même ature, s Y/X est pas symétrique et vérifie 0 s Y/X 1 Cet ecadremet découle directemet de la formule de décompositio de la variace Les valeurs 0 et 1 ot ue sigificatio particulière itéressate 4 Deux variables qualitatives 41 Notatios O cosidère das ce paragraphe deux variables qualitatives observées simultaémet sur idividus O suppose que la première, otée X, possède r modalités otées x 1,, x l,, x r, et que la secode, otée Y, possède c modalités otées y 1,, y h,, y c Ces doées sot présetées das u tableau à double etrée, appelé table de cotigece, das lequel o dispose les modalités de X e liges et celles de Y e coloes Ce tableau est doc de dimesio r c et a pour élémet géérique le ombre lh d observatios cojoites des modalités x l de X et y h de Y ; les quatités lh sot appelées les effectifs cojoits Ue table de cotigece se présete doc sous la forme suivate :

4 Statistique descriptive bidimesioelle y 1 y h y c sommes x 1 11 1h 1c 1+ x l l1 lh lc l+ x r r1 rh rc r+ sommes +1 +h +c Les quatités l+ (l = 1,, r) et +h (h = 1,, c) sot appelées les effectifs margiaux ; ils sot défiis par l+ = c h=1 lh et +h = r l=1 lh, et ils vérifiet r l=1 l+ = c h=1 +h = De faço aalogue, o peut défiir les otios de fréqueces cojoites et de fréqueces margiales 42 Représetatios graphiques des profils O peut evisager, das le cas de l étude simultaée de deux variables qualitatives, d adapter les graphiques présetés das le cas uidimesioel : o découpe chaque partie (coloe, partie de barre ou secteur) représetat ue modalité de l ue des variables selo les effectifs des modalités de l autre Mais, de faço géérale, il est plus approprié de réaliser des graphiques représetat des quatités très utiles das ce cas et que l o appelle les profils O appelle l-ème profil-lige l esemble des fréqueces de la variable Y coditioelles à la modalité x l de X (c est-à-dire défiies au sei de la souspopulatio Ω l de Ω associée à cette modalité) Il s agit doc des quatités : { l1 l+,, lh l+,, lc l+ } O défiit de faço aalogue le h-ème profil-coloe : FIGURE 3 Baque : Diagrammes e barres des profils liges et coloes (mosaïque plot) de la table de cotigece croisat le sexe et la possessio de la carte Visa Premier La superficie de chaque case est e plus proportioelle à l effectif de la cellule associée { 1h +h,, lh +h,, rh +h } La représetatio graphique des profils-liges ou des profils-coloes, au moye, par exemple, de diagrammes e barre parallèles (mosaïc plot), doe alors ue idée assez précise de la variatio cojoite des deux variables

5 Statistique descriptive bidimesioelle 43 Idices de liaiso Lorsque tous les profils-liges sot égaux, ce qui est équivalet à ce que tous les profils-coloes soiet égaux et que (l, h) {1,, r} {1,, c} : lh = l+ +h o dit qu il existe aucue forme de liaiso etre les deux variables cosidérées X et Y Par suite, la mesure de la liaiso va se faire e évaluat l écart etre la situatio observée et l état de o liaiso défii ci-dessus 431 Khi-deux Il est courat e statistique de comparer ue table de cotigece observée, d effectif cojoit géérique lh, à ue table de cotigece doée a priori (et appelée stadard), d effectif cojoit géérique s lh, e calculat la quatité r c l=1 h=1 ( lh s lh ) 2 s lh De faço aturelle, pour mesurer la liaiso sur ue table de cotigece, o utilise doc l idice appelé khi-deux (chi-square) et défii comme suit : χ 2 = r l=1 h=1 c ( lh l+ +h l+ +h ) 2 = [ r c l=1 h=1 2 lh l+ +h 1 Le coefficiet χ 2 est toujours positif ou ul et il est d autat plus grad que la liaiso etre les deux variables cosidérées est forte Malheureusemet, il déped aussi des dimesios r et c de la table étudiée, aisi que de la taille de l échatillo observé ; e particulier, il est pas majoré C est la raiso pour laquelle o a défii d autres idices, liés au khi-deux, et dot l objectif est de palier ces défauts 432 Autres idicateurs Nous e citeros trois Le phi-deux : Φ 2 = χ2 Il e déped plus de, mais déped ecore de r et de c, ] Le coefficiet T de Tschuprow : Φ T = 2 (r 1)(c 1) O peut vérifier : 0 T 1 Le coefficiet C de Cramer : C = Φ 2 d 1, avec : d = if(r, c) O vérifie maiteat : 0 T C 1 Efi, la p-valeur d u test d idépedace (test du χ 2 ) est aussi utilisée pour comparer des liaisos etre variables 5 Vers le cas multidimesioel L objectif des prochais chapitres de ce cours est d exposer les techiques de la statistique descriptive multidimesioelle Or, sas coaître ces techiques, il se trouve qu il est possible de débuter ue exploratio de doées multidimesioelles e adaptat simplemet les méthodes déjà étudiées 51 Matrices des covariaces et des corrélatios Lorsqu o a observé simultaémet plusieurs variables quatitatives (p variables, p 3) sur le même échatillo, il est possible de calculer d ue part les variaces de toutes ces variables, d autre part les p(p 1) 2 covariaces des variables prises deux à deux L esemble de ces quatités peut alors être disposé das ue matrice carrée (p p) et symétrique, comportat les variaces sur la diagoale et les covariaces à l extérieur de la diagoale ; cette matrice, appelée matrice des variaces-covariaces (ou ecore matrice des covariaces) sera otée S Elle sera utilisée par la suite, mais a pas d iterprétatio cocrète Notos qu il est possible de vérifier que S est semi défiie positive De la même maière, o peut costruire la matrice symétrique p p, comportat des 1 sur toute la diagoale et, e dehors de la diagoale, les coefficiets de corrélatio liéaire etre les variables prises deux à deux Cette matrice est appelée matrice des corrélatios, elle est égalemet semi défiie positive, et ous la oteros R Elle est de lecture commode et idique quelle est la structure de corrélatio des variables étudiées

6 Statistique descriptive bidimesioelle 52 Tableaux de uages C140 C160 C180 C1619 C1617 C1819 C1817 C2019 C2039 C1826 C1836 C2026 C2036 C2046 C2246 C2256 C1833 C2033 C2053 C2253 C2263 C140 C160 C180 C1619 C1617 C1819 C1817 C2019 C2039 C1826 C1836 C2026 C2036 C2046 C2246 C2256 C1833 C2033 C2053 C2253 C2263 FIGURE 4 Souris : représetatio graphique des corrélatios etre les variables de cocetratio de lipides par des itesités de couleur Notos X 1,, X p les p variables quatitatives cosidérées ; o appelle tableau de uages le graphique obteu e juxtaposat, das ue sorte de matrice carrée p p, p 2 sous-graphiques ; chacu des sous-graphiques diagoaux est relatif à l ue des p variables, et il peut s agir, par exemple, d u histogramme ; le sous-graphique figurat das le bloc d idice (j, j ), j j, est le uage de poits réalisé avec la variable X j e abscisses et la variable X j e ordoées Das certais logiciels aglo-saxos, ces graphiques sot appelés splom (Scatter PLOt Matrix) Le tableau de uages, avec la matrice des corrélatios, fourit aisi ue visio globale des liaisos etre les variables étudiées 53 La matrice des coefficiets de Tschuprow (ou de Cramer) Cosidéros maiteat le cas où l o étudie simultaémet plusieurs variables qualitatives (p variables, p 3) La matrice des coefficiets de Tschuprow est la matrice carrée d ordre p, symétrique, comportat des 1 sur la diagoale et, e dehors de la diagoale, les coefficiets de Tschuprow etre les variables prises deux à deux Il s agit doc d ue matrice du même type que la matrice des corrélatios (elle est d ailleurs, elle aussi, semi défiie positive), et so utilisatio pratique est aalogue Notos que l o peut, de la même faço, utiliser les coefficiets de Cramer au lieu des coefficiets de Tschuprow 54 Le tableau de Burt Le tableau de Burt est ue gééralisatio particulière de la table de cotigece das le cas où l o étudie simultaémet p variables qualitatives Notos X 1,, X p ces variables, appelos c j le ombre de modalités de X j, j = 1,, p et posos c = p j=1 c j Le tableau de Burt est e fait ue matrice carrée c c, costituée de p 2 sous matrices Chacue des p sous matrices diagoales est relative à l ue des p variables ; la j ième d etre elles est carrée d ordre c j, diagoale, et comporte sur la diagoale les effectifs margiaux de X j La sous matrice figurat das le bloc d idice (j, j ), j j, est la table de cotigece costruite e mettat X j e liges et X j e coloes ; le tableau de Burt est doc symétrique Il apparaît e fait comme l aalogue qualitatif du tableau des uages