Chapitre 3. Séries statistiques bivariées.

Documents pareils
Chapitre 3. Les distributions à deux variables

Relation entre deux variables : estimation de la corrélation linéaire

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Programmation linéaire

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Fonctions de deux variables. Mai 2011

Introduction à l étude des Corps Finis

Résolution d équations non linéaires

Programmation linéaire et Optimisation. Didier Smets

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Les indices à surplus constant

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Analyse de la variance Comparaison de plusieurs moyennes

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Statistique Descriptive Élémentaire

Fonctions de plusieurs variables

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Logiciel XLSTAT version rue Damrémont PARIS

Optimisation Discrète

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

VI. Tests non paramétriques sur un échantillon

Chapitre 2 Le problème de l unicité des solutions

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Statistiques à deux variables

Statistiques Descriptives à une dimension

Sujet 4: Programmation stochastique propriétés de fonction de recours

Résolution de systèmes linéaires par des méthodes directes

Université Paris-Dauphine DUMI2E 1ère année, Applications

Annexe commune aux séries ES, L et S : boîtes et quantiles

L analyse boursière avec Scilab

Chapitre 5 : Flot maximal dans un graphe

TP 7 : oscillateur de torsion

Représentation d une distribution

Probabilités sur un univers fini

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Cours 9 : Plans à plusieurs facteurs

Programmation Linéaire - Cours 1

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Leçon N 4 : Statistiques à deux variables

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

23. Interprétation clinique des mesures de l effet traitement

Optimisation des fonctions de plusieurs variables

Chapitre 1 : Évolution COURS

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

1 Complément sur la projection du nuage des individus

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Programmation linéaire

6 Equations du première ordre

FONCTION DE DEMANDE : REVENU ET PRIX

Dérivées d ordres supérieurs. Application à l étude d extrema.

Quelques tests de primalité

Continuité et dérivabilité d une fonction

Variations du modèle de base

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Probabilités sur un univers fini

Tests de sensibilité des projections aux hypothèses démographiques et économiques : variantes de chômage et de solde migratoire

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Théorie et codage de l information

SERIE 1 Statistique descriptive - Graphiques

Moments des variables aléatoires réelles

PRIME D UNE OPTION D ACHAT OU DE VENTE

Les Conditions aux limites

Résumé du Cours de Statistique Descriptive. Yves Tillé

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Focus. Lien entre rémunération du travail et allocation de chômage

Hedging delta et gamma neutre d un option digitale

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Problème 1 : applications du plan affine

Polynômes à plusieurs variables. Résultant

Chapitre 2. Matrices

CAPTEURS - CHAINES DE MESURES

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Théorème du point fixe - Théorème de l inversion locale

Cours d Analyse. Fonctions de plusieurs variables

Cours 02 : Problème général de la programmation linéaire

OPTIMISATION À UNE VARIABLE

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Capacité Métal-Isolant-Semiconducteur (MIS)

CORRIGE LES NOMBRES DECIMAUX RELATIFS. «Réfléchir avant d agir!»

Filtres passe-bas. On utilise les filtres passe-bas pour réduire l amplitude des composantes de fréquences supérieures à la celle de la coupure.

Présentation du cours de mathématiques de D.A.E.U. B, remise à niveau

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Exercice : la frontière des portefeuilles optimaux sans actif certain

Fonctions homographiques

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal

Texte Agrégation limitée par diffusion interne

Lecture graphique. Table des matières

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

L exclusion mutuelle distribuée

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Transcription:

Chapitre 3. Séries statistiques bivariées nicolas.chenavier@lmpa.univ-littoral.fr

Exemple introductif 1 On considère un nombre n d individus (en pratique, n est grand) faisant intervenir exactement deux données pour chaque individu : Individu Age Couleur de cheveux Individu Age Couleur de cheveux 1 18 châtain 16 21 brun 2 19 blond 17 18 brun 3 20 châtain 18 19 blond 4 19 brun 19 19 blond 5 19 brun 20 18 brun 6 18 châtain 21 19 brun 7 21 blond 22 19 châtain 8 18 blond 23 18 châtain 9 19 châtain 24 21 châtain 10 19 châtain 25 18 châtain 11 19 châtain 26 20 châtain 12 20 brun 27 20 blond 13 18 brun 28 19 brun 14 21 châtain 29 20 brun 15 19 châtain 30 20 châtain Table: Age et couleurs de cheveux d une population de 30 personnes le nombre d individus est n = 30 ; les variables sont l âge et la couleur de cheveux. 2 / 30

Exemple introductif 2 Individu Echelon Salaire Individu Echelon Salaire 1 3 2150 17 2 1975 2 1 1750 18 6 2775 3 4 2400 19 3 2150 4 6 2775 20 5 2600 5 6 2775 21 5 2600 6 2 1975 22 5 2600 7 4 2400 23 2 1975 8 6 2775 24 2 1975 9 6 2775 25 6 2775 10 4 2400 26 4 2400 11 3 2150 27 1 1750 12 5 2600 28 3 2150 13 5 2600 29 3 2150 14 3 2150 30 2 1975 15 6 2775 31 4 2400 16 2 1975 32 5 2600 Table: Echelon (dans la fonction publique) et salaire (en euros) d une population de 32 personnes le nombre d individus est n = 32 ; les variables sont l échelon et le salaire. 3 / 30

Problème considéré Les séries statistiques considérées ci-dessus sont dites bivariées au sens où, pour chaque individu de la population, on considère deux caractéristiques. Les séries que nous allons considérer sont donc de la forme (x 1, y 1 ),..., (x n, y n ). Le but est : de représenter sous forme synthétique les données issues d une série statistique bivariée ; d étudier des ressemblances (ou non ressemblances) entre individus au regard des deux caractères étudiés ; d établir (lorsque cela est possible) une liaison fonctionnelle entre les deux caractères. 4 / 30

Sommaire 1 Présentation des données Tableau de contingence Représentations graphiques 2 Indépendance et corrélation Indépendance Corrélation 3 Ajustement affine Modèle linéaire simple Décomposition de la variance 5 / 30

Tableau de contingence Construction d un tableau de contingence Pour une série statistique univariée, il est plus commode de représenter les données sous la forme d un tableau des effectifs/fréquences plutôt qu un tableau donnant la caractéristique de chaque individu. De même, on représente rarement les données d une série statistique bivariée tel qu on l a fait dans les exemples introductifs. En pratique, on utilise un tableau dit de contingence. X \ Y y 1 y j y q x 1 n 11 n 1j n 1q x i n 1i n ij n iq x p n pi n pj n pq Table: Tableau de contingence X = x 1,..., x p et Y = y 1,..., y q désignent l ensemble des caractéristiques observées des deux variables ; n ij est le nombre de personnes ayant pour caractéristiques (x i, y pour tout 1 i p et 1 j q. j ) 6 / 30

Tableau de contingence Marginales Définition On appelle : distribution de la marginale en X l ensemble des nombres n i, 1 i p, où n i est l effectif de la population ayant pour caractéristique x i : n i = n i1 + n i2 + + n iq ; distribution de la marginale en Y l ensemble des nombres n j, 1 j q, où n j est l effectif de la population ayant pour caractéristique y j : n j = n 1j + n 2j + + n pj. 7 / 30

Tableau de contingence Exemple 1 de tableau de contingence Reprenons le premier exemple introductif. Age \ Cheveux châtain blond brun 18 4 1 3 19 5 3 4 20 3 1 2 21 2 1 1 Table: Tableau de contingence de l âge et de la couleur de cheveux En particulier : la somme des nombres dans le tableau est égale à n = 30 ; les effectifs de l âge (marginale en X) sont n 18 = 8, n 19 = 12, n 20 = 6 et n 21 = 4 ; les effectifs de la couleur de cheveux (marginale en Y ) sont n châtain = 14, n blond = 6 et n brun = 10. 8 / 30

Tableau de contingence Exemple 2 de tableau de contingence Reprenons le second exemple introductif. Echelon \ Salaire 1750 1975 2150 2400 2600 2775 1 2 0 0 0 0 0 2 0 6 0 0 0 0 3 0 0 6 0 0 0 4 0 0 0 5 0 0 5 0 0 0 0 6 0 6 0 0 0 0 0 7 Table: Tableau de contingence de l échelon et du salaire En particulier : la somme des nombres dans le tableau est égale à n = 32 ; de même, on obtient les distributions des marginales en X et en Y ; on constate que beaucoup de zéros apparaissent dans le tableau de contingence. On quantifiera un tel phénomène dans la section 2. 9 / 30

Tableau de contingence Fréquences d une série bivariée Définition Pour tout 1 i p, 1 j q, on appelle : fréquence de la caractéristique (x i, y j ), la quantité : f ij = n ij n ; fréquence (marginale) de la caractéristique x i (respectivement x j ), les quantités f i = n i n et f j = n j n ; fréquence (conditionnelle) de x i sachant y j (respectivement y j sachant x i ), les quantités f i j = f ij f j et f j i = f ij f i. 10 / 30

Tableau de contingence Exemple 1 de fréquences marginales et conditionnelles Reprenons le premier exemple introductif. Les proportions d individus de 19 ans châtains et d individus de 21 ans châtains sont respectivement : f 19,chatain = 5 30 = 16.7% et f 21,châtain = 2 30 = 6.7%. Les proportions d individus de 19 ans et de 21 ans sont respectivement : f 19 = 12 30 = 40% et f 21 = 4 30 = 13.3%. Les proportions de châtains parmi les individus de 19 ans et de châtains parmi les individus de 21 ans sont respectivement : f châtain 19 = 16.7 40 = 41.8% et f châtain 21 = 6.7 13.3 = 50%. 11 / 30

Tableau de contingence Exemple 2 de fréquences marginales et conditionnelles Reprenons le second exemple introductif. Les proportions d individus à l échelon 1 gagnant 1750 euros et d individus à l échelon 4 gagnant 2400 euros sont respectivement : f 1,1750 = 2 32 = 6.3% et f 4,2400 = 5 32 = 15.6%. Les proportions d individus à l échelon 1 et 4 sont respectivement : f 1 = 2 32 = 6.3% et f 4 = 5 32 = 15.6%. Les proportions d individus gagnant 1750 euros parmi ceux qui sont à l échelon 1 et d individus gagnant 2400 euros parmi ceux qui sont à l échelon 4 sont respectivement : f 1750 1 = 6.3 6.3 = 100% et f 2400 4 = 15.6 15.6 = 100%. 12 / 30

Représentations graphiques Représentations graphiques pour des séries bivariées On peut représenter une série statistique bivariée (x 1, y 1 ),..., (x n, y n ) de deux façons : 1 par un stéréogramme, représentant (dans l espace) un ensemble de parallélèpipèdes rectangles dont les hauteurs sont proportionnelles aux effectifs ou aux fréquences ou, éventuellement, aux densités des classes ; 2 par un nuage de points représentant (dans le plan) l ensemble des points (x i, y i ) 1 i n. Remarque 1 Le stéréogramme est l analogue du diagramme à bandes (utilisé pour les séries statistiques univariées). 2 On ne peut faire un nuage de points que si les variables statistiques X = x 1,..., x n et Y = y 1,..., y n sont toutes les deux quantitatives. 13 / 30

Représentations graphiques Exemple de nuage de points Figure: Nuage de points pour l échelon et le salaire (exemple introductif 2), réalisé avec Scilab 14 / 30

Représentations graphiques Poids d un nuage de points Il est également d usage de rajouter entre parenthèse l effectif n ij, appelé poids, sur le point de coordonnées (x i, y j ). Dans l exemple qui précède : le poids du point (1, 1750) est (2) ; le poids du point (2, 1975) est (6) ; le poids du point (3, 2150) est (6) ; le poids du point (4, 2400) est (5) ; le poids du point (5, 2600) est (6) ; le poids du point (6, 2775) est (7). 15 / 30

1 Présentation des données 2 Indépendance et corrélation Indépendance Corrélation 3 Ajustement affine 16 / 30

Indépendance Définition de l indépendance Définition Considérons une série statitistique bivariée (X, Y ). On dit que les séries X et Y sont indépendantes si, pour tout i, j : 1 les fréquences conditionnelles f i j ne dépendent pas de j ; 2 les fréquences conditionnelles f j i ne dépendent pas de i. En fait, il suffit qu une seule des deux conditions ci-dessus soit satisfaite (les deux conditions étant équivalentes). Une autre condition équivalente à l indépendance des deux séries est que f ij = f i f j pour tout i, j. Informellement, cela signifie que la variable Y n influence pas la variable X et réciproquement. Sur un tableau de contingence, deux séries sont indépendantes si les lignes ou/et les colonnes sont proprortionnelles. 17 / 30

Indépendance Exemples Dans l exemple introductif 1 (âge/couleur de cheveux), les deux variables sont "presque" indépendantes. On peut le voir de deux façons : 1 d une part, en constatant que les lignes et colonnes du tableau de contingence sont "presque proportionnelles" ; 2 d autre part, en calculant les fréquences conditionnelles et en remarquant qu elles sont "presque" indépendantes de la variable qui conditionne. Par exemple les fréquences f châtain 19 = 41.8% et f châtain 21 = 50% sont relativement proches. Dans l exemple introductif 2 (échelon/salaire), les deux variables dépendent totalement l une de l autre : le salaire d un individu dépend complètement de son échelon et inversement. 18 / 30

Indépendance Remarques sur la notion de d indépendance/dépendance Lorsque, pour chaque valeur x i de X correspond une unique valeur y j de Y, autrement dit lorsque chaque ligne du tableau de contingence ne contient qu un seul effectif n ij non nul, on dit que Y dépend totalement de X. En pratique, on n a jamais d indépendance "parfaite" des variables. Pour mesurer la dépendance entre deux variables (en un sens qui sera précisé), on introduit dans la section suivante la notion de coefficient de corrélation. A partir de maintenant, on se limite aux variables quantitatives. 19 / 30

Corrélation Définition et propriétés de la covariance Définition Considérons une série statistique bivariée (X, Y ) où X = x 1,... x n et Y = y 1,..., y n sont des variables quantitatives. On appelle covariance de X et de Y la quantité : Cov(X, Y ) = 1 n n (x i x)(y i y) = 1 n i=1 p q i=1 j=1 n ij (x i x)(y j y). Propriété 1 Cov(X, Y ) = Cov(Y, X) ; 2 Cov(aX + b, Y ) = acov(x, Y ) pour tous réels a, b ; 3 Cov(X, X) = Var(X) ; 4 Cov(X, Y ) = 1 n n i=1 x iy i x y = 1 p q n i=1 j=1 n ijx i y j x y. 5 Si X et Y sont indépendantes, alors Cov(X, Y ) = 0. 20 / 30

Corrélation Définition et classification de la corrélation Définition Considérons une série statistique bivariée (X, Y ) où X = x 1,... x n et Y = y 1,..., y n sont des variables quantitatives. On appelle coefficient de corrélation la quantité : Cor(X, Y ) = Cov(X, Y ) = Cov(X, Y ) [ 1, 1]. Var(X) Var(Y ) σ(x) σ(y ) On classe les différents degrés de corrélation comme suit : forte corrélation si Cor(X, Y ) [ 1, 0.8] [0.8, 1] ; corrélation médiocre si Cor(X, Y ) [ 0.8, 0.5] [0.5, 0.8] ; mauvaise corrélation si Cor(X, Y ) [ 0.5, 0.5]. 21 / 30

Corrélation Exemple de coefficient de corrélation et remarques Exemple : Pour l exemple introductif 2 (échelon/salaire), on peut montrer, à l aide d un tableur ou d une calculatrice, que la corrélation est 0.99. En particulier, il existe une très forte corrélation entre l échelon et le salaire. Remarques : Si (X, Y ) est une série bivariée telle que Y = ax + b, où a et b sont des réels, alors Cor(X, Y ) = 1. En particulier, si la corrélation entre X et Y est proche de 1, cela peut venir a priori d une relation linéaire entre les deux variables. Dans le cas de la statistique bivariée (échelon/salaire), le nuage de points suggère que le salaire dépend linéairement de l échelon. 22 / 30

Corrélation Corrélation et causalité Le fait que deux variables soient fortement corrélées provient, a priori, du fait que les variables sont liées. En revanche, une forte corrélation ne suffit pas pour établir une causalité entre ces deux variables : d autres facteurs peuvant entrer en ligne de compte. Par exemple : Une étude a prouvé que les gens habitant près de pylônes à haute tension étaient significativement plus souvent malades que le reste de la population. Est-ce à cause du courant électrique? Pas nécessairement parce qu une autre étude a révélé que les habitants sous les pylônes étaient en moyenne plus pauvres. Comme il existe un lien entre la santé et la pauvreté, l étude, à elle seule, ne permet pas de conclure que la faute est due au courant électrique : la cause réelle est peut-être la pauvreté. un autre exemple, dû à Coluche : "quand on est malade, il ne faut surtout pas aller à l hôpital : la probabilité de mourir dans un lit d hôpital est 10 fois plus grande que dans son lit à la maison"... 23 / 30

1 Présentation des données 2 Indépendance et corrélation 3 Ajustement affine Modèle linéaire simple Décomposition de la variance 24 / 30

Principe de la régression (ou de l ajustement) Lorsque deux variables X et Y sont quantitatitives (par ex : échelon/salaire), on souhaite souvent établir une relation fonctionnelle entre elles, c est-à-dire chercher une fonction f telle que Y = f (X). Quand on chercher à "expliquer" Y par X (c est-à-dire à prévoir les valeurs de Y à partir de celles de X supposées connues), on dit qu on fait une régression (ou un ajustement) de Y en X. En d autres termes, on cherche à approcher le nuage de points associé à (X, Y ) par une courbe de la forme {(x, f (x)), x R}. On peut également chercher à expliquer X par Y. Cependant, on notera que l une ou l autre de ces régressions peut ne présenter aucun intérêt (par ex : il est plus naturel d expliquer le salaire par l échelon que l échelon par le salaire). 25 / 30

Modèle linéaire simple Régression linéaire par moindres carrés Lorsque le nuage de points (x 1, y 1 ),..., (x n, y n ) d une série statistique bivariée (X, Y ) présente une forme "allongée", il est naturel d approcher le nuage par une droite de la forme y = ax + b où a et b sont des paramètres à déterminer. En pratique, les variables X et Y ne sont pas directement liées par une droite : pour chaque donnée i, il existe une erreur e i entre la réalité et l approximation "idéale" par la droite. On note cette erreur : e i = y i (ax i + b i ). Le plus souvent, la recherche de a et de b s entend aux moindres carrés : on les choisit de telle sorte qu ils rendent minimale l erreur : = n ei 2. i=1 26 / 30

Modèle linéaire simple Droite et coefficients de régression Théorème Soit (X, Y ) un couple de variables quantitatives à variances non nulles. Alors, il existe un unique couple (a, b) rendant minimale l erreur au sens des moindres carrés (pour la régression linéaire) donnés par : a = Cov(X, Y ) Var(X) et b = y ax. Les paramètres a et b et la droite d équation y = ax + b s appellent respectivement les coefficients de régression et la droite de régression de Y en X. En pratique, pour faire une régression, on procède comme suit : 1 D abord, on calcule le coefficient de corrélation Cor(X, Y ). 2 Si celui-ci est supérieur (en valeur absolue) à 0.8, on construit la droite de régression à l aide d un tableur ou d une calculatrice. Sinon, on ne fait pas de régression car celle-ci sera trop mauvaise. L intérêt de la régression est de prévoir des données futures. 27 / 30

Modèle linéaire simple Exemple de droite et de coefficients de régression Reprenons l exemple introductif 2 (âge/salaire). La corrélation est d environ 0.99. Il est donc légitime de faire une régression linéaire. Cette régression est donnée dans le graphique suivant : Figure: Régression linéaire pour l échelon et le salaire (exemple introductif 2), réalisé avec Scilab 28 / 30

Décomposition de la variance Décomposition de la variance Soit (X, Y ) un couple de variables quantitatives à variances non nulles. On note : Ŷ = ax + b : la série statistique obtenue par régression linéaire ; E = Y Ŷ : la série statistique des erreurs (écarts verticaux). Théorème Avec les notations précédentes, on a : Var(Y ) = Var(Ŷ ) + Var(E). En d autres termes, le résultat précédent signifie que : "la variance totale en Y " est la somme de "la variance expliquée" et de "la variance résiduelle". Le nom de la variance de Ŷ vient du fait que cette dernière est expliquée par le modèle par opposition à la variance résiduelle. Plus la variance résiduelle est petite, plus l approximation est bonne au sens des moindres carrés. 29 / 30

Décomposition de la variance L essentiel Représenter les données sous forme de tableaux (ponctuel/contingence) et de graphiques (nuage de points). Calculer le coefficient de corrélation d une série statistique bivariée. Effectuer, lorsque cela est légitime, une régression linéaire d une série statistique bivariée. 30 / 30