Statistiques descriptives bivariées
ntroduction Soit une population ou un échantillon d effectif N. On observe deux caractères sur cette population, X et Y. On veut étudier les liens de dépendance ou d indépendance entre les deux variables. On va considérer successivement deux possibilités : X et Y sont des ensembles finis. Par exemple, on étudie les étudiants d UT-TC1. X est la couleur des yeux : X 2{bleus, marrons, verts} Y est la couleur des cheveux : Y 2{bruns, blonds, roux, chatains} X et Y sont des ensembles infinis. Par exemple, on étudie les français qui ont un emploi. X est leur revenu. Y est leur nombre d années d étude.
Section 1. Tableau de contingence On se place d abord dans le cas où X et Y sont des ensembles finis. Ce peut être deux variables qualitatives (nominales ou ordinales) ou deux variables quantitatives discrètes. On a une population d effectif N.
Tableau de contingence Notons x 1, x 2, x 3,... x p les modalités de X,ordonnéesdans l ordre croissant (si besoin). p est le nombre de modalités de X. Notons y 1, y 2, y 3,... y q les modalités de Y,ordonnéesdans l ordre croissant (si besoin). q est le nombre de modalités de Y. Exemple. Si X est la couleur des yeux : x1 = {bleue}, x 2 = {marron}, x 3 = {verte}, Si Y est la couleur des cheveux : y1 = {bruns}, y 2 = {blonds}, y 3 = {roux}, y 4 = chatains.
Tableau de contingence (2) L effectif du couple (x i, y j ) est noté n ij. C est le nombre d individus pour lesquels on a X = x i et Y = y j. Remarque px i=1 j=1 qx n ij = N La fréquence du couple (x i, y j ) est égale au nombre n ij /N. Le tableau de contingence est un tableau qui croise les différentes modalités des deux caractères.
Tableau de contingence (3) Le tableau de contingence est représenté de la façon suivante : X /Y y 1... y j... y q Total x 1 n 1,1... n 1,j... n 1,q n 1,.................. x i n i,1... n i,j... n i,q n i,.................. x p n p,1......... n p,q n p, Total n,1 n,j n,q N Le tableau représente la distribution conjointe du couple (X, Y ).
Tableau de contingence (4) Dans le tableau précédent, n i, = P q j=1 n ij s appelle l effectif marginal de x i. n,j = P p i=1 n ij s appelle l effectif marginal de y j.
Tableau de contingence (5) Exemple. On a interrogé 130 actifs avec un emploi sur leur métiers et leurs votes lors du second tour des présidentielles. On a obtenu les résultats suivants. Hollande Sarkozy Agriculteurs 10 15 Commerçants 15 20 Ouvriers 16 4 Enseignants 24 6 Entrepreneurs 5 15
Tableau de contingence (6) Calculons les effectifs marginaux. Hollande Sarkozy Totaux Agriculteurs 10 15 25 Commerçants 15 20 35 Ouvriers 16 4 20 Enseignants 24 6 30 Entrepreneurs 5 15 20 Totaux 70 60 130 Dans l échantillon, quel pourcentage a voté pour Hollande? quel pourcentage des ouvriers ont voté pour Sarkozy? quel pourcentage des électeurs de Hollande sont entrepreneurs? quel est le pourcentage d enseignants?
Représentation des données Comment représenter les données du tableau? Trois solutions : 1. Diagramme empilé
Représentation des données (2) 2. Diagramme à barres ou (moins bien)
Représentation des données (3) 3. Diagramme 3D : bof...
Etude de la dépendance entre les deux variables Les graphiques montrent que les comportements électoraux ne sont pas identiques selon les professions exercées. On dit qu il n y a pas indépendance entre la variable métier et la variable vote. Aquoiressembleraitletableaudecontingencesilesdeux variables étaient parfaitement indépendantes? l y a par exemple 25 agriculteurs. S ils suivaient le même comportement de vote que l ensemble de la population, une proportion 70/130 d entre eux auraient voté Hollande une proportion 60/130 d entre eux auraient voté Sarkozy.
Etude de la dépendance entre les deux variables (2) Ainsi on aurait 25 70 130 = 13.5 agriculteursquiauraientvoté Hollande et 25 60 130 = 11.5 qui auraient voté Sarkozy. On représente le tableau de contingence que l on aurait obtenu si les deux variables étaient parfaitement indépendantes. Quel est l effectif de la case (i, j) dans ce cas? C est n i, n,j N.
Etude de la dépendance entre les deux variables (3) On obtient le tableau de contingence théorique suivant: Hollande Sarkozy Totaux Agriculteurs 13.5 11.5 25 Commerçants 18.8 16.2 35 Ouvriers 10.8 9.2 20 Enseignants 16.2 13.8 30 Entrepreneurs 10.8 9.2 20 Totaux 70 60 130 Clairement le tableau associé à l hypothèse d indépendance n est pas du tout le même que le véritable tableau. Conclusion : les deux variables métier et vote ne sont pas indépendantes. On peut tester l indépendance de façon plus rigoureuse.
Etude de la dépendance entre les deux variables (4) Prenons un deuxième exemple. On veut étudier le lien entre situation professionnelle (CD/CDD) et acceptation d un prêt immobilier en considérant 200 personnes qui ont demandé un tel prêt. Acceptation Refus CD 90 30 CDD 20 60 On calcule les effectifs marginaux. Acceptation Refus Total CD 90 30 120 CDD 20 60 80 Total 110 90 200
Etude de la dépendance entre les deux variables (5) Quels seraient les effectifs théoriques si les deux variables étaient parfaitement indépendantes? Acceptation Refus Total CD 66 54 120 CDD 44 36 80 Total 110 90 200 Pour tester rigoureusement si les deux variables sont indépendantes, on calcule la statistique du khi deux ( 2 ): 2 = px qx (n ij m ij ) 2 m ij i=1 j=1 où les n ij sont les effectifs observés et m ij les effectifs théoriques associés à la situation d indépendance.
Etude de la dépendance entre les deux variables (6) Quand le 2 est proche de zéro ou petit, les valeurs des effectifs du tableau des données observées sont proches des valeurs théoriques correspondant à l indépendance. dans ce cas, les deux variables sont indépendantes. Quand le 2 est grand, les valeurs des effectifs du tableau des données observées sont éloignées des valeurs théoriques correspondant à l indépendance. dans ce cas, les deux variables ne sont pas indépendantes.
Etude de la dépendance entre les deux variables (7) Comment savoir si le 2 est grand ou petit? l existe des valeurs seuils données par une table. Pour les déterminer, il faut calculer le nombre de degrés de liberté (ddl)du tableau. l est égal à (p 1)(q 1). La table est ddl 1 2 3 4 5 6 7 8 9 seuil 3.84 5.99 7.81 9.49 11.07 12.59 14.06 15.5 16.92
Etude de la dépendance entre les deux variables (8) Prenons notre exemple avec les CDD/CDD et les prêts. Le 2 est égal à (90 66) 2 + 66 (30 54)2 54 + (20 44)2 44 + (60 36)2 36 l faut calculer le nombre de degrés de liberté du tableau. Dans notre tableau 2 2, il est égal à (2 1)(2 1) =1. = 48.48 Si la valeur du 2 que nous avons trouvée précédemment est supérieure à celle de la table pour le bon nombre de degrés de liberté, les deux variables ne sont pas indépendantes.
Etude de la dépendance entre les deux variables (9) La valeur seuil lue sur la table est égale à 3.84. On a 48.48 > 3.84 : les deux variables ne sont clairement pas indépendantes.
Etude de la dépendance entre les deux variables (10) Reprenons l exemple avec les professions et les votes à la présidentielle. La valeur du (10 13.5) 2 + 13.5 2 est égale à (15 11.5)2 11.5 +... + (15 9.2)2 9.2 = 24 Le nombre de degrés de liberté est égal à (5 1)(2 1) =4. Les deux variables sont-elles indépendantes? La valeur seuil lue sur la table est égale à 9.49. On a 24 > 9.49 : les deux variables ne sont pas indépendantes. On peut en conclure que les gens en CD obtiennent plus facilement un prêt immobilier que les gens en CDD.
Section 2. Corrélation et régression On étudie à présent la relation entre 2 variables quantitatives. Prenons l exemple d un groupe de douze jeunes femmes dont on a observé le poids et la taille. Personne Taille (cm) Poids (kg) 1 167 61 2 167 60 3 171 64 4 173 60 5 165 52 6 168 56 7 172 64 8 165 57 9 167 58 10 168 53 11 161 53 12 170 58
Corrélation et régression (2) On représente les deux variables à l aide d un diagramme de dispersion : taille en abscisse et poids en ordonnée. Les deux variables semblent liées par une relation croissante qui exprime un lien de causalité : le poids des femmes plus grandes est plus élevé.
Corrélation et régression (3) Attention! Qui dit relation entre deux variables ne dit pas forcément causalité!!! Exemple : on mesure le PB / tête européen (en euros) ainsi la taille d un arbuste (en cm) devant l UT de 2000 à 2010. On a obtenu le tableau suivant Année PB/tête UE Taille arbuste 2000 20000 50 2001 20500 55 2002 21100 61 2003 21500 64 2004 22000 68 2005 22600 73 2006 23200 77 2007 23600 82 2008 24100 86 2009 24000 92
Corrélation et régression (4) On obtient le graphique suivant ci pourtant il n y a pas relation de causalité entre les variables. Les deux variables sont en fait croissantes par rapport à une troisième variable : le temps!
Corrélation et régression (5) Revenons à notre exemple avec le poids et la taille. Quand l examen du nuage de points indique qu il est judicieux de supposer une relation de type linéaire entre Y et X alors on cherche à déterminer l équation d une droite y = ax + b où a et b sont deux réels telle que cette droite soit le plus près possible du nuage de points. La méthode des moindres carrés précise cette notion de proximité entre la droite (dite des moindres carrés ) et les points du nuage.
Davantage sur les moindres carrés Comment estime-t-on a et b? les estimateurs sont notés â et ˆb. On prend les différents couples de données observées (x i, y i ) pour i qui varie de 1 à n. Considérons le couple (x i, y i ). Quelle est la valeur estimée de yi par le modèle? Elle est égale à âxi + ˆb. Pour déterminer â et ˆb, onminimiselasommedescarrésentre valeur observée, y i, et valeur estimée, âx i + ˆb.
Davantage sur les moindres carrés (2) Le critère des moindres carrés consiste à déterminer les â et ˆb qui minimisent nx 2 (y i âx i ˆb) i=1
Corrélation et régression (7) Si l on dispose des couples d observations (x i, y i ),pour i = 1,, n et si on note x et ȳ, lesmoyennesrespectivesdex et Y, alors le couple (â, ˆb) solution de ce problème de minimisation est P n i=1 â = (x i x)(y i ȳ) P n i=1 (x i x) 2 et ˆb = ȳ â x
Corrélation et régression (8) On applique les calculs à notre exemple poids - taille. On trouve P x = 167.83 et ȳ = 58. n Pi=1 (x i x)(y i ȳ)=103 n i=1 (x i x) 2 = 123.67 et P n i=1 (y i ȳ) 2 = 180 Soit â = 103/123.67 = 0.83 et ˆb = ȳ â x = 81.79 Selon la régression, chaque centimétre supplémentaire est associé à 0.83 kg en plus. poids = 0.83 taille 81.79
Corrélation et régression (9) On peut représenter graphiquement la droite de régression
Coefficent de corrélation Pour mesurer la qualité de l ajustement de notre modèle aux données, on utilise le coefficient de corrélation. On appelle coefficient de corrélation linéaire le nombre réel P n i=1 r = (x i x)(y i ȳ) pp n i=1 (x i x) 2p P n i=1 (y i ȳ) 2 On peut montrer que 1 apple r apple 1. Si r = 0, on dit que les variables x et y sont non corrélées linéairement. Si r =1,lespoints(x i, y i ), i = 1,, n sont parfaitement alignés : la variable y est une fonction linéaire de la variables x. En pratique, la corrélation est d autant plus forte que r est proche de 1.
nterprétation du coefficient de corrélation
Retour à l exemple poids - taille On a r = P n i=1 (x i x)(y i ȳ) p Pn i=1 (x i x) 2p P n i=1 (y i ȳ) 2 = 103 p 123.67 p 180 = 0.69 La force de la corrélation est moyenne. C est normal : votre poids ne dépend pas seulement de la taille mais aussi de ce que vous mangez, du sport que vous faites, etc... Anoterquelastatistiquepeutfairedesrégessionsplus compliquées ( régressions multiples ) du type : poids = a 1 taille + a 2 calories consommées quotidiennement + b
Prévision avec le modèle Une fois qu on a déterminé â et ˆb et que le modèle est suffisamment bon (ce qu on mesure par le coefficent de corrélation), on peut utiliser le modèle pour faire de la prévision. Reprenons l exemple précédent avec le poids et la taille. Supposons qu on ait une femme de 1m62? Quel est la prédiction de son poids par le modèle? C est 0.83 162 81.79 = 52.67 kg.