Statistiques descriptives bivariées

Documents pareils
Chapitre 3. Les distributions à deux variables

Leçon N 4 : Statistiques à deux variables

Relation entre deux variables : estimation de la corrélation linéaire

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

VI. Tests non paramétriques sur un échantillon

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Correction du bac blanc CFE Mercatique

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

FONCTION DE DEMANDE : REVENU ET PRIX

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Probabilités sur un univers fini

Suites numériques 4. 1 Autres recettes pour calculer les limites

Programmation linéaire

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Analyse de la variance Comparaison de plusieurs moyennes

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Programmation linéaire et Optimisation. Didier Smets

Probabilités sur un univers fini

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Chapitre 2 Le problème de l unicité des solutions

SERIE 1 Statistique descriptive - Graphiques

Logiciel XLSTAT version rue Damrémont PARIS

Traitement des données avec Microsoft EXCEL 2010

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Résumé du Cours de Statistique Descriptive. Yves Tillé

1 Complément sur la projection du nuage des individus

Statistiques à deux variables

TSTT ACC OUTILS DE GESTION COMMERCIALE FICHE 1 : LES MARGES

Statistique Descriptive Élémentaire

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Feuille d exercices 2 : Espaces probabilisés

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

La médiatrice d un segment

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Résultats d Etude. L étude de marché. Résultats d Etude N 1889 : Conciergerie privée. Testez la fiabilité de votre projet.

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Représentation d une distribution

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Extrait du poly de Stage de Grésillon 1, août 2010

Annexe commune aux séries ES, L et S : boîtes et quantiles

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Plus courts chemins, programmation dynamique

Calculs de probabilités avec la loi normale

Analyse des correspondances avec colonne de référence

Théorie des sondages : cours 5

Loi d une variable discrète

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Cours 9 : Plans à plusieurs facteurs

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Couples de variables aléatoires discrètes

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Cours de méthodes de scoring

Une forme générale de la conjecture abc

CHAPITRE 2 SYSTEMES D INEQUATIONS A DEUX INCONNUES

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Initiative socialiste pour des impôts équitables Commentaires Bernard Dafflon 1

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Les indices à surplus constant

Statistiques 0,14 0,11

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Les intentions de vote pour les élections régionales en Midi-Pyrénées- Languedoc-Roussillon

Enoncé et corrigé du brevet des collèges dans les académies d Aix- Marseille, Montpellier, Nice Corse et Toulouse en Énoncé.

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Le comité d entreprise

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

LE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Statistiques Descriptives à une dimension

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Baccalauréat technique de la musique et de la danse Métropole septembre 2008

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Résolution d équations non linéaires

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Les allocataires des minima sociaux: CMU, état de santé et recours aux soins

Biostatistiques : Petits effectifs

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

CONTROLE DE GESTION. DUT GEA, 2 èm e année option PMO

Les coûts de la production. Microéconomie, chapitre 7

Sujet 4: Programmation stochastique propriétés de fonction de recours

Transcription:

Statistiques descriptives bivariées

ntroduction Soit une population ou un échantillon d effectif N. On observe deux caractères sur cette population, X et Y. On veut étudier les liens de dépendance ou d indépendance entre les deux variables. On va considérer successivement deux possibilités : X et Y sont des ensembles finis. Par exemple, on étudie les étudiants d UT-TC1. X est la couleur des yeux : X 2{bleus, marrons, verts} Y est la couleur des cheveux : Y 2{bruns, blonds, roux, chatains} X et Y sont des ensembles infinis. Par exemple, on étudie les français qui ont un emploi. X est leur revenu. Y est leur nombre d années d étude.

Section 1. Tableau de contingence On se place d abord dans le cas où X et Y sont des ensembles finis. Ce peut être deux variables qualitatives (nominales ou ordinales) ou deux variables quantitatives discrètes. On a une population d effectif N.

Tableau de contingence Notons x 1, x 2, x 3,... x p les modalités de X,ordonnéesdans l ordre croissant (si besoin). p est le nombre de modalités de X. Notons y 1, y 2, y 3,... y q les modalités de Y,ordonnéesdans l ordre croissant (si besoin). q est le nombre de modalités de Y. Exemple. Si X est la couleur des yeux : x1 = {bleue}, x 2 = {marron}, x 3 = {verte}, Si Y est la couleur des cheveux : y1 = {bruns}, y 2 = {blonds}, y 3 = {roux}, y 4 = chatains.

Tableau de contingence (2) L effectif du couple (x i, y j ) est noté n ij. C est le nombre d individus pour lesquels on a X = x i et Y = y j. Remarque px i=1 j=1 qx n ij = N La fréquence du couple (x i, y j ) est égale au nombre n ij /N. Le tableau de contingence est un tableau qui croise les différentes modalités des deux caractères.

Tableau de contingence (3) Le tableau de contingence est représenté de la façon suivante : X /Y y 1... y j... y q Total x 1 n 1,1... n 1,j... n 1,q n 1,.................. x i n i,1... n i,j... n i,q n i,.................. x p n p,1......... n p,q n p, Total n,1 n,j n,q N Le tableau représente la distribution conjointe du couple (X, Y ).

Tableau de contingence (4) Dans le tableau précédent, n i, = P q j=1 n ij s appelle l effectif marginal de x i. n,j = P p i=1 n ij s appelle l effectif marginal de y j.

Tableau de contingence (5) Exemple. On a interrogé 130 actifs avec un emploi sur leur métiers et leurs votes lors du second tour des présidentielles. On a obtenu les résultats suivants. Hollande Sarkozy Agriculteurs 10 15 Commerçants 15 20 Ouvriers 16 4 Enseignants 24 6 Entrepreneurs 5 15

Tableau de contingence (6) Calculons les effectifs marginaux. Hollande Sarkozy Totaux Agriculteurs 10 15 25 Commerçants 15 20 35 Ouvriers 16 4 20 Enseignants 24 6 30 Entrepreneurs 5 15 20 Totaux 70 60 130 Dans l échantillon, quel pourcentage a voté pour Hollande? quel pourcentage des ouvriers ont voté pour Sarkozy? quel pourcentage des électeurs de Hollande sont entrepreneurs? quel est le pourcentage d enseignants?

Représentation des données Comment représenter les données du tableau? Trois solutions : 1. Diagramme empilé

Représentation des données (2) 2. Diagramme à barres ou (moins bien)

Représentation des données (3) 3. Diagramme 3D : bof...

Etude de la dépendance entre les deux variables Les graphiques montrent que les comportements électoraux ne sont pas identiques selon les professions exercées. On dit qu il n y a pas indépendance entre la variable métier et la variable vote. Aquoiressembleraitletableaudecontingencesilesdeux variables étaient parfaitement indépendantes? l y a par exemple 25 agriculteurs. S ils suivaient le même comportement de vote que l ensemble de la population, une proportion 70/130 d entre eux auraient voté Hollande une proportion 60/130 d entre eux auraient voté Sarkozy.

Etude de la dépendance entre les deux variables (2) Ainsi on aurait 25 70 130 = 13.5 agriculteursquiauraientvoté Hollande et 25 60 130 = 11.5 qui auraient voté Sarkozy. On représente le tableau de contingence que l on aurait obtenu si les deux variables étaient parfaitement indépendantes. Quel est l effectif de la case (i, j) dans ce cas? C est n i, n,j N.

Etude de la dépendance entre les deux variables (3) On obtient le tableau de contingence théorique suivant: Hollande Sarkozy Totaux Agriculteurs 13.5 11.5 25 Commerçants 18.8 16.2 35 Ouvriers 10.8 9.2 20 Enseignants 16.2 13.8 30 Entrepreneurs 10.8 9.2 20 Totaux 70 60 130 Clairement le tableau associé à l hypothèse d indépendance n est pas du tout le même que le véritable tableau. Conclusion : les deux variables métier et vote ne sont pas indépendantes. On peut tester l indépendance de façon plus rigoureuse.

Etude de la dépendance entre les deux variables (4) Prenons un deuxième exemple. On veut étudier le lien entre situation professionnelle (CD/CDD) et acceptation d un prêt immobilier en considérant 200 personnes qui ont demandé un tel prêt. Acceptation Refus CD 90 30 CDD 20 60 On calcule les effectifs marginaux. Acceptation Refus Total CD 90 30 120 CDD 20 60 80 Total 110 90 200

Etude de la dépendance entre les deux variables (5) Quels seraient les effectifs théoriques si les deux variables étaient parfaitement indépendantes? Acceptation Refus Total CD 66 54 120 CDD 44 36 80 Total 110 90 200 Pour tester rigoureusement si les deux variables sont indépendantes, on calcule la statistique du khi deux ( 2 ): 2 = px qx (n ij m ij ) 2 m ij i=1 j=1 où les n ij sont les effectifs observés et m ij les effectifs théoriques associés à la situation d indépendance.

Etude de la dépendance entre les deux variables (6) Quand le 2 est proche de zéro ou petit, les valeurs des effectifs du tableau des données observées sont proches des valeurs théoriques correspondant à l indépendance. dans ce cas, les deux variables sont indépendantes. Quand le 2 est grand, les valeurs des effectifs du tableau des données observées sont éloignées des valeurs théoriques correspondant à l indépendance. dans ce cas, les deux variables ne sont pas indépendantes.

Etude de la dépendance entre les deux variables (7) Comment savoir si le 2 est grand ou petit? l existe des valeurs seuils données par une table. Pour les déterminer, il faut calculer le nombre de degrés de liberté (ddl)du tableau. l est égal à (p 1)(q 1). La table est ddl 1 2 3 4 5 6 7 8 9 seuil 3.84 5.99 7.81 9.49 11.07 12.59 14.06 15.5 16.92

Etude de la dépendance entre les deux variables (8) Prenons notre exemple avec les CDD/CDD et les prêts. Le 2 est égal à (90 66) 2 + 66 (30 54)2 54 + (20 44)2 44 + (60 36)2 36 l faut calculer le nombre de degrés de liberté du tableau. Dans notre tableau 2 2, il est égal à (2 1)(2 1) =1. = 48.48 Si la valeur du 2 que nous avons trouvée précédemment est supérieure à celle de la table pour le bon nombre de degrés de liberté, les deux variables ne sont pas indépendantes.

Etude de la dépendance entre les deux variables (9) La valeur seuil lue sur la table est égale à 3.84. On a 48.48 > 3.84 : les deux variables ne sont clairement pas indépendantes.

Etude de la dépendance entre les deux variables (10) Reprenons l exemple avec les professions et les votes à la présidentielle. La valeur du (10 13.5) 2 + 13.5 2 est égale à (15 11.5)2 11.5 +... + (15 9.2)2 9.2 = 24 Le nombre de degrés de liberté est égal à (5 1)(2 1) =4. Les deux variables sont-elles indépendantes? La valeur seuil lue sur la table est égale à 9.49. On a 24 > 9.49 : les deux variables ne sont pas indépendantes. On peut en conclure que les gens en CD obtiennent plus facilement un prêt immobilier que les gens en CDD.

Section 2. Corrélation et régression On étudie à présent la relation entre 2 variables quantitatives. Prenons l exemple d un groupe de douze jeunes femmes dont on a observé le poids et la taille. Personne Taille (cm) Poids (kg) 1 167 61 2 167 60 3 171 64 4 173 60 5 165 52 6 168 56 7 172 64 8 165 57 9 167 58 10 168 53 11 161 53 12 170 58

Corrélation et régression (2) On représente les deux variables à l aide d un diagramme de dispersion : taille en abscisse et poids en ordonnée. Les deux variables semblent liées par une relation croissante qui exprime un lien de causalité : le poids des femmes plus grandes est plus élevé.

Corrélation et régression (3) Attention! Qui dit relation entre deux variables ne dit pas forcément causalité!!! Exemple : on mesure le PB / tête européen (en euros) ainsi la taille d un arbuste (en cm) devant l UT de 2000 à 2010. On a obtenu le tableau suivant Année PB/tête UE Taille arbuste 2000 20000 50 2001 20500 55 2002 21100 61 2003 21500 64 2004 22000 68 2005 22600 73 2006 23200 77 2007 23600 82 2008 24100 86 2009 24000 92

Corrélation et régression (4) On obtient le graphique suivant ci pourtant il n y a pas relation de causalité entre les variables. Les deux variables sont en fait croissantes par rapport à une troisième variable : le temps!

Corrélation et régression (5) Revenons à notre exemple avec le poids et la taille. Quand l examen du nuage de points indique qu il est judicieux de supposer une relation de type linéaire entre Y et X alors on cherche à déterminer l équation d une droite y = ax + b où a et b sont deux réels telle que cette droite soit le plus près possible du nuage de points. La méthode des moindres carrés précise cette notion de proximité entre la droite (dite des moindres carrés ) et les points du nuage.

Davantage sur les moindres carrés Comment estime-t-on a et b? les estimateurs sont notés â et ˆb. On prend les différents couples de données observées (x i, y i ) pour i qui varie de 1 à n. Considérons le couple (x i, y i ). Quelle est la valeur estimée de yi par le modèle? Elle est égale à âxi + ˆb. Pour déterminer â et ˆb, onminimiselasommedescarrésentre valeur observée, y i, et valeur estimée, âx i + ˆb.

Davantage sur les moindres carrés (2) Le critère des moindres carrés consiste à déterminer les â et ˆb qui minimisent nx 2 (y i âx i ˆb) i=1

Corrélation et régression (7) Si l on dispose des couples d observations (x i, y i ),pour i = 1,, n et si on note x et ȳ, lesmoyennesrespectivesdex et Y, alors le couple (â, ˆb) solution de ce problème de minimisation est P n i=1 â = (x i x)(y i ȳ) P n i=1 (x i x) 2 et ˆb = ȳ â x

Corrélation et régression (8) On applique les calculs à notre exemple poids - taille. On trouve P x = 167.83 et ȳ = 58. n Pi=1 (x i x)(y i ȳ)=103 n i=1 (x i x) 2 = 123.67 et P n i=1 (y i ȳ) 2 = 180 Soit â = 103/123.67 = 0.83 et ˆb = ȳ â x = 81.79 Selon la régression, chaque centimétre supplémentaire est associé à 0.83 kg en plus. poids = 0.83 taille 81.79

Corrélation et régression (9) On peut représenter graphiquement la droite de régression

Coefficent de corrélation Pour mesurer la qualité de l ajustement de notre modèle aux données, on utilise le coefficient de corrélation. On appelle coefficient de corrélation linéaire le nombre réel P n i=1 r = (x i x)(y i ȳ) pp n i=1 (x i x) 2p P n i=1 (y i ȳ) 2 On peut montrer que 1 apple r apple 1. Si r = 0, on dit que les variables x et y sont non corrélées linéairement. Si r =1,lespoints(x i, y i ), i = 1,, n sont parfaitement alignés : la variable y est une fonction linéaire de la variables x. En pratique, la corrélation est d autant plus forte que r est proche de 1.

nterprétation du coefficient de corrélation

Retour à l exemple poids - taille On a r = P n i=1 (x i x)(y i ȳ) p Pn i=1 (x i x) 2p P n i=1 (y i ȳ) 2 = 103 p 123.67 p 180 = 0.69 La force de la corrélation est moyenne. C est normal : votre poids ne dépend pas seulement de la taille mais aussi de ce que vous mangez, du sport que vous faites, etc... Anoterquelastatistiquepeutfairedesrégessionsplus compliquées ( régressions multiples ) du type : poids = a 1 taille + a 2 calories consommées quotidiennement + b

Prévision avec le modèle Une fois qu on a déterminé â et ˆb et que le modèle est suffisamment bon (ce qu on mesure par le coefficent de corrélation), on peut utiliser le modèle pour faire de la prévision. Reprenons l exemple précédent avec le poids et la taille. Supposons qu on ait une femme de 1m62? Quel est la prédiction de son poids par le modèle? C est 0.83 162 81.79 = 52.67 kg.