TP 5 : Statistiques descriptives bivariées

Documents pareils
Chapitre 3. Les distributions à deux variables

Annexe commune aux séries ES, L et S : boîtes et quantiles


Relation entre deux variables : estimation de la corrélation linéaire

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Transmission d informations sur le réseau électrique

Leçon N 4 : Statistiques à deux variables

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Note de cours. Introduction à Excel 2007

Simulation de variables aléatoires

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Que faire lorsqu on considère plusieurs variables en même temps?

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

L analyse boursière avec Scilab

TSTI 2D CH X : Exemples de lois à densité 1

Cours d Analyse. Fonctions de plusieurs variables

Chapitre 2 Le problème de l unicité des solutions

Manuel d Utilisateur - Logiciel ModAFi. Jonathan ANJOU - Maud EYZAT - Kévin NAVARRO

Notion de fonction. Série 1 : Tableaux de données. Série 2 : Graphiques. Série 3 : Formules. Série 4 : Synthèse

3. Caractéristiques et fonctions d une v.a.

Calcul intégral élémentaire en plusieurs variables

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Correction du bac blanc CFE Mercatique

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Cours 7 : Utilisation de modules sous python

TP 7 : oscillateur de torsion

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Probabilités et Statistique

Couples de variables aléatoires discrètes

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Algorithmique avec Algobox

Comment tracer une droite représentative d'une fonction et méthode de calcul de l'équation d'une droite.

Statistiques Descriptives à une dimension

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Master Modélisation Aléatoire Paris VII, Cours Méthodes de Monte Carlo en nance et C++, TP n 2.

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Optimisation des fonctions de plusieurs variables

données en connaissance et en actions?

LES TYPES DE DONNÉES DU LANGAGE PASCAL

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Programmes des classes préparatoires aux Grandes Ecoles

LimeSurvey Editeur de Questionnaire

Compte-rendu de projet de Système de gestion de base de données

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Rappels sur les suites - Algorithme

Rappel. Analyse de Données Structurées - Cours 12. Un langage avec des déclaration locales. Exemple d'un programme

Le théorème de Thalès et sa réciproque

Développements limités. Notion de développement limité

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

1 Complément sur la projection du nuage des individus

SweetyPix, mode d'emploi

(VM(t i ),Q(t i+j ),VM(t i+j ))

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

TP : Shell Scripts. 1 Remarque générale. 2 Mise en jambe. 3 Avec des si. Systèmes et scripts

TRAVAUX PRATIQUES SCIENTIFIQUES SUR SYSTÈME

VI. Tests non paramétriques sur un échantillon

TP2 - Conguration réseau et commandes utiles. 1 Généralités. 2 Conguration de la machine. 2.1 Commande hostname

Enoncé et corrigé du brevet des collèges dans les académies d Aix- Marseille, Montpellier, Nice Corse et Toulouse en Énoncé.

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Statistiques à deux variables

Optimiser les performances du mouvement de monte de l Axe Z.

Probabilités III Introduction à l évaluation d options

La Clé informatique. Formation Excel XP Aide-mémoire

Algorithmique avec Algobox

Université Paris-Dauphine DUMI2E 1ère année, Applications

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

1 Démarrer L écran Isis La boite à outils Mode principal Mode gadget Mode graphique...

POKER ET PROBABILITÉ

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Mini_guide_Isis.pdf le 23/09/2001 Page 1/14

CAPTEURS - CHAINES DE MESURES

Processus aléatoires avec application en finance

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Les devoirs en Première STMG

Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane

Structures algébriques

Résolution d équations non linéaires

OM 1 Outils mathématiques : fonction de plusieurs variables

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Cours Langage C/C++ Programmation modulaire

Licence de Biologie, 1ère année. Aide. [Aide 1] Comment utiliser l'explorateur Windows? Comment créer des dossiers?

1. Création d'un état Création d'un état Instantané Colonnes Création d'un état Instantané Tableau... 4

Ordonnancement. N: nains de jardin. X: peinture extérieure. E: électricité T: toit. M: murs. F: fondations CHAPTER 1

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

CNAM UE MVA 210 Ph. Durand Algèbre et analyse tensorielle Cours 4: Calcul dierentiel 2

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Séance 0 : Linux + Octave : le compromis idéal

I- Définitions des signaux.

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

M2 IAD UE MODE Notes de cours (3)

Propagation sur réseau statique et dynamique

Compte rendu des TP matlab

Transcription:

TP 5 : Statistiques descriptives bivariées Dans une population donnée, il peut arriver que l'on souhaite étudier simultanément deux caractères X et Y. On peut alors s'intéresser aux propriétés de chacun des 2 caractères pris séparément (statistiques univariées), mais aussi au lien entre ces 2 caractères (statistiques bivariées) ; on étudie alors le couple de caractères Z = (X, Y ). En particulier, on peut penser que l'une des variables, X par exemple, est une cause de l'autre, par exemple Y. On dit alors que X est la variable explicative et Y est la variable à expliquer. Dans ce cas, on tentera d'exprimer Y en fonction de X en commençant par tracer le nuage des points de Y en fonction de X pour deviner la relation entre ces données. Remarque : En informatique, nous nous intéresserons à l'étude statistique du couple (X, Y ) (étude d'une série statistique obtenue en eectuant plusieurs simulations de ce couple). Les notions introduites dans ce TP permettent de donner une dénition pratique des notions probabilistes qui seront introduites dans le chapitre "couple de variables aléatoires" en mathématiques. En interrogeant un échantillon de la population mondiale Ω, on peut étudier le lien entre l'âge et l'acuité visuelle. A priori, la variable explicative est alors l'âge (caractère X) et la variable à expliquer est l'acuité visuelle (caractère Y ). On interroge alors un échantillon d'individus ; pour l'individu n o i sondé au hasard, on note M i = (x i, y i) le couple de résultats obtenus et on trace alors le nuage comme expliqué ci-après : 1. Modèle de régression a) Nuage de points et point moyen Remarque : Prérequis Scilab : la fonction plot2d Taper les instructions : -->x=1:5, y=[2 8 1 5 4], plot2d(x,y,style=-1,rect=[0 0 6 10]) Que fait exactement la fonction plot2d? A quoi sert l'option rect=[0 0 6 10]? Relancer les instructions en changeant uniquement le style : on testera les styles -2, -3, 1,2,5, 0. On appelle nuage de points associé à la série des n couples (x i, y i ) l'ensemble des points M i de coordonnées (x i, y i ) tracés dans un repère orthonormé du plan. L'examen du nuage de points permet de faire des constatations qualitatives : est-il concentré ou dispersé? relève-t-on une tendance? (variations dans le même sens (covariance positive)? suit une courbe particulière? (courbe de régression)?...) y-a-t-il des valeurs a priori aberrantes? Si l'on note x la moyenne des x i et y la moyenne des y i, alors le point de coordonnées (x; y) est le point moyen du nuage. Si l'on considère X comme la variable explicative et Y comme la variable à expliquer, chercher un modèle de régression consiste à savoir si Y est à peu près fonction de X (à quelques erreurs près) ( Y f(x)) ou plus précisément à mettre Y sous la forme : Y = f(x) + ε 1

où la fonction f est appelée fonction de régression et ε est une variable aléatoire appelée erreur d'ajustement (ou résidus). On considère alors que la régression est correcte si ε est d'espérance nulle et que le nuage de points de (X, ε) ne se répartit pas autour de 0 selon une direction précise. Si une telle formule existe, on dit que les variables sont corrélées. Sinon, on dit qu'elles sont non corrélées. On dit que la corrélation est forte quand l'erreur est globalement très faible. Sinon, on dit que la corrélation est faible. Exercice 1. Nous allons comparer deux sondages étudiant le lien entre la taille X et le poids Y d'un individu. 1. A priori, quelle est la variable explicative et quelle est la variable à expliquer? 2. Sondage au Japon : individu n o i 1 2 3 4 5 6 7 8 taille x i en cm 161 170 152 181 163 145 168 175 poids y i en kg 58 66 52 73 60 45 65 68 Tracer le nuage de points de cet exemple et placer le point moyen avec un symbole diérent. Modier les axes : on souhaite que l'axe des abscisses aille de 140 à 200 cm et l'axe des ordonnées de 0 à 140 kg. X et Y sont-elles corrélées? fortement corrélées? 3. Sondage aux USA : individu n o i 1 2 3 4 5 6 7 8 taille x i en cm 169 195 177 182 166 155 189 174 poids y i en kg 90 95 115 90 70 60 80 70 Sur une nouvelle gure, tracer le nuage de points de cet exemple et placer le point moyen avec un symbole diérent. Modier les axes : on souhaite que l'axe des abscisses aille de 140 à 200 cm et l'axe des ordonnées de 0 à 140 kg. X et Y sont-elles corrélées? fortement corrélées? 4. Donner des explications à ces résultats. b) Covariance La covariance théorique (probabiliste) d'un couple (X, Y ) de variables aléatoires est déni par : cov(x, Y ) = E ((X E(X))(Y E(Y ))) mais le théorème de Koenig-Huygens permet également de la calculer par la formule cov(x, Y ) = E(XY ) E(X)E(Y ) Par analogie, La covariance empirique (statistique) d'un n-échantillon du couple (X, Y ) est dénie par cov(x, y) = 1 n (x i x)(y i y) n Le théorème de Koenig-Huygens donne : cov(x, y) = 1 n i=1 n x i y i xy i=1 Remarque En Scilab, la covariance se calcule soit par l'instruction corr(x,y,1) (on ne l'utilisera pas), soit en utilisant la dénition i.e. mean((x-mean(x)).*(y-mean(y))),ou le théorème de Koenig-Huygens i.e. mean(x.*y)-mean(x)*mean(y) 2

La covariance détermine le lien de variations entre X et Y. En particulier, si X et Y sont indépendantes alors cov(x, Y ) = 0. La réciproque est fausse! En général, si cov(x, Y ) > 0 alors X et Y varient plutôt simultanément dans le même sens (par exemple si X et la taille et Y le poids des individus), si cov(x, Y ) < 0 alors X et Y varient plutôt simultanément dans des sens opposés (par exemple si X est le poids et Y l'espérance de vie des individus). Exercice 2. Nous allons vérier que la loi normale centrée est une bonne modélisation d'une erreur due à plusieurs phénomènes aléatoires (utiliser Scinote). 1. Compléter et taper l'instruction suivante qui crée une série statistique x = [x 1, x 2,..., x 20 ] pour laquelle X i = i + U i où U i est un réel choisi au hasard dans le segment [ 1 2 ; 1 2 ] : x= ************+grand(1,20,'unf',-1/2,1/2) 2. Compléter et taper l'instruction suivante qui crée une série statistique z = [z 1, z 2,...z 20 ] pour laquelle les Z i sont indépendants, indépendants des X i, et suivent une loi normale centrée de variance 0.25 : z=grand(****,****,****,****,****) 3. On dénit Y = 2 X + Z. Dessiner le nuage de points associé à cet échantillon du couple (X, Y ) et son point moyen. Quelle fonction de régression permet le mieux d'exprimer Y "à peu près" en fonction de X? Le conrmer en tapant les instructions : plot2d(x,2-x,style=5) scf(1),plot2d(x, y-(2-x),style=-1) et en interprétant les résultats. Calculer et acher la covariance empirique du couple (X, Y ) sur cet échantillon et vérier la cohérence du résultat. 4. Faire le même travail avec Y = X 2 + Z et Y = exp( X) + Z. On pourra tracer respectivement les courbes d'équation y = x 2 et y = exp(x). Enoncez ce que vous constatez. 2. Régression linéaire a) La méthode des moindres carrés On se place dans le cas particulier où l'on souhaite savoir si la courbe de Y en fonction de X peut être approximée par une droite. On cherche donc a et b deux constantes telles que Y ax + b (ou Y = ax + b + ε). Dans ce cas, on peut utiliser la méthode des moindres carrés qui nous donne l'équation de la droite la plus proche des points en terme de distance : Théorème 1(admis) La droite la plus proche du nuage des points est la droite d'équation y = ax + b où a = cov(x, y) V (x) et b = y ax Cette droite passe toujours par le point moyen, d'où l'équation y = ax + b b = y ax. b) Coecient de corrélation linéaire On appelle coecient de corrélation linéaire le nombre ρ (rho) déni par ρ(x, Y ) = cov(x, y) σ(x)σ(y) (où σ désigne l'écart-type) Théorème : ρ [ 1; 1]. Et ρ = ±1 si et seulement si la régression Y = ax + b est exacte. Conséquence : Si ρ est proche de 1 (en sciences humaines et en sciences économiques où beaucoup de 3

facteurs interviennent, une valeur de ρ(x, y) de l'ordre 0,85 est souvent considérée comme bonne ), cela peut nous permettre de conrmer qu'il y a bien une corrélation linéaire entre X et Y. Mais à condition d'avoir visualisé une relation linéaire entre les données car ce n'est pas toujours vrai : Exercice 3. contreexemple Un bon coecient de corrélation n'assure pas une relation ane entre X et Y : 1. Créer la série statistique x = [1, 2, 3,..., 20] et y = [y 1, y 2,..., y 20 ] tel que Y i = i 2 + U i où U i est un réel choisi au hasard dans le segment [0; 1]. Tracer le nuage de points (x, y), le point moyen et la courbe d'équation y = x 2 sur la même gure. Commenter. 2. Mémoriser dans une variable c la covariance empirique du couple (x, y) et dans des variables v1 et v2 les variances empiriques des séries statistiques x et y. 3. Calculez et achez les coecients a et b de la droite de régression, faites tracer la droite de régression puis calculez et achez le coecient de corrélation linéaire. Commentez. 4. Nous allons conrmer que l'approximation n'est pas bonne en traçant les résidus (erreur d'ajustement). En eet, si l'on fait une régression (ici, Y = ax + b + ε), l'approximation de Y par ax + b est satisfaisante si les résidus de ε sont disposés symétriquement et sans structure particulière. Si ce n'est pas le cas, c'est que la relation entre X et Y n'est pas ane, il faut alors trouver une autre formule. Tapez : scf(1), plot2d(x, y-(a*x+b),style=-1), scf(0) Conclure. 5. Pour ajuster au moyen d'une formule qui n'est pas ane, il faut avoir une idée de cette formule. Dans cet exemple, la formule exprimant Y en fonction de X est Y = X 2 + N, il est donc raisonnable de poser le changement de variable Z = X 2 et chercher un ajustement ane de la forme Y = az +b. Modier le programme précédent pour répondre aux mêmes questions mais avec le couple (Z, Y ) au lieu du couple (X, Y ) (ps : fermer les fenêtres graphiques avant d'exécuter). Commenter les résultats obtenus. Exercice 4. Cet exercice a pour but de montrer que lorsqu'on manipule des données réelles, les choses sont moins simples. Les tableaux suivants fournissent des données arrondies sur la France métropolitaine : A 1950 1956 1960 1965 1969 1973 1979 1985 1990 2000 2005 2006 2008 2009 2010 2011 2012 W 63 85 90 115 145 180 193 202 229 269 277 276 273 261 263 265 259 G 30 41 50 66 80 100 120 132 154 188 203 208 213 206 210 214 214 où A est l'année, W est la consommation d'énergie primaire en TEP et G est le PIB en volume. 1. Tracez le nuage de points associé à (W, G). Une partie des points est bien alignée et on a un "petit tas" de points. Rajouter 'instruction plot2d(w,g,style=5) : elle permet d'observer l'évolution temporelle. On constate qu'à partir de l'an 2000, la contrainte énergétique semble avoir précédé l'arrêt de la croissance. 2. En ne considérant que les données entre 1950 et 2000, tracez la droite de régression associée au couple (W, G) et achez la valeur du coecient de corrélation, faites tracer cette droite. Interprétez. 3. Etudiez sur une nouvelle gure le nuage de points associé à la série chronologique (A, G/W ). On voit que l'ecacité énergétique G/W a fortement augmenté entre 1973 et 1985 et depuis l'an 2000. 3. Tableau de contingence 4

Exercice 5. On considère X une variable de Poisson de paramètre 2 et Y une variable aléatoire dont la loi conditionnelle sachant [X = k] est une loi de Poisson de paramètre k. 1. Dans le programme suivant, compléter la fonction simul_couple qui eectue une simulation du couple (X, Y ) et renvoit les valeurs x et y obtenues : function [x,y]=simul_couple() x=grand(****,****,****,****) y=grand(****,****,****,****) endfunction x=zeros(1,20) y=zeros(1,20) for k=1:20 do [x(k),y(k)]=simul_couple() end disp([x;y]) Expliquer les diérentes instructions du programme puis l'exécuter. 2. Sans le taper, trouver ce que fait le programme suivant et donner la matrice F obtenue (on fera tourner le programme à la main en utilisant le tableau aché ci-avant) : l=max(x) m=max(y) N=zeros(l+1,m+1) for i=1:20 do end F=N/20 N(x(i)+1, y(i)+1)=n(x(i)+1,y(i)+1)+1 disp(f) Vérier le résultat en tapant les instructions. On a alors obtenu le tableau de la loi empirique du couple (X, Y ). si on eectuait un grand nombre de simulations (10000 au lieu de 20), cette loi empirique serait très proche de la loi théorique (loi de probabilité) du couple (X, Y ). Bilan : Comme pour les statistiques univariées, il y a deux façons de donner des données statistiques : - Soit sous forme de données brutes : x 0 1 1 2 2 1 2 2 1 1 y 4 6 8 8 8 4 6 6 8 6 - Soit sous forme groupée : sous forme d'un tableau de contingence qui donne uniquement les valeurs (modalités) distinctes prises par X, les valeurs (modalités) distinctes prises par Y et l'eectif (ou la fréquence) de chacun des couples de valeurs : Les données ci-dessus sont regroupées ainsi : x \ y 4 6 8 0 1 0 0 1 1 2 2 2 0 2 2 Il faut être capable de reconnaître un programme qui range des données brutes dans un tableau de contingence (cf exo 5). On peut alors créer le tableau de contingence des fréquences en divisant les eectifs par l'eectif total F= N/sum(N) : x \ y 4 6 8 0 0.1 0 0 1 0.1 0.2 0.2 2 0 0.2 0.2 5