1 Droite de régression de y en x



Documents pareils
Chapitre 3. Les distributions à deux variables

Statistiques à deux variables

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Que faire lorsqu on considère plusieurs variables en même temps?

Fonctions de deux variables. Mai 2011

Correction du bac blanc CFE Mercatique

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Relation entre deux variables : estimation de la corrélation linéaire

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Statistique Descriptive Élémentaire

Correction du baccalauréat STMG Polynésie 17 juin 2014

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Notion de fonction. Résolution graphique. Fonction affine.

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Leçon N 4 : Statistiques à deux variables

LE PROCESSUS ( la machine) la fonction f. ( On lit : «fonction f qui à x associe f (x)» )

Annexe commune aux séries ES, L et S : boîtes et quantiles

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Equations différentielles linéaires à coefficients constants

M2 IAD UE MODE Notes de cours (3)

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

Dérivées d ordres supérieurs. Application à l étude d extrema.

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

STATISTIQUES. UE Modélisation pour la biologie

Comment tracer une droite représentative d'une fonction et méthode de calcul de l'équation d'une droite.

Logiciel XLSTAT version rue Damrémont PARIS

TD1 Signaux, énergie et puissance, signaux aléatoires

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

La fonction exponentielle

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Pour l épreuve d algèbre, les calculatrices sont interdites.

Baccalauréat ES Amérique du Nord 4 juin 2008

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Calcul différentiel sur R n Première partie

COMPTE-RENDU «MATHS EN JEANS» LYCEE OZENNE Groupe 1 : Comment faire une carte juste de la Terre?

Fonctions de plusieurs variables

Travaux Pratiques d Optique

Continuité et dérivabilité d une fonction

Feuille TD n 1 Exercices d algorithmique éléments de correction

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Les équations différentielles

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Résumé du Cours de Statistique Descriptive. Yves Tillé

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Complément d information concernant la fiche de concordance

VI. Tests non paramétriques sur un échantillon

Chapitre 2 Le problème de l unicité des solutions

Utiliser un tableau de données

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Table des matières. I Mise à niveau 11. Préface

Cours Fonctions de deux variables

Loi binomiale Lois normales

Incertitudes expérimentales

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

1 Complément sur la projection du nuage des individus

Continuité en un point

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

PROBABILITÉS CONDITIONNELLES

Fluctuation d une fréquence selon les échantillons - Probabilités

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

Lecture graphique. Table des matières

MATHEMATIQUES APPLIQUEES Equations aux dérivées partielles Cours et exercices corrigés

DOCM Solutions officielles = n 2 10.

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

DUT Techniques de commercialisation Mathématiques et statistiques appliquées

Chapitre 6. Fonction réelle d une variable réelle

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Aide-mémoire de statistique appliquée à la biologie

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

sous réserve de validation des modifications DROIT ECONOMIE GESTION SCIENCES DU MANAGEMENT FINANCE

Fonctions de plusieurs variables. Sébastien Tordeux

Premiers pas avec Mathematica

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Union générale des étudiants de Tunisie Bureau de l institut Préparatoire Aux Etudes D'ingénieurs De Tunis. Modèle de compte-rendu de TP.

CAPTEURS - CHAINES DE MESURES

SOMMAIRE. 1. Préambule Le calendrier Trajectoire d un objet lancé Régression linéaire...9

Corrigé du baccalauréat S Asie 21 juin 2010

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Lois de probabilité. Anita Burgun

Exemples d application

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

Fonction inverse Fonctions homographiques

Théorème du point fixe - Théorème de l inversion locale

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Transcription:

CHU Amiens IFTLM 2ème année, UPJV IUP Santé 2012-2013 Statistique Cours 2 Statistique descriptive à deux variables - Régression Le cours précédent traitait de la statistique descriptive univariée, c est-à-dire de la description d une série statistique selon un seul caractère (la taille par exemple). On veut maintenant étudier, visualiser et mesurer les liens éventuels existant entre deux variables : c est l objet de la statistique descriptive bivariée. On considère une population sur laquelle on étudie deux variables quantitatives X et Y. On étudiera donc des séries statistiques à deux variables ; autrement dit un couple de variables (X, Y ). On veut savoir si les deux variables sont liées par une liaison fonctionnelle du type Y = f(x)(c est-à-dire que l on peut prévoir les valeurs de Y à partir des valeurs de X), ou bien X = g(y ) (c est-à-dire que l on peut prévoir les valeurs de X à partir des valeurs de Y ). Précisons dès maintenant que l existence d une telle liaison entre les deux variables X et Y ne signifie pas obligatoirement un lien de cause à effet entre elles (expliquer). Exemple fondamental : Y = ax + b (liaison affine). Sur un échantillon de n individus extrait de la population, on observe n couples (x 1, y 1 ),..., (x n, y n ) de valeurs de X et Y. Représentation graphique : nuage de points Ces observations peuvent être représentées dans le plan. A chaque couple (x i, y i ), i = 1,..., n, on fait correspondre un point M i. On obtient un nuage de point. La forme du nuage obtenu peut indiquer le type de dépendance possible entre X et Y. Si les points sont plutôt alignés, on peut envisager une relation de type Y = ax + b (équation de droite). Si le nuage forme une parabole, on peut envisager une relation de type Y = ax 2 + bx + c, etc... On dit que l on cherche à ajuster une courbe au nuage de points. 1 Droite de régression de y en x On cherche à ajuster une droite d équation y = ax + b au nuage de points. En fait, on essaie de minimer les distances entre les points du nuage M i (x i, y i ) et les points correspondant sur la droite P i (x i, ax i + b). On trouve un unique couple (a, b) qui minimise cette distance. On ne détaillera pas les calculs pour obtenir a et b. La droite de régression de y en x a pour équation : D y/x : y = ax + b avec a = avec les notations suivantes pour les moments : moyennes : x = 1 n i=1 x i, ȳ = 1 n i=1 y i. cov(x, y) s 2 x et b = ȳ a x variances : s 2 x = 1 n i=1 (x i x) 2, s 2 y = 1 n i=1 (y i ȳ) 2. covariance : cov(x, y) = 1 n i=1 (x i x)(y i ȳ) = 1 n i=1 x iy i xȳ. Exemple On considère la série double statistique suivante : x i 2 3 5 1 4 y i 4 9 11 3 8 Le nuage de points correspondant est représenté sur le graphique ci-dessous.

La droite de régression de y en x a pour équation y = ax + b avec a = cov(x,y) et b = ȳ a x. s 2 x Il vaudra mieux utiliser une calculatrice ou un tableur pour obtenir les coefficients a et b plutôt que d effectuer les calculs suivants x i y i x i y i x 2 i 2 4 8 4 3 9 27 9 5 11 55 25 1 3 3 1 4 8 32 16 15 35 125 55 On a x = 15 5 = 3, ȳ = 35 125 5 = 7, cov(x, y) = 5 3 7 = 4, s2 x = 55 5 32 = 2. On en déduit a = 4 2 = 2 et b = 7 2 3 = 1. La droite de régression de y en x a donc pour équation y = 2x + 1. On peut remarquer que cette droite passe par deux points du nuage : c est une coincidence! 2 Droite de regression de x en y On suit une démarche analogue à celle qui a donné la droite de régression de y en x, en échangeant le rôle de x et y. cov(x, y) D x/y : x = cy + d avec c = s 2 et d = x aȳ y On peut remarquer que les équations peuvent aussi s écrire D y/x : y ȳ = a(x x) D x/y : x x = c(y ȳ) Les droites D y/x et D x/y se coupent donc au point G( x, ȳ). Exemple Reprenons l exemple précédent. On a toujours x = 3, ȳ = 7, cov(x, y) = 4, s 2 x = 2 et a = 2.

On calcule s 2 y = 291 5 72 = 9, 2, d où c = cov(x,y) = 4 s 2 x 9,2 = 1 2,3. La droite de régression de x en y a donc pour équation x x = c(y ȳ), soit x 3 = 1 2,3 (y 7), c est-à-dire y = 2, 3x + 0, 1. On retrouve également une équation de la droite de régression de y en x : y ȳ = a(x x), soit y 7 = 2(x 3), c est-à-dire y = 2x + 1. Les droites D y/x et D x/y se coupent au point G( x, ȳ) = G(3, 7). 3 Coefficient de corrélation linéaire entre x et y Le coefficient de corrélation linéaire est défini par : r x,y = cov(x,y) s xs y. Qualité de l ajustement On peut démontrer que rx,y 2 1. On peut aussi montrer que rx,y 2 = 1 si et seulement si pour tout i =,..., n, M i (x i, y i ) D y/x, c est-à-dire si et seulement si les points M i sont alignés sur D y/x. De façon générale, plus rx,y 2 est proche de 1, meilleur est l ajustement de la droite de régression au nuage de points. Le signe de r x,y (qui est le même que celui de a) indique le sens de la liaison (croissante si r x,y > 0, décroissante si r x,y < 0) entre X et Y. Partageant arbitrairement le plan en secteurs de 30, on obtient 5 zones permettant de définir une bonne, médiocre ou mauvaise corrélation entre X et Y. Sachant que cos 30 = 3 2 0, 866 et cos 60 = 1 2, ce critère graphique se traduit numériquement par : 3 si 2 r x,y 1, il existe une bonne corrélation linéaire entre X et Y. si 1 2 r x,y 3 2, la corrélation linéaire entre X et Y est médiocre. si 0 r x,y 1 2, la corrélation linéaire entre X et Y est mauvaise. Siginfication de r x,y La question se pose de savoir si une forte valeur de r x,y (en valeur absolue) ou de r 2 x,y prouve qu il y a une forte corrélation entre les deux caractères X et Y (par exemple lorsque l ajustement est bon) ou si elle est due au hasard de l échantillonage (par exemple lorsque n est petit). Pour obtenir une réponse, on peut utiliser des tests statistiques (voir statistique inductive). 4 Exercices Exercice 1 Dans la série statistique suivante, x représente le nombre de jours d exposition au soleil d une feuille et y le nombre de stomates aérifères au millimètre carré : x 2 4 8 10 24 40 52 y 6 11 15 20 39 62 85

1. Déterminer une équation de la droite de régression de y en x. 2. Calculer le coefficient de corrélation linéaire entre x et y. Commenter le résultat. 3. Quel nombre de stomates peut-on prévoir après 30 jours d exposition au soleil? après 60 jours? Exercice 2 On sélectionne 12 personnes inscrites à un stage de formation. Avant le début de la formation, ces stagiaires subissent une épreuve A notée de 0 20. A l issue du stage, une épreuve B identique à la première est aussi notée de 0 20. Considérant les deux variables X =note de A et Y =note de B, on a obtenu les résultats suivants : stagiaire 1 2 3 4 5 6 7 8 9 10 11 12 x i 3 4 6 7 9 10 9 11 12 13 15 4 y i 8 9 10 13 15 14 13 16 13 19 6 19 1. (a) Représenter ces résultats par un nuage de points. (b) Quelle courbe d ajustement ce nuage vous suggère-t-il? 2. A partir des résultats obtenus, on a déterminé la droite de régression de y en x, ainsi que le coefficient de corrélation linéaire entre x et y. On a obtenu l équation y = 0, 180x + 11, 99 et r = 0, 101. Expliquer pourquoi l ajustement n est pas bon. 3. On décide d éliminer les stagiaires 11 et 12, et donc de ne tenir compte que des stagiaires 1 à 10. (a) Déterminer une équation de la droite de régression de y en x. (b) Calculer le coefficient de corrélation linéaire entre x et y. Interpréter le résultat obtenu. Exercice 3 Le tableau ci-dessous donne une estimation du montant des achats en ligne des ménages français : Année 1998 1999 2000 2001 2002 2003 2004 Rang de l année : x i 0 1 2 3 4 5 6 Montant d achats en millions d euros : y i 75 260 820 1650 2300 4000 5300 1. (a) Préciser la population, la(les) variable(s) étudiée(s) et la taille de l échantillon. (b) Donner une équation de la droite de régression de y en x. (c) Donner le coefficient de corrélation linéaire entre x et y. Interpréter le résultat obtenu. (d) Quelle prévision du montant d achats peut-on faire pour l année 2005? Est-elle fiable? 2. On considère la nouvelle variable z = y. (a) Déterminer une équation de la droite de régression de z en x, ainsi que le coefficient de corrélation linéaire entre x et z. Interpréter le résultat obtenu. (b) En déduire une expression de y en fonction de x, puis une prévision du montant d achats pour l année 2005. 3. A partir du tableau de données, le logiciel Excel propose un ajustement polynomial par l équation y = 130x 2 + 100x + 68. (a) S agit-il du même ajustement que celui obtenu dans le 2)? Expliquer cette situation. (b) Déduire de cet ajustement une prévision du montant d achats pour l année 2005. 4. Le montant des achats en ligne en 2005 a été de 7700 millions d euros. Lequel des trois ajustements précédents vous paraît-il le plus conforme à la réalité? Justifier votre réponse.

Exercice 4 Le tableau ci-dessous donne l évolution, par période de 5 ans, de la population (en millions d habitants) de l Allemagne ; il s agit de la population globale des deux Allemagnes (RDA et RFA) de 1958 à 1973, puis de la population de l Allemagne réunifiée de 1993 à 2008. Année 1958 1963 1968 1973 1993 1998 2003 2008 Rang de l année : x i 1 2 3 4 8 9 10 11 Population : y i 71.5 74.4 77 78.8 81 82.1 82.5 82.2 1. Représenter graphiquement la série statistique (x i, y i ). 2. On commence par chercher un ajustement affine. (a) Donner une équation de la droite de régression de y en x. Donner le coefficient de corrélation linéaire entre x et y. interpréter le résultat obtenu. (b) En déduire une estimation de la population de l Allemagne en 2018. L estimation est-elle fiable? 3. On cherche maintenant un ajustement de type logarithmique, autrement dit à modéliser le phénomène étudié par une relation du type y = a ln(x) + b. Pour cela, on considère la nouvelle variable z = ln(x). (a) Effectuer une régression permettant d obtenir les coefficients a et b. Préciser les variables considérées de donner le coefficient de corrélation linéaire correspondant. Interpréter le résultat obtenu. (b) En déduire une estimation de la population de l Allemagne en 2018. L estimation est-elle fiable? 4. Comparer les deux estimations des 2)b) et 3)b) et commenter les résultats obtenus. Lequel des deux ajustmements est le meilleur?