Corrélation linéaire et régression linéaire simple

Documents pareils
Chapitre 3. Les distributions à deux variables

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

STATISTIQUES. UE Modélisation pour la biologie

Statistiques à deux variables

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Régression linéaire. Nicolas Turenne INRA

Comment tracer une droite représentative d'une fonction et méthode de calcul de l'équation d'une droite.

Leçon N 4 : Statistiques à deux variables

Relation entre deux variables : estimation de la corrélation linéaire

Séquence 2. Repérage dans le plan Équations de droites. Sommaire

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Que faire lorsqu on considère plusieurs variables en même temps?

Structures algébriques

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

3. Conditionnement P (B)

Le Modèle Linéaire par l exemple :

Espérance conditionnelle

Introduction aux Statistiques et à l utilisation du logiciel R

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

OM 1 Outils mathématiques : fonction de plusieurs variables

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

VI. Tests non paramétriques sur un échantillon

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

Analyse de la variance Comparaison de plusieurs moyennes

TESTS D'HYPOTHESES Etude d'un exemple

Activités numériques [13 Points]

Raisonnement par récurrence Suites numériques

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Équations non linéaires

Méthode : On raisonnera tjs graphiquement avec 2 biens.

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Introduction à l approche bootstrap

Econométrie La régression linéaire simple et multiple

Correction du bac blanc CFE Mercatique

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

DUT Techniques de commercialisation Mathématiques et statistiques appliquées

Résumé du Cours de Statistique Descriptive. Yves Tillé

L Econométrie des Données de Panel

Plan. 5 Actualisation. 7 Investissement. 2 Calcul du taux d intérêt 3 Taux équivalent 4 Placement à versements fixes.

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Corrigés Exercices Page 1

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

1 Complément sur la projection du nuage des individus

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Exemples d utilisation de G2D à l oral de Centrale

Fonctions de plusieurs variables

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Exemples d application

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

6 Equations du première ordre

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

M2 IAD UE MODE Notes de cours (3)

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Géométrie dans l espace Produit scalaire et équations

Programmes des classes préparatoires aux Grandes Ecoles

Cours Fonctions de deux variables

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

LA GESTION DU RISQUE DE CHANGE. Finance internationale, 9 ème édition Y. Simon et D. Lautier

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

Quantification Scalaire et Prédictive

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

Le théorème de Thalès et sa réciproque

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Cours 7 : Utilisation de modules sous python

Cours de méthodes de scoring

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

Rupture et plasticité

Biostatistiques : Petits effectifs

Chapitre 2 Introduction aux objectifs des coûts. Pr. Zoubida SAMLAL-Doctorante en Risk Management MBA, CFA

SOMMAIRE. 1. Préambule Le calendrier Trajectoire d un objet lancé Régression linéaire...9


Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

MA6.06 : Mesure et Probabilités

C f tracée ci- contre est la représentation graphique d une

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Enoncé et corrigé du brevet des collèges dans les académies d Aix- Marseille, Montpellier, Nice Corse et Toulouse en Énoncé.

Fonctions de deux variables. Mai 2011

Corrigé du baccalauréat S Asie 21 juin 2010

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

Lecture graphique. Table des matières

Exercices - Polynômes : corrigé. Opérations sur les polynômes

CONJUGUÉ D'UN POINT PAR RAPPORT À UN TRIANGLE

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

ICC août 2015 Original: anglais. L'impact du prix du pétrole et du taux de change du dollar américain sur les prix du café

Introduction à l étude des Corps Finis

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Projet de synthèse de l'électronique analogique : réalisation d'une balance à jauges de contrainte

Estimation et tests statistiques, TD 5. Solutions

Transcription:

Corrélation linéaire et régression linéaire simple IUT Carquefou Année 2008-2009 segolen.geffray@univ-nantes.fr

Notion de corrélation Contexte : on soupçonne qu il existe une liaison entre deux variables X et Y. Par exemple, existe-t-il un lien entre le volume des ventes d une entreprise et le montant alloué à la publicité? De même, existe-t-il un lien entre le poids de courrier reçu par une entreprise chaque matin et le nombre de commandes traitées dans la journée? Notion : on dit qu il y a corrélation entre deux variables lorsqu elles ont tendance à varier soit toujours dans le même sens (par exemple, si X augmente, Y a tendance à augmenter aussi), soit toujours en sens inverse (par exemple, si X augmente, Y a tendance à diminuer). Questions mathématiques : Peut-on quantifier cette liaison? Peut-on tester si cette liaison est statistiquement significative? Peut-on utiliser cette liaison à des fins prédictives?

Observations de couples de variables Regarder ses données!!! Tracer le nuage de points : y a-t-il liaison linéaire, non-linéaire, pas de liaison???? 2 4 6 8 0 5 10 15 valeur des xi valeur des yi 2 4 6 8 5 10 15 20 25 valeur des xi valeur des yi 2 4 6 8 5 10 15 20 25 valeur des xi valeur des yi 0 500 1000 1500 0 100 300 500 valeur des xi valeur des yi

Coefficient de corrélation linéaire Le coefficient de corrélation de Pearson ρ mesure le degré d association linéaire entre X et Y : E[XY ] E[X ]E[Y ] ρ =. σ(x )σ(y ) ρ est un nombre forcément compris entre 1 et 1. Le nombre ρ sert à quantifier l intensité et le sens de la dépendance linéaire entre X et Y. Lorsque ρ > 0, cela signifie que lorsqu une des variables a tendance à augmenter, l autre aussi. Lorsque ρ < 0, cela signifie que lorsqu une des variables a tendance à augmenter, l autre a tendance à diminuer. Lorsque ρ = 0, on dit que X et Y sont non corrélées : il n y a pas d association linéaire entre X et Y. ρ ± 1 l une des variables est une fonction affine de l autre, par exemple Y est une fonction affine de X i.e. Y = ax + b avec b du signe de ρ. Lorsque X et Y sont indépendantes, ρ = 0 mais la réciproque est fausse!!! Si ρ = 0, X et Y ne sont pas forcément indépendantes, par ex : soit X de loi normale et soit Y = X 2, alors ρ = 0 mais X et Y ne sont pas indépendantes.

Estimation du coefficient de corrélation Les données : pour chaque individu d un échantillon de taille n, on relève les valeurs prises par X et Y. On obtient n couples indépendants les uns des autres notés (x i, y i ) pour i = 1,..., n. Un estimateur de ρ est : n i=1 r = x iy i n x y ( n i=1 x i 2 nx 2) ( n i=1 y i 2 ny 2) avec x = 1 n n i=1 x i et y = 1 n n i=1 y i. r est un nombre compris entre 1 et 1. Lorsque les points de coordonnées (x i, y i ) pour i = 1,..., n sont parfaitement alignés, alors r = 1. Lorsqu on obtient un nuage flou de points, r est proche de 0. Plus les points sont étroitement concentrés autour d une droite, plus r est proche de 1. C est la concentration des points autour de la droite en question qui indique l intensité de la liaison tandis que c est la pente de la droite qui indique le sens de la liaison.

Test de l hypothèse H 0 : ρ = ρ 0 Conditions d application : n 30 Soit un échantillon (X 1, Y 1 ),..., (X n, Y n ) un échantillon. On teste H 0 : ρ = ρ 0 contre une hypothèse alternative H 1. La forme de la région de rejet dépend de la forme de H 1. L erreur de 1ère espèce est fixée à α. H 1 ρ ρ 0 ρ > ρ 0 ρ < ρ 0 Décision ( ) ( ) 1+r Rejeter H 0 si log 1 r > log 1+ρ0 1 ρ 0 + F 1 N (1 α/2) 2 ( ) ( ) n 3 1+r ou log 1 r < log 1+ρ0 1 ρ 0 F 1 N (1 α/2) 2 ( ) ( ) n 3 1+r Rejeter H 0 si log 1 r > log 1+ρ0 1 ρ 0 + F 1 N (1 α) 2 ( ) ( ) n 3 1+r Rejeter H 0 si log 1 r < log 1+ρ0 1 ρ 0 F 1 N (1 α) 2 n 3

Régression linéaire Les données : on dispose d un échantillon de n couples (x i, y i ) pour i = 1,..., n indépendants les uns des autres. Régression linéaire : on cherche d une relation linéaire entre X =variable explicative=variable de régression et Y =variable à expliquer=réponse. Modèle linéaire : Y = ax + b + ε où ε est une variable aléatoire appelée erreur résiduelle satisfaisant E[ε] = 0 et Var(ε) = σ 2. Droite de régression : y = ax + b à ajuster sur les données au sens des moindres carrés Droite de régression estimée (meilleure droite ajustée) : y = âx + b avec â=estimateur de a et b=estimateur de b : n i=1 â = x iy i n x y n i=1 x i 2 nx 2 b = y â x On appelle réponse prédite au point x i la valeur ŷ i = âx i + b. On appelle résidu au point x i la valeur e i = y i ŷ i représentant la différence entre la réponse observée y i et la réponse prédite ŷ i.

Analyse des sources de variabilité La variabilité totale des données (correspondant à SCT) se décompose entre la variabilité expliquée par le modèle de régression (correspondant à SCR) et la variabilité résiduelle ou terme d erreur (correspondant à SCE) de la façon suivante : SCT = SCR + SCE avec SCT = n i=1 (y i y) 2 = n i=1 y i 2 ny 2 =somme des carrés totale SCE = n i=1 (y i ŷ i ) 2 =somme des carrés d erreur SCR = n i=1 (ŷ i y) 2 =somme des carrés de régression On appelle moyenne des carrés de régression le terme MCE défini par : i=1 MCE = SCE n 2. NB : on peut noter : n n S xx = xi 2 nx 2 S yy = yi 2 ny 2 S xy = i=1 n x i y i nx y i=1

Intervalle de confiance pour les paramètres Un IC bilatéral au niveau de confiance 1 α pour le paramètre a est donné par : P[â inf a â sup ] = 1 α avec â inf = â F 1 T (n 2) (1 α/2) MCE S xx â sup = â + F 1 T (n 2) (1 α/2) MCE S xx Un IC bilatéral au niveau de confiance 1 α pour le paramètre b est donné par : P[ b inf b b sup ] = 1 α avec binf = b F 1 T (n 2)(1 α/2) MCE bsup = b + F 1 T (n 2)(1 α/2) MCE ( 1 n + x 2 S xx ( 1 n + x 2 S xx ) )

Test pour le paramètre a ou significativité de la régression On teste l hypothèse nulle H 0 : a = 0 contre l hypothèse alternative H 1 avec un risque de 1ère espèce fixé à α. La forme de la région de rejet dépend de la forme de H 1. H 1 a 0 a > 0 a < 0 Décision Rejeter H 0 si â < F 1 T (n 2) (1 α/2) MCE S xx ou si â > F 1 T (n 2) (1 α/2) MCE S xx Rejeter H 0 si â > F 1 T (n 2) (1 α) MCE S xx Rejeter H 0 si â < F 1 T (n 2) (1 α) MCE S xx Si on ne rejette pas H 0, cela signifie que les données ne permettent pas de mettre en évidence une influence linéaire de X sur Y.

Diagnostic de régression Coefficient de détermination : le coefficient de détermination multiple est le nombre R 2 défini par : R 2 = SCR SCT Ce coefficient est une mesure de la variabilité expliquée par le modèle de régression linéaire. Il vérifie toujours 0 R 2 1. Plus R 2 est proche de 1, plus le modèle choisi semble pertinent. Analyse des résidus : on appelle résidus studentisés les termes r i pour i = 1,..., n définis par : r i = e i ( 1 1 n (x i x) 2 S xx ) MCE On analyse les résidus studentisés en disant que si r i > 2 alors soit y i est une observation aberrante, soit y i est dans une région où le modèle estimé n est pas réaliste.

Du bon usage du coefficient de corrélation linéaire données A données B données C données D x y x y x y x y 10 8.04 10 9.14 10 7.46 8 6.58 8 6.95 8 8.14 8 6.77 8 5.76 13 7.58 13 8.74 13 12.74 8 7.71 9 8.81 9 8.77 9 7.11 8 8.84 11 8.33 11 9.26 11 7.81 8 8.47 14 9.96 14 8.10 14 8.84 8 7.04 6 7.24 6 6.13 6 6.08 8 5.25 4 4.26 4 3.10 4 5.39 19 12.50 12 10.84 12 9.13 12 8.15 8 5.56 7 4.82 7 7.26 7 6.42 8 7.91 5 5.68 5 4.74 5 5.73 8 6.89 Dans les 4 cas, on a x = 9, y = 7.5, n i=1 x2 i = 1001, n i=1 y i 2 = 660 et n i=1 x iy i = 797.5. On obtient donc r = 0.816 et la droite de régression y = 0.5x + 3.

Du bon usage du coefficient de corrélation linéaire (suite) ya 4 6 8 10 12 yb 4 6 8 10 12 4 6 8 10 12 14 xa 4 6 8 10 12 14 xb yc 4 6 8 10 12 yd 4 6 8 10 12 4 6 8 10 12 14 xc 4 6 8 10 12 14 xd

Exercice : régression linéaire (1) La gérante d un commerce veut évaluer l impact des frais déboursés en publicité par mois (représentés par une variable X exprimée en milliers d euros) sur le chiffre d affaires mensuel (représenté par une variable Y exprimée en milliers d euros). On aimerait évaluer dans quelle mesure une modification du budget publicitaire mensuel affecterait le chiffre d affaires mensuel. On a donc recueilli sur une période de 10 mois les données du tableau ci-dessous. chiffre d affaires 220 280 250 170 150 340 310 210 180 190 frais publicitaires 2.6 2.6 2.4 1.5 0.9 3.0 2.7 2.3 1.7 1.9 1 Tracer le nuage de points et estimer le coefficient de corrélation linéaire. 2 Etablir la droite de régression correspondant à ce problème et tracer cette droite. 3 Déterminer un intervalle de confiance au risque 5% des paramètres de la droite de régression. 4 Tester la significativité de la régression au risque 5%. 5 Calculer le coefficient de détermination. 6 Calculer les résidus studentisés. Y-a-t-il des valeurs aberrantes ou mal expliquées par le modèle? 7 Quel serait le chiffre d affaires mensuel prédit par le modèle pour un budget publicitaire mensuel de 400 euros? de 4000 euros?

Exercice : régression linéaire (2) La société Métalex moule des pièces dans un four. L ingénieur se demande s il existe un lien entre la température (en degré celsius) à laquelle les pièces sont moulées et leur résistance (en kg/cm 2 ). Il dispose des données suivantes transmises par l atelier. température 100 120 140 160 180 200 220 240 260 280 300 résistance 46 48 49 51 52 53 54 55 56 56 56 1 Tracer le nuage de points et estimer le coefficient de corrélation linéaire. 2 Ajuster un modèle linéaire de la forme Y = ax + b + ε : établir la droite de régression correspondant à ce problème et tracer cette droite. 3 Tester la significativité de la régression au risque 5%. 4 Calculer le coefficient de détermination. 5 Calculer les résidus studentisés. Y-a-t-il des valeurs aberrantes ou mal expliquées par le modèle? 6 Ajuster un modèle non-linéaire de la forme Y = a log(x ) + b + ε : établir la courbe de régression correspondant à ce problème et tracer cette courbe. 7 Tester la significativité de la régression au risque 5%. 8 Calculer le coefficient de détermination. 9 Calculer les résidus studentisés. Y-a-t-il des valeurs aberrantes ou mal expliquées par le modèle?

Nuage de points de l exercice (1) chiffre d'affaires 150 200 250 300 1.0 1.5 2.0 2.5 3.0 frais publicitaires

Modèle ajusté de l exercice (1) chiffre d'affaires 150 200 250 300 1.0 1.5 2.0 2.5 3.0 frais publicitaires

Nuage de points de l exercice (2) resistance 46 48 50 52 54 56 100 150 200 250 300 temperature

Modèles ajustés de l exercice (2) resistance 46 48 50 52 54 56 100 150 200 250 300 temperature