Régression linéaire et corrélation



Documents pareils
Leçon N 4 : Statistiques à deux variables

Relation entre deux variables : estimation de la corrélation linéaire

Correction du baccalauréat STMG Polynésie 17 juin 2014

Chapitre 3. Les distributions à deux variables

Evaluation de la variabilité d'un système de mesure

Module 16 : Les fonctions de recherche et de référence

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Activité 11 : Nuage de points ou diagramme de dispersion

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Théorie des sondages : cours 5

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

les outils de vérification de la comptabilité et la clôture de la comptabilité

M2 IAD UE MODE Notes de cours (3)

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

L analyse boursière avec Scilab

Chapitre 3 : INFERENCE

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Exercices - Polynômes : corrigé. Opérations sur les polynômes

SmartCaisse, depuis Prise de Commande IPhone, IPad (2, 3 et mini), IPod et tablette Android SmartCaisse

V 8.2. Vous allez utiliser les services en ligne de la plate forme de dématérialisation de la Salle des Marchés achatpublic.com.

III- Raisonnement par récurrence

Quelle est l influence d une réduction des prestations d 1/5, via le crédit-temps et l interruption de carrière, sur le revenu du ménage?

Diviser un nombre décimal par 10 ; 100 ; 1 000

Traitement des données avec Microsoft EXCEL 2010

CRÉER UNE BASE DE DONNÉES AVEC OPEN OFFICE BASE

EXCEL: Les fonctions financières

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

2.4 Représentation graphique, tableau de Karnaugh

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

MATHÉMATIQUES FINANCIÈRES

Bulletins de notes électroniques avec Nota Bene

Raisonnement par récurrence Suites numériques

Baccalauréat ES Amérique du Nord 4 juin 2008

Observatoires du Bruit. Import des données du Classement sonore : Utilisation de l'outil VSMAP

Chapitre 1 Régime transitoire dans les systèmes physiques

Utilisation des Leica DISTO avec Bluetooth Smart sur Android 4.3 ou une version ultérieure. V 1.0 Décembre 2013

Guide d utilisation des fichiers bonus accompagnant le guide «L Argent est une science exacte»

MANUEL D UTILISATION DE LA SALLE DES MARCHES APPEL D OFFRES OUVERT ACCES ENTREPRISES. Version 8.2

TP de risque management Risque Forex

Lecture graphique. Table des matières

Logique. Plan du chapitre

Quels sont les espaces disponibles sur l ordinateur pour stocker ses documents et comment accéder facilement au dossier «My Documents»?

4. L assurance maladie

MESURE DE LA TEMPERATURE

Dossier Logique câblée pneumatique

les Formulaires / Sous-Formulaires Présentation Créer un formulaire à partir d une table...3

Évaluation de la régression bornée

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Cours 02 : Problème général de la programmation linéaire

AGASC / BUREAU INFORMATION JEUNESSE Saint Laurent du Var Tel : bij@agasc.fr Word: Les tableaux.

Langage SQL : créer et interroger une base

1 Complément sur la projection du nuage des individus

Comment tracer une droite représentative d'une fonction et méthode de calcul de l'équation d'une droite.

Compte rendu de LA37 B, TP numéro 1. Evolution de la température et du degrée d'hydratation

Correction du bac blanc CFE Mercatique

Recherche dans un tableau

Chapitre 2 Le problème de l unicité des solutions

Mesurer le retour sur investissement

Plus petit, plus grand, ranger et comparer

Séquence 2. Repérage dans le plan Équations de droites. Sommaire

La méthode des scores, particulièrement de la Banque de France

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

VIII- Circuits séquentiels. Mémoires

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FISCALITÉ DES REVENUS DE PLACEMENT

Figure 1a Wasmannia auropunctata (Ouvrière), morphologie. 1 millimètre

Les Français et le chauffage. Résultats de l étude menée

GESTION DE STOCKS AVEC CIEL GESTION COMMERCIALE

Feuille TD n 1 Exercices d algorithmique éléments de correction

Étude des comportements de sécurité routière des propriétaires, exploitants et conducteurs des véhicules lourds au Québec

Vis à billes de précision à filets rectifiés

La Gestion de fichiers Supports réalisés avec OpenOffice.org 2.3 Writer. La Gestion de fichiers. Niveau : Débutant Auteur : Antonio da Silva

TRIGONOMETRIE Algorithme : mesure principale

AFFAIBLISSEMENT DÛ AUX NUAGES ET AU BROUILLARD

Exercices Corrigés Premières notions sur les espaces vectoriels

Corrigé des TD 1 à 5

Si votre véhicule est déclaré perte totale

Cartographie avec R. Baptiste Coulmont. 16 septembre 2010

Programmation linéaire et Optimisation. Didier Smets

Manuel du gestionnaire

REMARQUES SUR LE PETIT FRAGMENT DE TABLETTE CHYPRO MINOENNE TROUVÉ A ENKOMI EN par EMILIA MAS SON

Le coloriage virtuel multiple et ses applications

L humain et ses données, le «quantified self»

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

TP 7 : oscillateur de torsion

Coup de Projecteur sur les Réseaux de Neurones

Première étape : créer le fichier de données - extraire les données de PMB et les transférer dans Excel

Programmation linéaire

Fiche pour les étudiants «Comment répondre à une question à développement?»

Transcription:

CHAPITRE 10 Régression linéaire et corrélation 1. Introduction Dans ce chapitre, nous regarderons comment vérifier si une variable à un influence sur une autre variable afin de prédire une des variables si l on connaît l autre. Plus précisément, nous étudierons s il existe une relation linéaire entre deux variables. Afin de bien comprendre les différentes étapes de cette étude, nous utiliserons l exemple suivant : Exemple 10.1. Un chercheur veut déterminer s il existe une relation entre l âge (en mois) du premier mot d un enfant et son nombre de points à test d habiletés mentales, le test Gesell. Il effectue une expérimentation sur 21 jeunes de 5 ans. Voici les résultats : Tab. 1. Âge (en mois) du premier mot et le résultat au test Gesell. Enfant Âge Résultat Enfant Âge Résultat 1 15 95 11 7 113 2 26 71 12 9 96 3 10 83 13 10 83 4 9 91 14 11 84 5 15 102 15 11 102 6 20 87 16 10 100 7 18 93 17 12 105 8 11 100 18 42 57 9 8 104 19 17 121 10 20 94 20 11 86 21 10 100 Source : Moore, D. et McCabe, G. Introduction to the practice of statistics, FREEMAN, 3e édition, page 160 Maintenant que le chercheur possède ses résultats, il faut être en mesure de vérifier s il existe un lien entre l âge du premier mot et le résultat au test de Gesell. 43

44 10. RÉGRESSION LINÉAIRE ET CORRÉLATION 2. Nuage de points La première étape afin de vérifier s il existe un lien entre deux variables est de dessiner un graphique que l on nomme nuage de points. Supposons que les deux variables étudiées sont x et y et que nous possédons n résultats (couple (x i, y i )). Le nuage de points consiste à mettre un point sur un plan cartésien à chaque coordonnée (x i, y i ). Exemple 10.2. Dessinons le nuage de points de l exemple 10.1. Ici, 130 120 Résultats du test de Gesell selon l âge du premier mot 1 donnée 2 données 110 Résultats au test de Gesell 100 90 80 70 60 50 0 0 5 10 15 20 25 30 35 40 45 Âge du premier mot (mois) Fig. 1. Exemple de nuage de points. les étoiles correspondent à des points qui reviennent deux fois. C est le cas pour les enfants 3 et 13 et pour les enfants 16 et 21. Ce qui est important de constater sur ce graphique est que les résultats au test de Gesell semblent diminuer lorsque l âge du premier mot augmente. On remarque également qu il semble y avoir une relation linéaire entre les deux variables, c est-à-dire que les données se trouvent autour d une droite. 3. Droite de régression Dans la section précédente, nous avons expliqué comment tracer un nuage de points et aussi comment l analyser un peu afin d en ressortir une certaine tendance. Nous avons vu que les variables peuvent avoir une relation linéaire entre elles, c est-à-dire que les points semblent suivre une droite. Il serait donc intéressant de déterminer l équation de

3. DROITE DE RÉGRESSION 45 cette droite afin de pouvoir en tirer certaines informations et peut-être même prédire une variable selon la valeur de l autre. On veut donc trouver l équation de la meilleure droite qui décrit l ensemble des données. Mais qu entend on par meilleure droite? La meilleure droite est celle des moindres carrés. Nous nommerons cette droite, droite de régression. Son équation est de la forme y = bx + a. Ici, m est la pente de la droite et b est son ordonnée à l origine. On les détermine à l aide des formules suivantes : b = nèx i y i (Èx i ) (Èy i ) nèx 2 i (Èx i ) 2 i bèx i a =Èy, n où n est le nombre de couple (x i, y i ). Ces formules semblent un peu complexes, mais avec certaines astuces, elles sont plus simples à utiliser. Regardons comment avec l exemple 10.1. Exemple 10.3. Dans cet exemple, x est l âge du premier mot et y le résultat au test de Gesell. Afin d accélérer le processus de calculs, reprenons le tableau de l exemple en ajoutant deux colonnes. Une qui correspond à x 2 i et l autre au produit de x i et de y i. On ajoute également une ligne qui correspond à la somme de chaque colonne. Le tout est fait dans le tableau 2. Une fois que tout ces calculs sont faits, il ne reste plus qu à rentrer les résultats pour trouver b et a. Ainsi, et b = nèx i y i (Èx i ) (Èy i ) nèx 2 i (Èx i ) 2 21 26864 302 1967 = 21 5606 302 2 1.1270 i bèx i a =Èy n 1967 ( 1.1270) 302 = 21 109.8738

46 10. RÉGRESSION LINÉAIRE ET CORRÉLATION D où, Tab. 2. Âge (en mois) du premier mot et le résultat au test Gesell. Enfant Âge x i Résultat y i x 2 i x i y i 1 15 95 225 1425 2 26 71 676 1846 3 10 83 100 830 4 9 91 81 819 5 15 102 225 1530 6 20 87 400 1740 7 18 93 324 1674 8 11 100 121 1100 9 8 104 64 832 10 20 94 400 1880 11 7 113 49 791 12 9 96 81 864 13 10 83 100 830 14 11 84 121 924 15 11 102 121 1122 16 10 100 100 1000 17 12 105 144 1260 18 42 57 1764 2394 19 17 121 289 2057 20 11 86 121 946 21 10 100 100 1000 SommeÈ 302 1967 5606 26864 y = 1.1270x + 109.8738. Traçons cette droite sur le nuage de points (voir la figure 2). Nous reviendrons à l analyse de cette situation dans la prochaine section. Nous pouvons également calculer b et a à l aide de la calculatrice. Voyons comment faire avec la calculatrice de marque emphsharp EL-545W. Il faut d abord choisir le mode statistique pour deux variables : MODE 1 1. Par la suite, il faut entrer les différents couples de points. Débutons par (x 1, y 1 ). Voici les commandes : Valeur x 1 STO Valeur y 1 M+.

4. CORRÉLATION 47 130 120 Résultats du test de Gesell selon l âge du premier mot 1 donnée 2 données 110 Résultats au test de Gesell 100 90 80 70 60 50 0 0 5 10 15 20 25 30 35 40 45 Âge du premier mot (mois) Fig. 2. Exemple de nuage de points et de droite de régression. Si le couple (x 1, y 1 ) apparraît n 1 fois, on peut écrire Valeur x 1 STO Valeur y 1 STO Valeur n 1 M+. Après avoir entré tous les (x i, y i ), on peut trouver a et b à l aide des touches suivantes : a = ALPHA ( b = ALPHA ) 4. Corrélation Il reste maintenant à vérifier si la droite de régression décrit bien le lien entre les variables et sinon existe-t-il un lien d une autre forme pour les variables. Lorsque la droite de régression représente bien la relation entre les deux variables, on dit qu il existe une corrélation linéaire. Puisque nous étudierons seulement des modèles linéaires, on dira seulement corrélation. La figure 3 montre deux nuages de points avec leur droite de régression. Dans le premier cas, les points sont près de la droite. On dit alors qu il y a une bonne corrélation entre les variables. En d autres mots, la droite de régression décrit bien la relation entre les variables. Dans le deuxième cas, les points ne sont pas très près de la droite. On ne peut

48 10. RÉGRESSION LINÉAIRE ET CORRÉLATION (a) Bonne corrélation (b) Mauvaise corrélation Fig. 3. Nuage de points avec la droite de régression. pas affirmer qu il y a une relation linéaire entre les deux variables. Revenons à l exemple 10.1. Analysons la corrélation entre l âge du premier mot et le résultat au test de Gesell. Sur la figure 2, on remarque que les points suivent assez bien la droite. Il y a cependant un point éloigné, le point (17, 121). C est ce que l on appelle une donnée aberrante. On peut donne dire qu il y a une corrélation entre les deux variables. Cette analyse est qualitative. Il existe un outil quantitatif qui permet de bien trancher si le modèle est acceptable ou non, c est-à-dire si la relation linéaire décrit bien le phénomène. Cet outil est le coefficient de corrélation que l on note r. Il varie entre 1 et 1. Plus r est près de 1, plus la corrélation est grande donc le modèle linéaire décrit bien la réalité. Par contre, si r est près de 0 le modèle est loin d être linéaire. Il est à noter que le signe de r est le même que celui de b, c est-à-dire que si la pente de la droite de régression est négative, r sera négatif et vice-versa. On peut calculer r avec r = nèx i y i (Èx i ) (Èy i ) nèx 2 i (Èx i ) 2 nèy 2 i (Èy i ) 2. Dans le cas de l exemple le coefficient r = 0.6403, ce qui signifie que la corrélation n est pas très bonne. Habituellement, si r > 0.7, on dit qu il existe une corrélation entre les variables, sinon, on dit qu il n y a pas de corrélation. Par contre, si on omet la donnée aberrante, car elle sort du lot, on obtient que r = 0.7561. Cela nous dit qu il existe une corrélation

6. APPLICATIONS ET LIMITATIONS DE LA DROITE DE RÉGRESSION 49 entre l âge du premier mot et du résultat au test de Gesell. Le coefficient de corrélation peut être calculé à l aide de la calculatrice. Il suffit d entrer les données et de le calculer à l aide des touches ALPHA. 5. Calcul de a et de b à l aide de x, ȳ, s x, s y et r Afin d accélérer les calculs de la droite de régression, il existe des relations entre a, b et x, ȳ, s x, s y et r. Les voici : b = r sy s x a = ȳ b x, où x, ȳ, s x, s y et r sont respectivement, la moyenne des x i, la moyenne des y i, l écart-type des x i, l écart-type des y i et le coefficient de corrélation. 6. Applications et limitations de la droite de régression Lorsque la corrélation est bonne, on peut se servir de la droite de régression afin de prédire une variable en connaissance l autre. Par exemple, si un enfant dit son premier mot à 13 mois, on peut prédire le résultat qu il obtiendrait au test Gesell : y = 1.1270 13 + 109.8738 95. Il faut cependant faire attention avec les prédictions pour ne pas faire de l extrapolation. Cela signifie que le résultat de la prédiction à l aide de la droite de régression peut ne pas être valide si la valeur de x est éloingnée des x i. Par exemple, si l on prend x = 100 mois, on obtient que y vaut 2.8 ce qui est irréaliste, car les résultats du test sont positifs. C est un exemple extrême, mais il montre bien les erreurs que l on peut commettre. Un autre aspect important est de s assurer qu il y a vraiment un lien de causes à effets entre les variables. Par exemple, même s il y a une corrélation entre le prix de l essence et le nombre de chiens au Québec, il n y a pas de liens causaux entre les deux. Il faut donc faire attention avec les conclusions tirées de la corrélation.