Master 1 de Santé Publique. UE de biostatistique : cours 8. Régression linéaire

Documents pareils
Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

STATISTIQUES. UE Modélisation pour la biologie

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyse de la variance Comparaison de plusieurs moyennes

Chapitre 3. Les distributions à deux variables

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Correction du bac blanc CFE Mercatique

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

CAPTEURS - CHAINES DE MESURES

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Chapitre 4: Dérivée d'une fonction et règles de calcul

Principe d un test statistique

M2 IAD UE MODE Notes de cours (3)

Introduction à l approche bootstrap

Cours de méthodes de scoring

Relation entre deux variables : estimation de la corrélation linéaire

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Introduction à la Statistique Inférentielle

Table des matières. I Mise à niveau 11. Préface

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Section «Maturité fédérale» EXAMENS D'ADMISSION Session de février 2014 RÉCAPITULATIFS DES MATIÈRES EXAMINÉES. Formation visée

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Régression linéaire. Nicolas Turenne INRA

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

Résolution d équations non linéaires

Fonctions de deux variables. Mai 2011

Exemples d application

3. Caractéristiques et fonctions d une v.a.

Développements limités, équivalents et calculs de limites

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Logiciel XLSTAT version rue Damrémont PARIS

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Leçon N 4 : Statistiques à deux variables

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Évaluation de la régression bornée

Équations non linéaires

Théorie des sondages : cours 5

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Introduction aux Statistiques et à l utilisation du logiciel R

I. Polynômes de Tchebychev

Test : principe fondamental de la dynamique et aspect énergétique

Une étude de différentes analyses réalisées par le BIT

TESTS D'HYPOTHESES Etude d'un exemple

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 6. Fonction réelle d une variable réelle

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Statistiques Descriptives à une dimension

Estimation et tests statistiques, TD 5. Solutions

FORMULAIRE DE STATISTIQUES

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Raisonnement par récurrence Suites numériques

Comment bien régresser: La statistique peut-elle se passer d artefacts?

Lois de probabilité. Anita Burgun

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

TD1 Signaux, énergie et puissance, signaux aléatoires

Programmation linéaire

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Modèles et Méthodes de Réservation

TP 7 : oscillateur de torsion

Cours de Tests paramétriques

Fonctions de plusieurs variables

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Annexe commune aux séries ES, L et S : boîtes et quantiles

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

Probabilités III Introduction à l évaluation d options

Analyse en Composantes Principales

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Programmation Linéaire - Cours 1

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Chapitre 2/ La fonction de consommation et la fonction d épargne

Chapitre 2 Le problème de l unicité des solutions

1. Vocabulaire : Introduction au tableau élémentaire

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

ELEC2753 Electrotechnique examen du 11/06/2012

Espérance conditionnelle

Répartition des coûts du compte de pass-on par catégorie de consommateurs

Calcul différentiel. Chapitre Différentiabilité

IBM SPSS Regression 21

Gestion des Clés Publiques (PKI)

Le modèle de régression linéaire

données en connaissance et en actions?

TABLE DES MATIERES. C Exercices complémentaires 42

CCP PSI Mathématiques 1 : un corrigé

T de Student Khi-deux Corrélation

Le risque Idiosyncrasique

Transcription:

Master 1 de Santé Publique UE de biostatistique : cours 8 Régression linéaire 1. Définition, estimation et test M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 1

Liaison entre variables X et Y selon leur nature X qualitative (0 / 1) et Y qualitative (0 /1) Comparaison de pourcentages : test du χ exemples : X = fumeur (oui / non) X = traitement (A / B) X = population (1 / ) Y = malade (oui / non) Y = guéri (oui / non) Y = hypertension (oui / non) X qualitative (0 / 1) et Y quantitative Comparaison de moyennes : test Z ou Student (t) exemples : X = exposé (oui / non) X = régime (A / B) X = population (1 / ) Y = poids de naissance Y = variation de poids Y = taille X quantitative et Y quantitative : régression linéaire M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1

Liaison entre variables X et Y selon leur nature X qualitative (0 / 1) et Y qualitative (0 /1) Comparaison de pourcentages : test du χ X qualitative (0 / 1) et Y quantitative Comparaison de moyennes : test Z ou Student (t) X quantitative et Y quantitative : régression linéaire variable Y Dichotomique Qualitative à plus de classes Quantitative variable X Dichotomique Qualitative à plus de classes comparaison de pourcentages test du χ comparaison de plusieurs distributions test du χ comparaison de moyennes test t de Student ou Z comparaison de plusieurs moyennes Analyse de la variance Quantitative Régression linéaire M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 3

Liaison entre variables quantitatives Objectif général Décrire au mieux la façon dont Y varie en fonction de X. <=> connaître la distribution de Y pour chaque valeur de X. Sous cette forme, le problème est trop complexe. => simplification de façons : 1. On caractérise la distribution de Y à X fixé par : µ Y x = moyenne de Y pour X=x moyenne conditionnelle, notée E(Y x) σ Y x = variance de Y pour X=x variance conditionnelle, notée V(Y x). On étudie le lien entre X et µ Y x Définition : la régression de Y en X est la fonction f qui lie X et µ Y x M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 4

Exemple : Y = poids de naissance ; X = terme de naissance Observations 3500 Moyenne du poids de naissance (gramme) µ Y x=34 500 µ Y x=38 000 1500 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance (semaine) Régression de Y en X C'est la fonction f qui lie X et µ Y x : E(Y x) = µ Y x = f(x) 3500 Moyenne du poids de naissance (gramme) µ Y x=34 500 µ Y x=38 000 1500 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance (semaine) M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 5

3500 Moyenne du poids de naissance (gramme) µ Y x=34 500 µ Y x=38 000 1500 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance (semaine) En général, on ne cherche pas la forme exacte de la fonction f(x) On se limite à quelques fonctions "simples" -> modélisation de la réalité M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 6

Exemples de fonctions f possibles pour représenter les observations Linéaire Quadratique 3500 Moyenne du poids de naissance 3500 Moyenne du poids de naissance 500 500 000 1500 y = - 3115,6 + 16,3x 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance Polynomiale 000 1500 y = - 6555 + 36,77x -,8639 x 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance Logarithmique 3500 Moyenne du poids de naissance 3500 Moyenne du poids de naissance 500 500 000 y = - 1454400 + 06391 x 1500-1160 x + 34,44 x3-4,4883 x4 + 0,046 x5 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance 000 1500 y = - 17347 + 5616, Ln(x) 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance Le choix de f est un compromis entre : une représentation adéquate des observations pour pouvoir prédire correctement Y en fonction de X : la courbe doit passer le plus près possible des moyennes µ Y x. la possibilité d'interpréter les coefficients de la fonction f pour répondre à la question initiale : y a-t-il un lien entre X et Y? M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 7

Régression linéaire Très souvent, on choisit pour f une fonction linéaire. f(x) = α + βx => on représente la liaison entre X et Y sous la forme d'une droite 3500 Moyenne du poids de naissance 500 000 1500 Y= a + b x 7 8 9 30 31 3 33 34 35 36 37 38 39 40 41 4 43 Terme de naissance On va voir les problèmes suivants : Estimation Comment estimer α et β à partir de données sur un échantillon? Test La pente β de la droite est-elle différente de 0? (Si oui, c'est qu'il existe un lien entre X et Y) Le problème restant est : Test de linéarité Y a-t-il adéquation entre le choix d'une droite et les observations? M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 8

Estimation de α et β Méthode des moindres carrés Exemple : X = Poids maternel Y = Poids de naissance Observations : n paires (x 1,y 1 ),..., (x n,y n ) N Y X N Y X N Y X 1 3850 83 300 45 43 150 40 4400 50 3 3400 50 44 3800 66 3 950 70 4 3550 6 45 4450 68 4 3350 64 5 400 9 46 3750 59 5 3550 50 6 3450 55 47 3150 65 6 3700 54 7 400 70 48 3050 58 7 3550 47 8 4100 73 49 3450 55 8 3400 48 9 4300 55 50 3300 53 9 4350 67 30 850 40 51 3150 51 10 3500 55 31 3300 60 5 4650 68 11 3100 63 3 3500 50 53 3650 48 1 3550 64 33 3400 55 54 3500 6 13 3500 71 34 700 58 55 3150 70 14 3300 70 35 750 46 56 3100 63 15 4350 66 36 350 50 57 3300 60 16 1750 6 37 3300 60 58 900 65 17 400 40 38 3100 55 59 3050 54 18 750 46 39 3650 6 60 3300 6 19 3600 47 40 4400 50 61 3400 70 0 700 46 41 3300 55 6 300 50 1 700 47 4 350 40 63 3100 64 M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 9

Représentation graphique des observations 1. Nuage de points 5000 Poids de naissance Y 9 (X, Y ) 9 9 000 X 30 40 50 9 60 70 80 90 100 Poids maternel M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 10

Représentation graphique des observations. Droites 5000 Poids de naissance Droite 1 Droite Droite 3 000 30 40 50 60 70 80 90 100 Poids maternel M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 11

Droite des moindres carrés (1) Définition : la droite des moindres carrés est la droite qui permet le mieux de prédire la valeur de Y quand on connaît X. Valeur observée de Y : y i Valeur prédite par la droite : ŷ i = a + bx i => Ecart : y i ŷ i 5000 Poids de naissance (x i, y i ) (x, ^ i y i ) ^ (y - y ) i i 000 droite : Y= a + b X 30 40 50 60 70 80 90 100 Poids maternel M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 1

Droite des moindres carrés () 5000 Poids de naissance (x i, y i ) (x, ^ i y i ) ^ (y - y ) i i 000 droite : Y= a + b X 30 40 50 60 70 80 90 100 Poids maternel SCE = somme des carrés des écarts n ( ) = y i ŷ i = y i a bx i i=1 n i=1 ( ) La droite des moindres carrés est celle pour laquelle SCE est minimum. M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 13

Calcul de a et b Données : (x i, y i ) Inconnues : a et b a et b doivent être telles que SCE = minimum n ( y i a bx i ) i=1 soit a 1500 1500 000 000 b 5 0 15 0 SCE 30 513 750 51 776 800 35 74 950 1 806 800 On montre que les valeurs a et b qui correspondent à SCE minimum sont : b = x i y i 1 n ( x i)( x i 1 n ( x i ) y i ) et a = y i n b x i n = m y b m x On trouve : a = 006 et b = 3,8 (SCE = 18 500 067) M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 14

b = x i y i 1 n ( x i)( x i 1 n ( x i ) y i ) et a = y i n b x i n = m y b m x a et b sont appelés les estimations des moindres carrés des paramètres α et β de la droite de régression. La droite de régression s'écrit : ŷ = 006 + 3,80x Expressions équivalentes de b : b = ( ) ( x i m x ) y i m y ( x i m x ) ou b = x i y i n m x m y (n 1)s x M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 15

Interprétation de la droite de régression Régression du poids de naissance (Y) en fonction du poids maternel (X) Echantillon de 63 nouveau-nés La régression de Y en fonction de X serait la courbe qui relie les poids de naissance moyens : 5000 Poids de naissance 000 Poids de naissance moyen par terme Valeurs individuelles 30 40 50 60 70 80 90 100 Poids maternel On choisit de représenter la régression par une droite La droite de régression s'écrit : ŷ = 006 + 3,80 x M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 16

Interprétation des coefficients de la droite de régression 5000 Poids de naissance 000 Valeurs individuelles Poids de naissance moyen 30 40 50 60 70 80 90 100 Poids maternel ŷ= a + b x = 006 + 3,80 x Ce qui figure dans l'équation, c'est ŷet non pas y => - on "prédit" la valeur moyenne de Y en fonction de X - on ne peut pas en déduire "facilement" la régression de X en fonction de Y b = 3,80 = variation moyenne de poids de naissance pour une variation de poids maternel de 1 kg a = 006 = poids de naissance moyen des nouveau-nés dont la mère pèse 0 kg (??) M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 17

Test de la pente de la droite de régression (1) La droite de régression vraie est : ŷ= α + β x Les hypothèses testées sont : H o : β = 0 H 1 : β 0 H o correspond à l'absence d'association entre X et Y Les observations faites sur un échantillon sont les couples de valeurs (x i, y i ) d'où on déduit les coefficients estimés a et b. Pour faire le test, il faut déterminer quelle est la valeur attendue de b si H o est vraie. Pour cela, il faut que soient vérifiées certaines hypothèses sur les distributions de X et Y. M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 18

Test de la pente de la droite de régression () Hypothèses nécessaires La régression doit être linéaire À X fixé, les valeurs de Y doivent être de distribution normale et de variance constante. Pour X = x 1, Y a une distribution normale Pour X = x, Y a une distribution normale On suppose donc que : σ Y x1 = σ Y x =... de moyenne ŷ 1 et de variance σ Y x1 de moyenne ŷ et de variance σ Y x Y σ Y x y ^ 3 y ^ 1 y ^ X x 1 x x 3 M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 19

Parenthèse sur la variance liée σ Y x σ Y x : variance de Y à x fixé variance conditionnelle variance liée variance résiduelle L'hypothèse faite est qu'elle ne dépend pas de x. Si la régression est linéaire, on montre que son estimation est : s Y x = n 1 n (s y b s x ) σ Y x σ Y Y σ Y x y ^ 3 y ^ 1 y ^ σ Y X x 1 x x 3 M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 0

Si la droite de régression est horizontale (β = 0), σ Y x = σ Y Y σ Y x y ^ 1 ^ y y^ 3 σ Y X x 1 x x 3 M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 1

Test de la pente de la droite de régression (3) Fluctuations d'échantillonnage de b Si les hypothèses précédentes sont satisfaites, Régression linéaire Distributions de Y à X fixé normales et de variance constante et si H o est vraie, b (pente observée) a une distribution normale de moyenne 0 et dont la variance est : s b = s Y x s x (n 1) = s y s x b n Donc : T = b 0 s b = b s b suit une loi de Student On montre que ddl = n- Test A partir des valeurs x i et y i, on calcule t 0 = b s b et on compare la valeur obtenue à la valeur seuil d'une loi de Student à n- ddl : t n-;α/ M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1

Exemple Poids de naissance (Y) en fonction du poids maternel (X) 5000 Poids de naissance ŷ= 006 + 3,80 x 000 Hypothèses testées : H o : β = 0 H 1 : β 0 30 40 50 60 70 80 90 100 Poids maternel s x = 108,5 s y = 359 851,51 t o = 3,80 45,07 -> s b = 359851,51 108,5 3,80 61 = 45,07 = 3,55 à 61 ddl (significatif avec p < 0,001) Conclusions : - on rejette H 0 : la pente de la droite de régression est différente de 0 - le degré de signification est p < 0,001 - on observe que la pente est positive : le poids de naissance moyen augmente lorsque le poids maternel augmente M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 3

Interprétation du test de la pente Ho : β = 0 Si H o n'est pas rejetée, cela signifie que la pente de la droite de régression ne s'écarte pas significativement de l'horizontale Deux possibilités : Pas de lien entre X et Y (Figure 1) Lien entre X et Y, mais la régression de Y en X n'est pas linéaire et la droite des moindres carrés est horizontale (Figure ) Figure 1 Figure M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 4

Si H o est rejetée, cela signifie que la droite de régression n'est pas horizontale Deux possibilités : La liaison entre X et Y est linéaire avec une pente non nulle (Figure 3) La liaison entre X et Y n'est pas linéaire, mais sa "composante linéaire" est non horizontale (Figure 4) Figure 3 Figure 4 Quand le test est significatif, il y a toujours un lien entre X et Y (au risque d'erreur α près) M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 5

Remarques sur l'hypothèse de linéarité de la régression Test de la pente T = b s b suit une loi de Student à (n-) ddl Hypothèses nécessaires La régression doit être linéaire À X fixé, les valeurs de Y doivent avoir des distributions normales et de variance constante. Si la régression n'est pas linéaire, on peut quand même représenter la relation entre X et Y par une droite, mais on s y s b montre que s b = x surestime la variance de b. n La valeur de t 0 = b s b est donc sous-estimée -> perte de puissance du test de l'association entre X et Y M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 6

Comment se rendre compte si la régression est linéaire? 1. Test (pas au programme). Graphique 5000 Poids de naissance 000 Poids de naissance moyen par terme Valeurs individuelles 30 40 50 60 70 80 90 100 Poids maternel 5000 Poids de naissance 000 Poids de naissance moyen par terme Valeurs individuelles 30 40 50 60 70 80 90 100 Poids maternel M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 7

M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 8