La régression linéaire simple

Documents pareils
Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Analyse de la variance Comparaison de plusieurs moyennes

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Principe d un test statistique

STATISTIQUES. UE Modélisation pour la biologie

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Chapitre 3. Les distributions à deux variables

Relation entre deux variables : estimation de la corrélation linéaire

TABLE DES MATIERES. C Exercices complémentaires 42

Cours 3 : Python, les conditions

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Biostatistiques : Petits effectifs

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

T de Student Khi-deux Corrélation

Ordonnance collective

Régression linéaire. Nicolas Turenne INRA

Théorie des sondages : cours 5

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

FORMULAIRE DE STATISTIQUES

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

23. Interprétation clinique des mesures de l effet traitement

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Introduction à l approche bootstrap

Professeur Diane GODIN-RIBUOT

Lois de probabilité. Anita Burgun

Document d orientation sur les allégations issues d essais de non-infériorité

TRACER LE GRAPHE D'UNE FONCTION

Chapitre 2/ La fonction de consommation et la fonction d épargne

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

1 Définition de la non stationnarité

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Exemples d application

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Estimation et tests statistiques, TD 5. Solutions

VI. Tests non paramétriques sur un échantillon

Équivalence et Non-infériorité

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

La classification automatique de données quantitatives

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Introduction à la Statistique Inférentielle

Comment bien régresser: La statistique peut-elle se passer d artefacts?

Le risque Idiosyncrasique

Leçon N 4 : Statistiques à deux variables

ASSOCIATION CANADIENNE DES PAIEMENTS RÈGLE 4 DU STPGV COMMENCEMENT DU CYCLE

Chapitre 4 : Régression linéaire

Lire ; Compter ; Tester... avec R

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Systèmes de transmission

Cours d Analyse. Fonctions de plusieurs variables

CAPTEURS - CHAINES DE MESURES

Correction du bac blanc CFE Mercatique

Introduction aux Statistiques et à l utilisation du logiciel R

données en connaissance et en actions?

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

OPTIMISATION À UNE VARIABLE

INFORMATION À DESTINATION DES PROFESSIONNELS DE SANTÉ LE DON DU VIVANT

MOTO ELECTRIQUE. CPGE / Sciences Industrielles pour l Ingénieur TD06_08 Moto électrique DIAGRAMME DES INTER-ACTEURS UTILISATEUR ENVIRONNEMENT HUMAIN

Cours de méthodes de scoring

Les indices à surplus constant

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

INTERET PRATIQUE DU MDRD AU CHU DE RENNES

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Problème 1 : applications du plan affine

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Les coûts de la production. Microéconomie, chapitre 7

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Essai Inter-groupe : FFCD UNICANCER FRENCH - GERCOR

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Table des matières. I Mise à niveau 11. Préface

I. Polynômes de Tchebychev

NON-LINEARITE ET RESEAUX NEURONAUX

Algorithme d utilisation des anti-inflammatoires non stéroïdiens (AINS)

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

De nombreux composés comportant le squelette aryléthanolamine (Ar-CHOH-CH2-NHR) interfèrent avec le

! " # $ % & '! % & & # # # # % & (

FONCTION DE DEMANDE : REVENU ET PRIX

Équations non linéaires

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

RIVAROXABAN ET TESTS DE BIOLOGIE MEDICALE

Fonctions de plusieurs variables

Évaluation de la régression bornée

TD1 Signaux, énergie et puissance, signaux aléatoires

La théorie des anticipations de la structure par terme permet-elle de rendre compte de l évolution des taux d intérêt sur euro-devise?

DOCUMENT DE TRAVAIL DES SERVICES DE LA COMMISSION RÉSUMÉ DE L'ANALYSE D'IMPACT. accompagnant le document:

Econométrie et applications

CCP PSI Mathématiques 1 : un corrigé

Focus. Lien entre rémunération du travail et allocation de chômage

Précision d un résultat et calculs d incertitudes

Exercices Corrigés Premières notions sur les espaces vectoriels

Coûts, avantages et inconvénients des différents moyens de paiement

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Transcription:

La régression Yohann.Foucher@univ-nantes.fr Equipe d Accueil 4275 "Biostatistique, recherche clinique et mesures subjectives en santé", Université de Nantes Odontologie - Cours #7 1 / 31

Plan 1. 2. 3. 2 / 31

Plan 1. 2. 3. 3 / 31

Les acquis Variable catégorielle à expliquer en fonction d une autre variable catégorielle explicative (comparaison de deux pourcentages). Test de comparaison de deux fréquences (approximation normale). Test du Chi-deux (plus de deux groupes) Test du Chi-deux exact de Fisher (test non-paramétrique). Test du Chi-deux de Mac Nehmar (données appariées). Variable continue à expliquer en fonction d une autre variable catégorielle explicative à deux modalités (comparaison de deux moyennes). Test de Student : comparaison de deux moyennes. Test de Student sur différence (données appariées). Test de Mann-Withney (test non-paramétrique). Test de Wilcoxon (données appariées, test non-paramétrique). Comment étudier le lien entre deux variables continues? 4 / 31

Exemple fonction rénale (Y ) selon l âge (X). Sujet Y X Sujet Y X 1 114.0 27.6 16 96.0 63.2 2 110.0 39.2 17 99.0 52.5 3 114.0 52.8 18 103.0 34.1 4 102.0 46.1 19 98.0 47.7 5 101.0 49.4 20 109.0 27.0 6 107.0 48.8 21 120.0 30.2 7 109.0 51.1 22 111.0 38.9 8 117.0 45.1 23 105.0 38.6 9 108.0 41.7 24 116.0 30.7 10 97.3 50.6 25 96.3 47.6 11 101.0 58.8 26 112.0 50.9 12 104.0 30.2 27 105.0 35.7 13 105.0 37.6 28 93.7 57.8 14 121.0 30.7 29 108.0 59.2 15 114.0 49.5 30 100.0 61.0 5 / 31

Exemple Clairance à la créatinine en ml/min 95 100 105 110 115 120 30 40 50 60 Age en années 6 / 31

Deux méthodes 1 : Interprétation limitée des résultats. 2 : Interprétation plus riche des résultats. Généralisation à plusieurs facteurs explicatifs (variables continues ou catégorielles). 7 / 31

Plan 1. 2. 3. 8 / 31

Calcul et interprétation Echantillon composé de n individus (i = 1,..., n) Observation des couples (y i, x i ) Indépendance des observations (les Y i x i sont indépendantes). i y i i x i n i x iy i r = (( i x i) 2 n i x 2 i )( ( i y i) 2 n i y 2 i ) Interprétation du coefficient de linéaire : r = 1 : lien linéaire parfait dans le même sens r = 1 : lien linéaire parfait dans le sens inverse r > 0.5 : lien linéaire fort 0.3 < r < 0.5 : lien linéaire moyen 0.1 < r < 0.3 : lien linéaire faible r = 0 : pas de liaison linéaire 9 / 31

Application à notre exemple fonction rénale (Y ) en fonction de l âge (X) i y i = 3196, 3 ; i y i 2 = 342125, 7 ; i x i = 1334, 3 ; i x i 2 = 62626, 5 ; i x iy i = 140943, 0 r = 0, 53 Forte : Il semble que la fonction du rein diminue avec l âge du patient. 10 / 31

Application à notre exemple fonction rénale (Y ) en fonction de l âge (X) i y i = 3196, 3 ; i y i 2 = 342125, 7 ; i x i = 1334, 3 ; i x i 2 = 62626, 5 ; i x iy i = 140943, 0 r = 0, 53 Forte : Il semble que la fonction du rein diminue avec l âge du patient. Problème Peut-on conclure que le coefficient de linéaire ρ de la population est significativement différent de 0? 10 / 31

Test de Définition des hypothèses : H 0 : ρ = 0 H 1 : ρ 0 Statistique de test : T = R n 2 1 R 2 T n 2 ddl n = 30 ; ddl = 28 ; α = 5% Région non-critique (test bilatéral) : [ 2, 048; 2, 048] t = 0,53 28 = 3, 21 Région critique 1 0,532 On rejette l hypothèse nulle selon laquelle le coefficient de régression linéaire est nul (p < 5%). Il semble qu il y ait un lien entre la clairance à la créatinine et l âge. 11 / 31

Table de la loi de Student LOI DE STUDENT On connaît α et on cherche t vérifiant P(T>t) ν \ α 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.025 0.0125 0.01 0.005 0.0025 0.0 1 0.510 0.727 1.000 1.376 1.963 3.078 6.314 12.71 25.45 31.82 63.66 127.3 / 3163

Table de la loi de Student ν \ α 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.025 0.0125 0.01 0.005 0.0025 0.0005 1 0.510 0.727 1.000 1.376 1.963 3.078 6.314 12.71 25.45 31.82 63.66 127.3 636.6 2 0.445 0.617 0.816 1.061 1.386 1.886 2.920 4.303 6.205 6.965 9.925 14.09 31.60 3 0.424 0.584 0.765 0.978 1.250 1.638 2.353 3.182 4.177 4.541 5.841 7.453 12.93 4 0.414 0.569 0.741 0.941 1.190 1.533 2.132 2.776 3.495 3.747 4.604 5.598 8.610 5 0.408 0.559 0.727 0.920 1.156 1.476 2.015 2.571 3.163 3.365 4.032 4.773 6.869 6 0.404 0.553 0.718 0.906 1.134 1.440 1.943 2.447 2.969 3.143 3.707 4.317 5.959 7 0.402 0.549 0.711 0.896 1.119 1.415 1.895 2.365 2.841 2.998 3.499 4.029 5.408 8 0.399 0.546 0.706 0.889 1.108 1.397 1.860 2.306 2.752 2.896 3.355 3.833 5.041 9 0.398 0.543 0.703 0.883 1.100 1.383 1.833 2.262 2.685 2.821 3.250 3.690 4.781 10 0.397 0.542 0.700 0.879 1.093 1.372 1.812 2.228 2.634 2.764 3.169 3.581 4.587 11 0.396 0.540 0.697 0.876 1.088 1.363 1.796 2.201 2.593 2.718 3.106 3.497 4.437 12 0.395 0.539 0.695 0.873 1.083 1.356 1.782 2.179 2.560 2.681 3.055 3.428 4.318 13 0.394 0.538 0.694 0.870 1.079 1.350 1.771 2.160 2.533 2.650 3.012 3.373 4.221 14 0.393 0.537 0.692 0.868 1.076 1.345 1.761 2.145 2.510 2.624 2.977 3.326 4.140 15 0.393 0.536 0.691 0.866 1.074 1.341 1.753 2.131 2.490 2.602 2.947 3.286 4.073 16 0.392 0.535 0.690 0.865 1.071 1.337 1.746 2.120 2.473 2.583 2.921 3.252 4.015 17 0.392 0.534 0.689 0.863 1.069 1.333 1.740 2.110 2.458 2.567 2.898 3.223 3.965 18 0.392 0.534 0.688 0.862 1.067 1.330 1.734 2.101 2.445 2.552 2.878 3.197 3.922 19 0.391 0.533 0.688 0.861 1.066 1.328 1.729 2.093 2.433 2.539 2.861 3.174 3.883 20 0.391 0.533 0.687 0.860 1.064 1.325 1.725 2.086 2.423 2.528 2.845 3.153 3.850 21 0.391 0.532 0.686 0.859 1.063 1.323 1.721 2.080 2.414 2.518 2.831 3.135 3.819 22 0.390 0.532 0.686 0.858 1.061 1.321 1.717 2.074 2.406 2.508 2.819 3.119 3.792 23 0.390 0.532 0.685 0.858 1.060 1.319 1.714 2.069 2.398 2.500 2.807 3.104 3.767 24 0.390 0.531 0.685 0.857 1.059 1.318 1.711 2.064 2.391 2.492 2.797 3.091 3.745 25 0.390 0.531 0.684 0.856 1.058 1.316 1.708 2.060 2.385 2.485 2.787 3.078 3.725 26 0.390 0.531 0.684 0.856 1.058 1.315 1.706 2.056 2.379 2.479 2.779 3.067 3.707 27 0.389 0.531 0.684 0.855 1.057 1.314 1.703 2.052 2.373 2.473 2.771 3.057 3.690 28 0.389 0.530 0.683 0.855 1.056 1.313 1.701 2.048 2.369 2.467 2.763 3.047 3.674 29 0.389 0.530 0.683 0.854 1.055 1.311 1.699 2.045 2.364 2.462 2.756 3.038 3.659 30 0.389 0.530 0.683 0.854 1.055 1.310 1.697 2.042 2.360 2.457 2.750 3.030 3.646 40 0.388 0.529 0.681 0.851 1.050 1.303 1.684 2.021 2.329 2.423 2.704 2.971 3.551 50 0.388 0.528 0.679 0.849 1.047 1.299 1.676 2.009 2.311 2.403 2.678 2.937 3.497 60 0.387 0.527 0.679 0.848 1.046 1.296 1.671 2.000 2.298 2.390 2.660 2.921 3.460 120 0.386 0.526 0.677 0.845 1.041 1.289 1.658 1.980 2.267 2.358 2.617 2.873 3.373 0.385 0.524 0.674 0.842 1.036 1.282 1.645 1.960 2.236 2.326 2.576 2.828 3.291 13 / 31

Limites Limites Attention aux conclusions non-valides pour une relation non-linéaire. Plusieurs relations possibles pour un même coefficient de. Aucune quantification de la relation. 14 / 31

Plan 1. 2. 3. 15 / 31

Définition du modèle Le modèle s écrit : Y i = β 0 + β 1 x i + ɛ i β 0 est l ordonnée à l origine (moyenne de Y i quand x i = 0). β 1 est la pente (changement moyen de Y i quand x i augmente d une unité). ɛ i est le résidu (différence entre la valeur prédite et celle observée). Les résidus sont distribués selon une loi normale de moyenne nulle et de variance σ 2 (variance résiduelle). 16 / 31

Estimation de la droite de régression Objectf : Trouver la meilleure droite pour un nuage de points. Minimisation des valeurs des résidus. Critère des Moindres Carrés : CMC = (y i ŷ i ) 2 = (y i β 0 β 1 x i ) 2 i i Calcul des dérivées partielles de CMC : CMC/ β 0 = 1 2 CMC/ β 1 = x i 2 CMC/ β 0 = 2 i CMC/ β 1 = 2 i n (y i β 0 β 1 x i ) i=1 n (y i β 0 β 1 x i ) i=1 y i + 2nβ 0 + 2β 1 i x i y i x i + 2β 0 x i + 2β 1 i i x 2 i 17 / 31

Estimation de la droite de régression Les valeurs optimales, ˆβ 0 et ˆβ 1, minimisent le CMC : y i n ˆβ 0 ˆβ 1 x i = 0 i i y i x i ˆβ 0 x i ˆβ 1 xi 2 = 0 i i i Le CMC est minimum pour : ˆβ 1 = i x iy i ( i x i)( i y i)/n i x i 2 ( i x i) 2 /n ˆβ 0 = ( ) ( ) y i /n ˆβ 1 y i /n i i 18 / 31

Estimation des autres paramètres importants On peut alors simplement déduire la variance résiduelle des estimations précédentes. i ˆσ 2 = (y i ŷ i ) 2 i = (y i ˆβ 0 ˆβ 1 x i ) 2 n 2 n 2 Si ˆβ 1 représente la pente de Y en fonction de X et que ˆβ 1 représente la pente de X en fonction de Y, alors on montre que : ˆr 2 = ˆβ 1 ˆβ 1 r 2 représente la proportion de variation de Y expliquée par X. Rappelons que r est le coefficient de linéaire. 19 / 31

Application à notre exemple fonction rénale (Y ) en fonction de l âge (X) n = 30 ; i y i = 3196, 3 ; i y i 2 = 342125, 7 ; i x i = 1334, 3 ; i x i 2 = 62626, 5 ; i x iy i = 140943, 0 ; ˆβ0 = 123, 0 : La fonction rénale d un nouveau né (x = 0) est estimée à 123,0 ml/min en moyenne. Attention : cette valeur n est pas fiable (aucun enfant dans l étude). ˆβ 1 = 0, 37 : La fonction rénale chute en moyenne de 3,7 ml/min tous les 10 ans. ˆσ 2 = 6, 35. ˆr 2 = 0, 29 : 29% de la variation de Y est expliquée par X. 20 / 31

Application à notre exemple Clairance à la créatinine en ml/min 95 100 105 110 115 120 30 40 50 60 Age en années 21 / 31

Application à notre exemple Clairance à la créatinine en ml/min 95 100 105 110 115 120 + 10 β 1 = 3.7 30 40 50 60 Age en années 22 / 31

Application à notre exemple Clairance à la créatinine en ml/min 90 100 110 120 130 β 0 0 10 20 30 40 50 60 Age en années 23 / 31

Intervalle de confiance de β 1 [ IC (1 α) = ˆβ1 ± t α,n 2 s( ˆβ 1 )] t α,n 2 : fractile de la loi de Student à n 2 ddl (lue dans la table). s( ˆβ 1 ) : écart-type estimé de la pente Remarque : s( ˆβ 1 ) = ˆσ/(ˆσ x n 1), où ˆσx est l écart-type de X. Si l intervalle de confiance comprend la valeur 0, on conclura que la pente n est pas significativement différente de 0. Si l intervalle de confiance ne comprend pas la valeur 0, on conclura que la pente est significativement différente de 0. 24 / 31

Test de β 1 (méthode 1 : Test de Student) Définition des htypothèses H 0 : β 1 = 0 H 1 : β 1 0 Statistique de test : T = β 1 /s(β 1 ) T n 2 ddl Définition de la région critique. Si t appartient à la région critique, on rejette H 0, sinon on ne peut pas rejeter H 0. 25 / 31

Application à notre exemple fonction rénale (Y ) en fonction de l âge (X) Intervalle de confiance à 95% de β 1 (t 5%;28 = 2, 048) : IC 95% = [ 0, 37 ± 2, 048 0, 11] = [ 0, 48; 0, 26] L intervalle de confiance ne comprend pas la valeur 0, il semble donc que la pente soit significativement différente de zéro. Test H 0 : β 1 = 0 contre H 1 : β 1 0 α = 0, 05, t 5%;28 = 2, 048 t = 0, 37/0, 11 = 3, 35 t > 2, 048, on rejette H 0. 26 / 31

Hypothèses du modèle : linéarité Clairance à la créatinine en ml/min 95 100 105 110 115 120 + 10 β 1 = 3.7 30 40 50 60 Age en années 27 / 31

Hypothèses du modèle : linéarité 0 10 20 30 40 50 10 0 10 20 30 40 50 60 x1 y1 0 10 20 30 40 50 2 0 2 4 x2 y2 28 / 31

Hypothèses du modèle : linéarité 0 10 20 30 40 50 10 0 10 20 30 40 50 60 x1 y1 0 10 20 30 40 50 2 0 2 4 x2 y2 29 / 31

Hypothèses du modèle : normalité des résidus Effective 0 2 4 6 8 10 10 5 0 5 10 15 residus 30 / 31

Hypothèses du modèle : homoscédasticité des résidus Valeurs prédites 5 0 5 10 100 102 104 106 108 110 112 residus 31 / 31