Régression linéaire. M-A Dronne / 65

Documents pareils
Analyse de la variance Comparaison de plusieurs moyennes

Données longitudinales et modèles de survie

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exemples d application

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Lire ; Compter ; Tester... avec R

Introduction aux Statistiques et à l utilisation du logiciel R

MODELE A CORRECTION D ERREUR ET APPLICATIONS

TABLE DES MATIERES. C Exercices complémentaires 42

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Un exemple de régression logistique sous

STATISTIQUES. UE Modélisation pour la biologie

Relation entre deux variables : estimation de la corrélation linéaire

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Chapitre 3. Les distributions à deux variables

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

«Cours Statistique et logiciel R»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Représentation d une distribution

Leçon N 4 : Statistiques à deux variables

Biostatistiques : Petits effectifs

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

La nouvelle planification de l échantillonnage

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Méthodes de Simulation

M2 IAD UE MODE Notes de cours (3)

Introduction à la statistique non paramétrique

Principe d un test statistique

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Probabilités III Introduction à l évaluation d options

Logiciel XLSTAT version rue Damrémont PARIS

CAPTEURS - CHAINES DE MESURES

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Introduction à la Statistique Inférentielle

Annexe commune aux séries ES, L et S : boîtes et quantiles

Coup de Projecteur sur les Réseaux de Neurones

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

La classification automatique de données quantitatives

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

1 Définition de la non stationnarité

Analyse en Composantes Principales

DUT Techniques de commercialisation Mathématiques et statistiques appliquées

VI. Tests non paramétriques sur un échantillon

Aide-mémoire de statistique appliquée à la biologie

Probabilités sur un univers fini

FORMULAIRE DE STATISTIQUES

3. Caractéristiques et fonctions d une v.a.

Simulation de variables aléatoires

Projet Etienne Marceau Méthodes statistiques en assurance non vie

Econométrie et applications

Résumé du Cours de Statistique Descriptive. Yves Tillé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques à deux variables

Correction du bac blanc CFE Mercatique

Cours de méthodes de scoring

Régression linéaire. Nicolas Turenne INRA

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Chapitre 2/ La fonction de consommation et la fonction d épargne

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Cours de Tests paramétriques

Statistique Descriptive Élémentaire

Calculs de probabilités avec la loi normale

Que faire lorsqu on considère plusieurs variables en même temps?

Estimation et tests statistiques, TD 5. Solutions

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Projet de Traitement du Signal Segmentation d images SAR

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Précision d un résultat et calculs d incertitudes

Les indices à surplus constant

Table des matières. I Mise à niveau 11. Préface

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Chapitre 6. Fonction réelle d une variable réelle

MODELES DE DUREE DE VIE

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

données en connaissance et en actions?

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Moments des variables aléatoires réelles

PROBABILITES ET STATISTIQUE I&II

Modèle GARCH Application à la prévision de la volatilité

Évaluation de la régression bornée

CHAPITRE IV Oscillations libres des systèmes à plusieurs degrés de liberté

Statistique : Résumé de cours et méthodes

Fonctions de deux variables. Mai 2011

Fonctions de plusieurs variables

1. Vocabulaire : Introduction au tableau élémentaire

Introduction à l approche bootstrap

Programmes des classes préparatoires aux Grandes Ecoles

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Transcription:

1 / 65 Régression linéaire M-A Dronne 2016-2017

2 / 65 Introduction Plan du cours (et sans pondération) Autres types de régression Régression linéaire pondérée Régression multiple Régression non linéaire Régression logistique

Généralités Objectif L objectif est d étudier l influence d une variable quantitative X sur une autre variable quantitative Y. Si ces deux variables semblent liées par une relation linéaire utilisation d un modèle linéaire Vocabulaire Variable X : variable explicative = exogène = indépendante = contrôlée = prédictive Variable Y : variable à expliquer (expliquée) = endogène = dépendante = observée = prédite Remarque Contrairement à la corrélation, les deux variables n ont pas un rôle symétrique 3 / 65

4 / 65 Généralités Remarques Il peut exister une relation entre deux variables mais qui ne soit pas linéaire : modèle logarithmique, inverse, quadratique, cubique, puissance,logistique, exponentiel,... Dans la nature, on trouve souvent des phénomènes de saturation ou de seuil (à prendre en compte dans le modèle) Il faut définir les "bornes" entre lesquelles la relation entre les 2 variables est quantitative Il faut toujours commencer par visualiser le nuage de points des données

Exemple Enoncé Un modèle rongeur de tumeur solide est utilisé et on souhaite étudier si la dose d anticancéreux A administrée à un groupe de 15 souris influence la durée de vie de ces souris. On administre donc 15 doses différentes d anticancéreux à ces souris et le nombre de jours de survie de ces souris est ensuite recensé. Question La survie est-elle liée linéairement à la dose d anticancéreux administrée au risque 5%? 5 / 65

6 / 65 Modèle linéaire Modèle linéaire Y = α + βx + ɛ α : ordonnée à l origine β : pente de la droite ɛ : résidu (= erreur = aléa de mesure) : variable aléatoire σ 2 ɛ : variance résiduelle Remarque ɛ N (0, σ ɛ ) 3 paramètres inconnus : α, β et σ ɛ Estimations de ces paramètres à calculer : a, b et s ɛ

Modèle linéaire Conditions à respecter Conditions sur les Y i ou sur les ɛ i : Conditions sur les Y i Y i : v.a. indépendantes, normales, d espérance sur la droite de régression et de variance constante Y i N (βx i + α, σ ɛ ) et Cov(Y i, Y j ) = 0 i j Conditions sur les ɛ i ɛ i : v.a. indépendantes, normales, d espérance nulle et de variance constante (variance résiduelle) ɛ i N (0, σ ɛ ) et Cov(ɛ i, ɛ j ) = 0 i j Vocabulaire On dit que les ɛ i doivent être identiquement et indépendamment distribuées (iid) selon une loi normale 7 / 65

8 / 65 Démarche générale Etapes Pour étudier la liaison linéaire entre X et Y : Estimation des paramètres obtention et étude de la droite de régression Etude de validité du modèle linéaire étude des résidus (la relation entre X et Y est-elle réellement linéaire?) Etude de la liaison linéaire Test de la pente nulle (la relation linéaire entre X et Y est-elle statistiquement significative?)

9 / 65 Estimation des paramètres Droite de régression a : estimation de α b : estimation de β Y = a + bx Remarque La droite de régression passe par le point (m x, m y ) avec m x = x n et m y = y n Estimation des paramètres Méthode des moindres carrés minimisation de la somme des carrés des écarts Méthode du maximum de vraisemblance

10 / 65 Estimation des paramètres Méthode 1 : méthode des moindres carrés Somme des carrés des écarts SCE = i e 2 i avec e i = Y i (a + bx i ) = Y i Ŷi Y i : valeur mesurée Ŷ i : valeur calculée de Y pour X = X i Minimisation de la SCE annulation des dérivées partielles de la SCE : SCE(a, b) a = 0 et SCE(a, b) b = 0

11 / 65 Estimation des paramètres Méthode des moindres carrés (suite) Valeurs estimées de α et β : b = n xy x y n x 2 ( x) 2 = cov(x, Y ) s 2 x a = m y bm x x avec m x = et m y = n y n Remarque Intervalles de confiance sur α et sur β : ic (1 α) (β) = ] b t (α,ν) s B ; b + t (α,ν) s B [ ic (1 α) (α) = ] a t (α,ν) s A ; a + t (α,ν) s A [

12 / 65 Estimation des paramètres Méthode 2 : maximum de vraisemblance : généralités Soit X une variable aléatoire de loi continue (ou discrète) dont on veut estimer un paramètre θ Soit f (x i ; θ) la fonction densité de probabilité de X La vraisemblance vaut : L(x 1,..., x n ; θ) = i f (x i ; θ) On veut trouver le maximum de cette fonction calcul de dérivées partielles : L(x 1,..., x n ; θ) θ = 0

Maximiser cette quantité par rapport à α et β revient à minimiser le dernier terme minimisation de la SCE (méthode des moindres carrés) estimations a et b de α et β 13 / 65 Estimation des paramètres Maximum de vraisemblance : application à la loi normale On cherche à maximiser la quantité suivante par rapport aux paramètres α, β et σ 2 ɛ : ( ) n [ L(α, β, σɛ 2 1 ) = exp 1 2πσ 2 ɛ 2σɛ 2 On passe à la log-vraisemblance : ln L(α, β, σ 2 ɛ ) = n 2 ln(2πσ2 ɛ ) 1 2σ 2 ɛ ] (Y i α βx i ) 2 i (Y i α βx i ) 2 i

14 / 65 Estimation des paramètres Estimation de la variance résiduelle σ 2 ɛ sɛ 2 = SCE y b 2 SCE x n 2 sɛ 2 i = e2 i n 2

15 / 65 Formule de décomposition Décomposition (Y i m y ) 2 = i i (Ŷi m y ) 2 + i (Y i Ŷi) 2 Signification des termes i (Y i m y ) 2 : somme des carrés totale ((n-1) ddl) i (Ŷi m y ) 2 : somme des carrés expliquée (partie de la variation de Y expliquée par la variable X) (1 ddl) i (Y i Ŷi) 2 : somme des carrés résiduelle (partie de la variation de Y non expliquée par la variable X) ((n-2) ddl)

16 / 65 Formule de décomposition Formule sur les SCE SCE T = SCE e + SCE r Tableau d analyse de variance (ANOVA) Il est possible de faire un test pour savoir si la variable X a un effet sur la variable Y : Hypothèses H 0 : pas d effet de X sur Y H 1 : effet de X sur Y Statistique de test et loi suivie sous H 0 : Les SCE suivent des lois du χ 2 sous H 0 SCE e /1 La variable F = suit une loi de Fisher à SCE r /(n 2) (1, n 2) ddl cf. cours ANOVA

17 / 65 Coefficient de détermination Définition i r 2 = (Ŷi m y ) 2 i (Y i m y ) 2 = SCE e SCE T ( ) cov(x, Y ) 2 r 2 = s x s y Remarques r 2 rend compte de la qualité de l ajustement (= % de variation expliquée) Il s agit du carré du coefficient de corrélation (cf. cours corrélation) On a toujours : 0 r 2 1

18 / 65 Coefficient de détermination Interprétation 0 r 2 1 r 2 = 1 : liaison linéaire parfaite entre X et Y r 2 = 0 : pas de liaison linéaire entre X et Y (= droite horizontale) Remarque Si on ne met pas évidence de liaison linéaire entre X et Y, cela ne veut pas dire qu il n y a pas de liaison du tout liaison non linéaire possible r 2 augmente avec le nombre de données (pertinentes)

19 / 65 Coefficient de détermination Utilisation du r 2 dans l ANOVA La statistique de test F utilisée dans l ANOVA précédente peut s exprimer en fonction de r 2 : F = (n 2) r 2 1 r 2 Coefficient de détermination ajusté Comme r 2 dépend du nombre de données, pour comparer des modèles qui ont un nombre différent de données coefficient de détermination ajusté (corrigé par les ddl) : r 2 a = 1 n 1 n 2 (1 r 2 )

20 / 65 Etude de validité du modèle linéaire Tests à effectuer sur les résidus ɛ i Normalité des résidus Visualisation des résidus (histogramme + qqplot) Test de normalité (Shapiro, Lilliefors) Espérance nulle des résidus Visualisation des résidus Homoscédasticité des résidus Visualisation des résidus Test de comparaison de variances Indépendance des résidus Visualisation des résidus Test pour tester l auto-corrélation (test de Wald, test de Durbin-Watson,...)

Test de la pente nulle Caractéristiques des variables 2 variables Y : variable aléatoire X : variable contrôlée (ou connue sans erreur) Variables quantitatives Hypothèses statistiques Hypothèse nulle : H 0 : β = 0 Y = α + βx + ɛ = α + ɛ pas de liaison linéaire entre X et Y Hypothèse alternative : H 1 : β 0 test bilatéral Y = α + βx + ɛ liaison linéaire entre X et Y Remarque : possibilité de faire un test unilatéral (β > 0 ou β < 0) 21 / 65

22 / 65 Test de la pente nulle Propriétés des données 2 échantillons "appariés" (couples (x i, y i )) cas petit échantillon (valable aussi pour grand échantillon) Calculs Estimation ponctuelle de β : b = n xy x y n x 2 ( x) 2 Estimation ponctuelle de σ B : sɛ s B = 2 = SCE x 1 (n 2) ( ) SCEy b SCE 2 x

23 / 65 Test de la pente nulle Conditions à respecter Conditions sur les Y i Y i : v.a. indépendantes, normales, d espérance sur la droite de régression et de variance constante Y i N (βx + α, σ ɛ ) et Cov(Y i, Y j ) = 0 i j Conditions sur les ɛ i ɛ i : v.a. indépendantes, normales, d espérance nulle et de variance constante (variance résiduelle) ɛ i N (0, σ ɛ ) et Cov(ɛ i, ɛ j ) = 0 i j Tests préliminaires cf. étude de validité du modèle linéaire

24 / 65 Test de la pente nulle Formule et calcul de la statistique de test Variable d intérêt : B : estimateur de β Statistique de test sous H 0 : Z = T = B S B Loi suivie par la statistique de test : T Student à ν = n 2 ddl Valeur de la statistique de test z = t = b s B

25 / 65 Test de la pente nulle Confrontation et conclusion (cf. cours précédents) Confrontation Comparaison de la valeur de la statistique de test t avec la valeur seuil t s lue dans la table de Student Position de t par rapport à l intervalle d acceptation I a Comparaison de la p-value avec la valeur α Conclusion Conclusion en langage statistique et en langage courant (au risque α)

26 / 65 Test de la pente nulle Régression / corrélation On a la relation suivante : r = b s x s y Le test de la pente nulle est donc équivalent au test du coefficient de corrélation de Pearson.

Autres tests statistiques Test de conformité de β à une valeur de référence β 0 Hypothèses : H 0 : β = β 0 H 1 : β β 0 Statistique de test : Z = T = B β 0 S B Student à ν = n 2 ddl Valeur de la statistique de test : z = t = b β 0 s B 27 / 65

28 / 65 Test de conformité de l ordonnée à l origine Caractéristiques des variables 2 variables Y : variable aléatoire X : variable contrôlée (ou connue sans erreur) Variables quantitatives Hypothèses statistiques Hypothèse nulle : H 0 : α = α 0 Hypothèse alternative : H 1 : α α 0 test bilatéral

29 / 65 Test de conformité de l ordonnée à l origine Propriétés des données 2 échantillons "appariés" cas petit échantillon (valable aussi pour grand échantillon) Calculs Estimation ponctuelle de α : a = m y bm x Estimation ponctuelle de σ A : s A = s ɛ 1 n + m2 x SCE x

30 / 65 Test de conformité de l ordonnée à l origine Conditions à respecter Conditions sur les Y i Y i : v.a. indépendantes, normales, d espérance sur la droite de régression et de variance constante Y i N (βx + α, σ ɛ ) et Cov(Y i, Y j ) = 0 i j Conditions sur les ɛ i ɛ i : v.a. indépendantes, normales, d espérance nulle et de variance constante (variance résiduelle) ɛ i N (0, σ ɛ ) et Cov(ɛ i, ɛ j ) = 0 i j Tests préliminaires cf. étude de validité du modèle linéaire

31 / 65 Test de conformité de l ordonnée à l origine Formule et calcul de la statistique de test Variable d intérêt : A : estimateur de α Statistique de test sous H 0 : Z = T = A α 0 S A Loi suivie par la statistique de test : T Student à ν = n 2 ddl Valeur de la statistique de test z = t = a α 0 s A

32 / 65 Test de conformité de l ordonnée à l origine Confrontation et conclusion (cf. cours précédents) Confrontation Comparaison de la valeur de la statistique de test t avec la valeur seuil t s lue dans la table de Student Position de t par rapport à l intervalle d acceptation I a Comparaison de la p-value avec la valeur α Conclusion Conclusion en langage statistique et en langage courant (au risque α)

33 / 65 Prédiction avec une droite de régression Objectif proposer la prédiction de valeurs de Y en fonction de valeurs de X à partir de la relation : Y = a + bx Remarques La valeur calculée à l aide des paramètres de la droite de régression donne une prédiction de l espérance de Y pour une valeur particulière de X. Il faut faire attention lorsque l on fait des prévisions en dehors de l étendue des valeurs observées.

34 / 65 Intervalles Objectif Intervalle de confiance de µ x IC sur la moyenne prédite Intervalle de prévision de y x IC sur une valeur individuelle prédite

35 / 65 Intervalle de confiance de µ x Espérance de Y sachant X Estimation ponctuelle de µ 0 = E(Y /X = x 0 ) pour Y = α + βx + ɛ : µ 0 = a + bx 0 Intervalle de confiance de l espérance IC de µ 0 = E(Y /X = x 0 ) : Remarque ic (1 α) (µ 0 ) = a + bx 0 ± t (α,ν) s ɛ 1 n + (x 0 m x ) 2 SCE x Plus la valeur de x 0 est éloignée de la moyenne m x, plus l intervalle de confiance est "large"

36 / 65 Intervalle de prévision de y x Valeur prédite Valeur prédite ponctuelle de Y 0 pour X = x 0 : Intervalle de prévision y 0 = a + bx 0 Intervalle de prévision de Y 0 pour X = x 0 : ip (1 α) (Y 0 ) = a + bx 0 ± t (α,ν) s ɛ Remarque L ip (1 α) (Y 0 ) est plus "large" que l ic (1 α) (µ 0 ) 1 + 1 n + (x 0 m x ) 2 SCE x

Utilisation de R Exemple Un modèle rongeur de tumeur solide est utilisé et on souhaite étudier si la dose d anticancéreux A administrée à un groupe de 15 souris influence la durée de vie de ces souris. On administre donc 15 doses différentes d anticancéreux à ces souris et le nombre de jours de survie de ces souris est ensuite recensé. La survie est-elle liée linéairement à la dose d anticancéreux administrée au risque 5%? Commandes R Soit "dose" le vecteur contenant les 15 valeurs de doses et "survie" le vecteur contenant les 15 valeurs de survie correspondantes. Il faut commencer par visualiser les données (la survie en fonction de la dose) 37 / 65

Utilisation de R Visualisation des données : plot(dose,survie) survie 8 9 10 11 12 1 2 3 4 5 dose Interprétation Possibilité d envisager un modèle linéaire du type : Y = α + βx + ɛ avec ɛ N (0, σ ɛ ) Y : survie (variable quantitative) X : dose (variable quantitative) 38 / 65

39 / 65 Utilisation de R Régression : commandes R Commande reg<-lm(survie~dose) Commande reg : Call: lm(formula = survie Coefficients: (Intercept) dose 6.923 1.017 dose) Interprétation La droite de régression a pour équation : Y = 6.923 + 1.017 X

40 / 65 Utilisation de R Options de la fonction lm formula : quand il y a plusieurs variables explicatives, cette option permet de prendre en compte les interactions weights : permet de prendre en compte des poids si on souhaite faire une régression pondérée na.action : indique ce qu il faut faire s il manque une donnée dans la liste method : permet de préciser la méthode à utiliser pour faire la régression (par défaut méthode "qr") model, x, y, qr : paramètres logiques : si = TRUE, le logiciel donne les détails demandés autres options

41 / 65 Utilisation de R Résultat de la commande summary(reg) Call: lm(formula = survie ~dose) Residuals: Min 1Q Median 3Q Max -0.47333-0.14833-0.00667 0.12667 0.51000 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 6.92333 0.14842 46.65 7.36e-16 *** dose 1.01667 0.04475 22.72 7.56e-12 *** -- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.2451 on 13 degrees of freedom Multiple R-squared: 0.9754, Adjusted R-squared: 0.9735 F-statistic: 516.1 on 1 and 13 DF, p-value: 7.563e-12

Utilisation de R Interprétation Distribution des résidus min-max 1 er, 2 nd et 3 ème quartile Ordonnée à l origine (intercept) : Valeur estimée a et écart-type estimé s A Test de comparaison de l ordonnée à l origine α à la valeur nulle (test t) : p value < 0.001 (rejet de H 0 ) ordonnée à l origine significativement différente de zéro au risque 1 pour mille (10 3 ) Pente (dose) : Valeur estimée b et écart-type estimé sb Test de comparaison de la pente β à la valeur nulle (test t) : p value < 0.001 (rejet de H 0 ) pente significativement différente de zéro au risque 1 pour mille (10 3 ) 42 / 65

43 / 65 Utilisation de R Interprétation (suite) Valeurs de r 2 et r 2 a : r 2 = 0.9754 r 2 a = 0.9735 valeurs très proches de 1 Test de Fisher (ANOVA) : p value < 0.001 (rejet de H 0 ) influence significative de X sur Y (= de la dose sur la survie) au risque 1 pour mille (10 3 ) Remarque Détails du test de Fisher obtenus avec les commandes aov(reg) et anova(reg)

Utilisation de R Résultat de la commande anova(reg) Analysis of Variance Table Response: survie Df Sum Sq Mean Sq F value Pr(>F) dose 1 31.008 31.0083 516.14 7.563e-12 *** Residuals 13 0.781 0.0601 -- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Résultat de la commande aov(reg) Call: aov(formula = reg) Terms: dose Residuals Sum of Squares 31.00833 0.78100 Deg. of Freedom 1 13 Residual standard error: 0.2451059 Estimated effects may be unbalanced 44 / 65

45 / 65 Utilisation de R Validation du modèle Visualisation des résidus qqnorm(residuals(reg)) qqline(residuals(reg)) fitted(reg),residuals(reg) plotresid(reg) du package RVAideMemoire Graphe 1 : résidus en fonction des valeurs prédites Graphe 2 : qq-plot des résidus Test de Shapiro-Wilk sur les résidus

46 / 65 Utilisation de R Visualisation des résidus Residuals vs fitted Normal Q Q Plot Residuals 0.4 0.2 0.0 0.2 0.4 Sample Quantiles 0.4 0.2 0.0 0.2 0.4 8 9 10 11 12 Fitted values 1 0 1 Theoretical Quantiles

47 / 65 Utilisation de R Interprétation Graphe 1 : Homoscédasticité et indépendance : Equivariance acceptée quand la dispersion verticale des points est à peu près constante sur toute la longueur de l axe des abscisses Indépendance acceptée lorsque l orientation du nuage de points est horizontale Graphe 2 : Normalité des résidus : Normalité acceptée lorsque les points sont à peu près alignés sur une droite Test de Shapiro-Wilk : Normalité des résidus Exemple Normalité, espérance nulle, homoscédasticité et indépendance des résidus modèle linéaire accepté

Utilisation de R Validation du modèle Visualisation des résidus Fonctions par(mfrow = c(2, 2)) puis plot(reg, 1:4) 4 graphiques Graphe 1 : résidus en fonction des valeurs prédites Graphe 2 : qq-plot des résidus Graphe 3 : résidus standardisés en fonction des valeurs prédites Graphe 4 : distances de Cook Graphe des distances de Cook Il donne pour chacun des points de mesure la distance entre les paramètres estimées par la régression avec et sans ce point. Si l importance du rôle de chaque point est concentrée sur quelques valeurs, la régression n est pas bonne (prise en compte de points aberrants). 48 / 65

Utilisation de R Autres commandes residuals(reg) : permet de visualiser les valeurs des résidus coefficients(reg) : permet de visualiser les valeurs des paramètres estimés a et b fitted.values(reg) ou predict(reg) : permet de visualiser les valeurs des Ŷi (Y i estimés) confint(reg) : donne les intervalles de confiance des paramètres estimés a et b 49 / 65

50 / 65 Utilisation de R Autres commandes (suite) ind.contrib(regression) du package RAIdeMemoire : permet de détecter la présence d individus extrême auxquels la régression est très sensible (calcul de la valeur des paramètres de la droite de régression en enlevant à tour de rôle chaque individu) predict(reg,...) : permet de calculer la valeur d une prédiction Ŷi en fonction d une valeur de X

51 / 65 Autres types de régressions Exemples Régression linéaire pondérée Régression multiple Régression non linéaire Régression logistique

Régression pondérée Définition La régression pondérée est utilisée quand les variances résiduelles σ 2 ɛi diffèrent selon la mesure Y i. Méthode Selon la méthode de l estimation du maximum de vraisemblance, les paramètres estimés a et b vont être déterminés en minimisant la fonction suivante : i 1 (Y i (a + bx i )) 2 = i σ 2 ɛi w i (Y i (a + bx i )) 2 σ 2 ɛi : variance résiduelle affectant la mesure Y i w i : poids de la mesure Y i 52 / 65

53 / 65 Régression multiple Définition (cf. cours statistiques multivariées) Etude de la liaison entre une variable quantitative Y et un ensemble de variables quantitatives X 1,...X k. Modèle β j : paramètres fixes Y = α + β 1 X 1 +... + β k X k + ɛ ɛ N (0, σ ɛ )

54 / 65 Régression multiple Remarques Si variables explicatives qualitatives : utilisation d indicatrices pour les modalités de ces variables Possibilité de prendre en compte des interactions entre les variables explicatives Objectif Détermination de la (ou des) variable(s) explicative(s) (et/ou de leurs interactions) qui ont de l influence sur la variable à expliquer.

Régression non linéaire Définition Etude de la liaison non linéaire entre une variable quantitative Y et une ou plusieurs variables quantitatives X 1,...X k. Modèle θ vecteur de paramètres Y = f (θ, X) + ɛ ɛ N (0, σ ɛ ) 55 / 65

56 / 65 Régression non linéaire Méthode On cherche à se ramener à une fonction affine (linéaire) pour faire l étude. changement de variable Changement de variable sur X et/ou sur Y Famille Fonctions Transformation Forme affine Exonentielle y = ae bx y = ln(y) y = ln(a) + bx Puissance y = ax b y = ln(y) et x = ln(x) y = ln(a) + bx Inverse y = a + b x x = 1 x y = a + bx Logistique y = 1 1+e (ax+b) y = ln ( y 1 y ) y = ax + b

57 / 65 Régression logistique Définition Etude de la liaison entre une variable qualitative Y et une ou plusieurs variables quantitatives X 1,...X k. Remarque Quand variables explicatives qualitatives : utilisation d indicatrices pour les modalités de ces variables Régression logistique binaire Etude de la liaison entre une variable binaire Y et une ou plusieurs variables X i quantitatives ou qualitatives

58 / 65 Régression logistique binaire Exemple On souhaite étudier s il existe une relation entre la prévalence du cancer du poumon et le fait de fumer ainsi que l âge. Y : "avoir le cancer du poumon" variable qualitative binaire X 1 : "être fumeur" variable qualitative binaire X 2 : "age" variable quantitative continue modèle logistique

Régression logistique binaire Notations Y : absence/présence d une maladie M + : malade, M : non malade p(x) = P(M + /X = x) : probabilité d être malade (prévalence de la maladie) sachant que X = x X i : facteurs de risque de la maladie Modèle avec une variable explicative X p x = P(M + /X = x) = 1 1 + e (α+βx) fonction logistique p x = P(M + /X = x) = e(α+βx) 1 + e (α+βx) 59 / 65

60 / 65 Régression logistique binaire Transformation : fonction Logit ( ) px logit(p x ) = ln = α + βx 1 p x fonction linéaire Estimation des paramètres Utilisation de la méthode du maximum de vraisemblance

61 / 65 Régression logistique binaire Cas d une variable explicative binaire Probabilité d avoir la maladie sachant que l on a le facteur de risque : p 1 = P(M + /X = 1) = 1 1 + e (α+β) Probabilité d avoir la maladie sachant que l on n a pas le facteur de risque Remarque p 0 = P(M + /X = 0) = 1 1 + e α Le modèle logistique va permettre d exprimer l association entre la maladie et l exposition au facteur étudié au moyen de l odd ratio (OR), indicateur très fréquemment employé en épidémiologie.

Régression logistique binaire Définition de l OR OR = rapport des chances (RC) Formule OR = p 1 1 p 1 1 p 0 p 0 Relation avec le modèle logistique OR = e β β = ln(or) 62 / 65

63 / 65 Régression logistique binaire Test sur β Tester l hypothèse H 0 : β = 0 revient à tester l hypothèse H 0 : OR = 1 Interprétation du OR Si on effectue une étude pour savoir si le fait d être fumeur a une influence sur le fait d avoir un cancer des poumons et que l on obtient OR = 2.4, on en déduit qu un fumeur a 2.4 fois plus de "chance" (risque) d avoir un cancer du poumon

Régression logistique binaire Commandes R Utilisation de la fonction glm pour Modèle Linéaire Généralisé Commande R : logis<-glm(y X,family = binomial(link="logit")) Remarque : la loi de distribution des erreurs est une loi binomiale (car variable à expliquer est binaire) Tableau des résultats avec la commande summary(logis) 64 / 65

65 / 65 Conclusion Différents types de régressions Régression linéaire / non linéaire Régression pondérée / non pondérée Régression simple (univariée) /multiple (multivariée)