Modèles de régression multiple

Transcription

1 Note méthodologique Sang Thrombose Vaisseaux 2011 ; 23, n o 7 : Modèles de régression multiple Florence Gillaizeau 1, Sophie Grabar 2 Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/ Inserm, Centre d Investigation Épidémiologique 4, 20 rue Leblanc, F Paris, France ; Hôpital européen Georges-Pompidou, Unité d Épidémiologie et de Recherche Clinique, 20 rue Leblanc, F Paris, France <florence.gillaizeau@egp.aphp.fr> 2 Université Paris Descartes, Sorbonne Paris Cité, Faculté de médecine, F Paris, France ; Hôpital Cochin, Unité de Biostatistique et Epidémiologie et INSERM U943, 27 rue du Faubourg Saint-Jacques, F Paris, France Résumé. Les analyses multivariées sont largement utilisées en recherche médicale, notamment pour décrire l association entre deux variables en contrôlant l effet d autres variables. Cependant, le clinicien n est souvent pas assez à l aise avec ces modèles mathématiques et leur interprétation pour pouvoir émettre son propre jugement des résultats. Cette note a pour objectif de décrire simplement les modèles de régression multiple et d illustrer leur interprétation par deux exemples médicaux utilisant le modèle de régression linéaire et le modèle de régression logistique. Mots clés : régression, modèles linéaires, modèles logistiques, facteurs de risque, facteurs de confusion, ajustement Abstract Multiple regression models Multivariate analyses are widely used in medical research especially to describe the association between two variables whilst controlling for other variables. However, the clinician is often not comfortable enough with these mathematical models and their interpretation to make her/his own judgment of the results. This paper aims to describe in a simple fashion the multiple regression models and illustrate their interpretation using two medical examples of the linear regression and the logistic regression models. Key words: Regression analysis, linear models, logistic models, risk factors, confounding factors, adjustment Les modèles de régression multiple sont des modèles mathématiques qui permettent d étudier l association entre des facteurs exploratoires et une variable à expliquer, dans un objectif de description et/ou de prédiction [1]. Ils sont ainsi largement utilisés en recherche médicale : étude des associations entre des facteurs d exposition et une maladie, construc- Tirés à part : F. Gillaizeau tion d un score pronostique, étude médico-économique, etc. Malgré leur utilisation et leur présentation fréquentes dans la littérature médicale, le clinicien n est souvent pas assez à l aise avec ces modèles mathématiques et leur interprétation pour pouvoir émettre son propre jugement des résultats. Cette note a pour objectif de décrire simplement les modèles de régression multiple et d illustrer leur interprétation grâce à deux exemples médicaux utilisant le modèle de régression linéaire et le modèle de régression logistique. doi: /stv Pour citer cet article : Gillaizeau F, Grabar S. Modèles de régression multiple. Sang Thrombose Vaisseaux 2011 ; 23 (7) : doi: /stv

2 Présentation de la régression multiple Pourquoi parle-t-on de régression multiple? Les modèles de régression sont des modèles mathématiques qui permettent de représenter une variable à expliquer (ou variable dépendante ou variable endogène ou réponse ou outcome) Y, en fonction d une ou plusieurs variables X 1, X 2,...X p (dites variables indépendantes, variables explicatives, variables exogènes, ou covariables) correspondant à des facteurs de risque et de confusion potentiels. Le modèle de régression est dit simple s il n inclut qu une seule variable explicative, et multiple s il inclut plusieurs variables explicatives. Les modèles de régression simple et multiple sont souvent appelés respectivement modèles de régression univarié et multivarié. En réalité, les analyses multivariées ou multidimensionnelles regroupent plus largement toutes les techniques dédiées à l analyse de données avec plusieurs variables 1. Dans cet article, nous nous intéressons aux modèles de régression multiple, mais le lecteur pourra rencontrer les termes «analyse univariée» et «analyse multivariée», utilisés abusivement pour décrire l étude de l association entre Y et une ou plusieurs variables explicatives. Dans quelles situations utiliser un modèle de régression multiple? Le principal objectif des modèles de régression, qu ils soient simples ou multiples, est de décrire l association entre deux variables, par exemple une exposition (facteur de risque) et une maladie (variable à expliquer Y). Dans les études d intervention ou essais thérapeutiques, le tirage au sort (ou randomisation) assure une répartition équilibrée des facteurs de risque. En épidémiologie, situation d observation, ce n est pas le cas. Par conséquent, une association entre une exposition et une maladie n indique pas nécessairement que cette exposition soit un facteur de risque de la maladie car cette association peut être la conséquence de facteurs de confusion. Pour décrire au mieux l association entre une exposition et une maladie, il faut donc contrôler l effet des autres variables, en particulier les facteurs de confusion : c est le principe de l ajustement. Différentes techniques d ajustement permettent de prendre en compte un facteur de confusion au moment de l analyse : 1 Modèles de régression multiple (linéaire, logistique, Cox, etc.), techniques d analyse des données (analyse discriminante, analyse en composantes principales, analyse des correspondances multiples...), modélisation conjointe de deux ou plusieurs variables à expliquer (analyse de variance multivariée (MANOVA)...). les analyses stratifiées et les analyses de régression multiple. Si les tests stratifiés comme le test du Khi-Deux de Maentel Haenzel sont simples en termes de principe et de calcul (analyse de la liaison par strate), ils ne peuvent prendre en compte qu un nombre limité de facteurs de confusion. La régression multiple permet de palier ce problème. Dans un essai thérapeutique randomisé, l ajustement permet également d augmenter la précision (donc la puissance) de l estimation de l effet du traitement [1]. Quels termes introduire dans le modèle? Variable à expliquer La variable à expliquer Y est la variable dont on souhaite décrire les variations en fonction d autres variables (qui sont alors explicatives). Y peut être une variable quantitative ou qualitative [2]. En médecine, la variable à expliquer est souvent un évènement défavorable comme le décès, la maladie, la récidive, l erreur de prescription, etc. Mais il peut aussi s agir d un évènement favorable (naissance, guérison, etc.) ou d une variable quantitative (mesure biologique, score, etc.). Variables explicatives Les variables explicatives X 1,X 2,...X p sont des variables dont on cherche l association avec la variable à expliquer Y ou qui peuvent modifier cette association : ce sont des facteurs de risque, des facteurs de confusion ou des facteurs d interaction. Elles peuvent être quantitatives ou qualitatives. Facteurs de risque Les facteurs de risque sont des caractéristiques d origines diverses (biologique, génétique, environnementale, culturelle, etc.) qui entraînent une augmentation de la probabilité d apparition d un évènement défavorable 2. Facteurs de confusion Le principal intérêt de la régression multiple est de prendre en compte les biais de confusion par le principe d ajustement 3. On dit qu un facteur F joue le rôle de facteur de confusion entre l exposition E et la maladie M s il est lié à la fois au facteur d exposition E et à la maladie M, 2 Il est délicat d utiliser le terme «facteur de risque» lorsque la variable à expliquer ne représente pas un événement défavorable mais le terme «facteur de chance» est rarement utilisé! 3 La prise en compte des facteurs de confusion peut aussi intervenir au niveau de la population (randomisation, restriction de la population, appariement). Ces facteurs sont néanmoins souvent introduits dans une régression multiple. STV, vol. 23, n o 7, septembre

3 qu il n est pas sur le chemin causal et s il modifie la relation brute aux différents niveaux de F. L association entre E et M peut être atténuée, augmentée, inversée. Prenons l exemple de l analyse de l association entre le chômage (facteur d exposition) et la dépression (maladie) (figure 1A). Dans une population, on observe que le risque de dépression est trois fois plus élevé chez les chômeurs (risque relatif (RR) brut, calculé à partir d un tableau de contingence ou du modèle de régression simple de la dépression sur le chômage). Cette relation entre chômage et dépression est la même chez les sujets de moins de 50 ans et de plus de 50 ans, cependant le risque dans chaque strate est réduit à 2 (RR ajustés, calculés à partir des tableaux de contingence ou du modèle de régression multiple de la dépression sur le chômage et l âge). Ceci s explique en partie par un taux de chômage plus faible chez les moins de 50 ans et un phénomène de dépression plus fréquent chez les personnes âgées. L âge est donc un facteur de confusion qui augmente l association entre le chômage et la dépression. Facteurs d interaction Les facteurs d interaction sont à distinguer des facteurs de confusion. Lorsqu il y a confusion (voir le paragraphe précédent), la relation brute entre E et M (odds ratio (OR) ou RR brut) n est pas la même que celle obtenue aux différents niveaux de F, en revanche cette relation est identique pour chaque niveau de F (OR ou RR ajustés). Lorsqu il y a interaction, la relation brute entre E et M n est pas la même que celle obtenue aux différents niveaux de F et cette relation diffère pour chaque niveau F: on ne peut alors plus parler de risque ajusté car celui-ci est diffèrent pour chaque niveau de F. Cette relation peut être d intensité différente (interaction Chômage 1A? Âge Dépression quantitative) ou de sens opposé (interaction qualitative) [3]. Par exemple, il y a interaction quantitative entre alcool et tabac pour le risque de cancer du larynx : l alcool est un facteur de risque connu de cancer du larynx, et ce risque est augmenté lorsqu il y a consommation conjointe avec du tabac (figure 1B). Dans le modèle de régression multiple, il faut alors introduire comme variables explicatives l alcool, le tabac, et l interaction alcool tabac. Quel type de modèle utiliser? Le choix d un modèle dépend de la distribution (loi de probabilité) et donc du type de la variable à expliquer Y, et de la forme de la liaison entre les variables explicatives et Y. Les modèles de régression multiple les plus couramment utilisés sont le modèle de régression linéaire, le modèle de régression logistique, et le modèle à risques proportionnels de Cox (tableau 1). Le modèle de Cox n est pas décrit dans cette note. Comment interpréter les coefficients de régression? En régression linéaire (voir équation tableau 1), la constante β 0 correspond à la valeur de Y quand toutes les valeurs des covariables X 1,X 2,...,X p sont nulles. L association entre la covariable et Y (respectivement la probabilité π en régression logistique) est positive si le coefficient de régression est positif, et négative si le coefficient de régression est négatif. Un coefficient de régression proche de 0 indique que la covariable influence peu Y (respectivement π). Dans le cas de la régression logistique (voir équation tableau 1), l exponentielle du coefficient de régression β 1 Risque de cancer du larynx 1B Fumeur Non-fumeur Consommation d alcool Figure 1. Illustration des facteurs de confusion et d interaction. A) L âge est un facteur de confusion qui augmente la force de l association entre chômage et dépression. B) Il y a interaction quantitative entre alcool et tabac pour le risque de cancer du larynx : l interaction quantitative se traduit par des pentes différentes pour les fumeurs et les non fumeurs (droites non parallèles). Le risque est augmenté lorsqu il y a consommation conjointe de tabac et d alcool (pente plus forte pour les fumeurs). 362 STV, vol. 23, n o 7, septembre 2011

4 Tableau 1. Présentation des modèles en fonction des variables à expliquer et des variables explicatives. Modèle Type de la variable à expliquer Y[exemples] Distribution de Y Type des variables explicatives X 1,X 2,..., Équation Forme de la liaison entre les variables explicatives et Y Xp Régression linéaire Quantitative [pression artérielle systolique, débit filtration glomérulaire,...] Normale Quantitatives Qualitatives Y = β 0 + β 1 X 1 + β 2 X β p X p + ε Hypothèse de linéarité : la valeur moyenne de Y (ou espérance) est prédite par une combinaison linéaire des variables explicatives X 1,X 2,..., Xp. Régression logistique dichotomique Qualitative binaire* [malade (oui/non), Vivant (oui/non),...] Bernoulli ou binomiale Quantitatives Qualitatives logit(π) = ln π = β 0 + β 1 X 1 + β 2 X β p X p + ε 1 π π = π = exp[β 0 + β 1 X 1 + β 2 X β p X p ] 1 + exp[β 0 + β 1 X 1 + β 2 X β p X p ] + ε ' exp[ (β 0 + β 1 X 1 + β 2 X β p X p )] + ε ' π: probabilité associée à la modalité d intérêt de Y ln : fonction logarithme népérien Hypothèse de linéarité du logit (ou linéarité du log-odds) : la proportion de sujets π avec la caractéristique étudiée (par exemple : la proportion de sujets malades), après transformation logit, est prédite par une combinaison linéaire des variables explicatives X 1, X 2,..., Xp. À risques proportionnels de Cox Survie Temps (données censurées) [décès, récidive,... + temps de suivi] Quantitatives Qualitatives Hypothèses des risques proportionnels * Si Y est une variable qualitative à plus de 2 modalités (k > 2), on parle alors de régression logistique polytomique (le terme trichotomique est parfois employé pour 3 modalités). Le modèle est dit polytomique ordonné si Y est une variable qualitative ordinale. Le modèle est dit polytomique non ordonné ou polytomique multinomial si Y est une variable qualitative non ordinale [4]. Si Y est une variable binaire à deux modalités 0 et 1, dire que Y suit une loi de Bernoulli de paramètre π signifie que Y=1(succès) avec la probabilité π, ety=0(échec) avec la probabilité 1 - π. En épidémiologie, le «succès» c est-à-dire l évènement clinique étudié est souvent la maladie! La moyenne des valeurs prises par un échantillon de sujets correspond alors à la proportion de sujets malades, c est-à-dire π. La proportion de sujets non malades est 1 π. Puisqu une probabilité est comprise entre 0 et 1, celle-ci ne peut pas s exprimer comme une combinaison linéaire de covariables quantitatives et qualitatives (qui peut prendre des valeurs entre - et + ). Ceci explique la transformation de la probabilité π en cote (en anglais odds) π /1-π, et l application de la transformation logit (on parle alors de log-odds). Modèle non présenté dans cette note. Voir détails paragraphe Sous quelle forme introduire les variables explicatives? STV, vol. 23, n o 7, septembre

5 correspond à l odds ratio (exp β 1 = OR). C est une des raisons de la popularité du modèle. Pour une variable qualitative, l exponentielle du coefficient de régression associé à une modalité correspond à l odds ratio entre la modalité de référence et la modalité considérée. Pour une variable quantitative, l exponentielle du coefficient de régression correspond à l odds ratio pour une augmentation de 1 unité de la variable. Une telle augmentation est souvent peu intéressante sur le plan médical, ou peu pertinente si l étendue (range) de la variable est très large. Par exemple, si X 1 est l âge, plutôt que de calculer l odds ratio pour une augmentation de 1 an, on préfère calculer l odds ratio pour une augmentation de 5 ou 10 ans. L odds ratio pour une augmentation de a unités de la variable est égal à exp(a β 1 ), a pouvant être positif ou négatif. Ainsi, l odds ratio associé à une augmentation de 10 ans vaut exp(10 β 1 ), et l odds ratio associé à une diminution de 5 ans vaut exp(-5 β 1 ). Lorsque la régression logistique est multiple, les odds ratio sont dits «ajustés». Ils se calculent de la même manière qu en régression logistique simple (à partir de l exponentielle du coefficient de régression), sauf en présence d interaction où il est nécessaire de fixer la valeur d une des variables du terme d interaction [5]. Sous quelle forme introduire les variables explicatives? Variables qualitatives Dans le cas d une variable explicative qualitative, celleci n est jamais incluse dans un modèle sous sa forme initiale. La variable est transformée en m-1 variables binaires (on parle de dichotomisation) correspondant aux modalités de la variable, la modalité restante étant la catégorie de référence. Dans le cas d une variable qualitative binaire (cas le plus simple), la modalité de référence correspond à la variable dont le codage est 0 dans le modèle. Par exemple, pour la variable sexe, la modalité «femme» est classiquement choisie comme modalité de référence (elle est codée 0 au moment de la modélisation alors que la modalité «homme» est codée 1). Dans le cas d une variable qualitative nominale à m modalités (m > 2), la catégorie de référence correspond en général à une catégorie moyenne (par exemple, catégorie socio-professionnelle (CSP) «cadre»), ou à la catégorie regroupant le plus d observations («ouvrier»). Les résultats présentent alors une p-valeur (degré de signification) «globale» correspondant au test de l association entre la variable explicative à m modalités et la variable à expliquer étudiée (test global des m-1 coefficients). En régression logistique, pour faciliter l interprétation, on choisit souvent comme catégorie de référence celle associée au plus faible risque de présenter l évènement défavorable (ainsi tous les OR associés aux autres catégories sont supérieurs à 1). Des résultats présentant des coefficients ou OR élevés doivent être examinés prudemment : ils peuvent révéler des problèmes d estimation des paramètres suite au choix d une catégorie de référence avec peu d observations. Il est plus judicieux de choisir comme catégorie de référence celle avec le maximum d observations, ou de regrouper des catégories. Dans le cas d une covariable qualitative ordinale avec un nombre de modalités élevé (exemple : réponses possibles à un questionnaire sur l échelle de Likert allant de 1 = «Pas du tout» à7=«toutàfait»),celle-ci peut être étudiée comme une variable quantitative si l hypothèse de linéarité est vérifiée (voir paragraphe suivant). Variables quantitatives et hypothèses dérivées du modèle En régression linéaire, Y est prédite par une combinaison linéaire des variables explicatives X 1,X 2,...X p (voir équation tableau 1). Cette hypothèse de linéarité implique qu une variation (augmentation ou une diminution) de a unités d une variable explicative quantitative X 1 a le même effet sur Y quelle que soit la valeur de X 1 (et à valeurs constantes des autres covariables X 2,...X p ). Par exemple, si dans la régression linéaire du taux de cholestérol sur l âge chez les adultes, la pente vaut 0,01g/L, alors ceci implique que chaque année le taux de cholestérol augmente de 0,01 g/l, et ce, quel que soit l âge du sujet. Cette hypothèse peut se vérifier facilement de manière graphique, en représentant le taux de cholestérol en fonction de l âge et en vérifiant l alignement des points sur une droite. En régression logistique, le logit(π) est prédit par une combinaison linéaire des variables explicatives X 1,X 2,...X p (voir équation tableau 1). Cette hypothèse de linéarité du logit (ou linéarité du log-odds) implique qu une variation de a unités d une variable explicative quantitative X 1 a le même effet sur le risque de succès de Y (odds ratio) quelle que soit la valeur de X 1 (et à valeurs constantes des autres covariables X 2,...X p ). Par exemple, si dans la régression logistique d une maladie sur l âge, le coefficient de régression vaut 0,07 alors l odds ratio pour une augmentation de 10 ans est estimé à OR = exp(0,07 10) = 2. Ceci implique que pour toute augmentation de 10 ans d âge, le risque de maladie est deux fois plus élevé (que l on compare un individu de 40 ans à un individu de 30 ans, un individu de 30 ans à un individu de 20 ans, etc.). Si ces hypothèses de linéarité ne sont pas vérifiées entre Y (ou logit(π)) et la covariable considérée X, il faut envisager un autre type de relation et transformer la variable 364 STV, vol. 23, n o 7, septembre 2011

6 Y et/ou la covariable. La non-linéarité peut être prise en compte par des termes polynomiaux (X 2, X 3, X 4,...), des transformations logarithmiques, ou des combinaisons de transformations plus complexes (polynômes fractionnaires par exemple). [6]. Pour des choix bibliographiques ou de présentation, les variables quantitatives peuvent également être transformées en variables qualitatives (on dit alors qu on «catégorise» la variable). La création de deux catégories seulement (dichotomisation) est néanmoins déconseillée car elle entraîne (entre autres) une perte d information et une réduction de la puissance [7]. Comment vérifier la validité du modèle? Effectuer la régression linéaire de Y sur X 1, X 2,..., X p consiste à déterminer β 0, β 1, β 2,..., β p. C est en testant si β i = 0 que l on teste l association entre la covariable X i et Y. Le résultat du test n est valide que si les résidus, c est-à-dire les erreurs entre les valeurs observées de Y et leur estimation dérivée du modèle, suivent une distribution normale de moyenne nulle, de même variance (hypothèse d homoscédasticité) et s ils ne sont pas corrélés entre eux (hypothèse d indépendance). Ces hypothèses peuvent être vérifiées par des tests ou de manière plus pratique à l aide de graphiques : 1) distribution des résidus et graphique des résidus en fonction des covariables (la dispersion des résidus doit être homogène autour de zéro), et 2) QQplot (ou diagramme quantile-quantile) représentant les quantiles de la distribution de l échantillon en fonction des quantiles de la distribution normale (gaussienne) (les points doivent être quasiment alignés sur la première bissectrice y=x) 4. Ces résultats sont toutefois rarement présentés dans les publications. En régression logistique, les erreurs entre les valeurs observées de Y et leur estimation dérivée du modèle suivent une distribution binomiale dont le paramètre de probabilité est π (les erreurs représentent l écart entre la valeur observée et la probabilité π connaissant X 1,X 2,...,X p ). Cette hypothèse ne nécessite pas de vérification particulière. Comment mesurer la qualité d ajustement du modèle aux données? De nombreux critères de qualité d ajustement (adéquation, goodness-of-fit en anglais) ont été proposés dans la litté- 4 En toute rigueur, Y devrait avoir une distribution normale, la relation entre Y et les covariables devrait être linéaire, et la variance de Y devrait être la même quelles que soient les valeurs des covariables. Cependant, on se contente souvent de vérifier les conditions de validité sur les résidus car elles découlent des hypothèses précédemment citées. rature. Ils permettent de juger de la qualité d un modèle, et sont étroitement liés à la méthode d estimation des paramètres. Le critère le plus connu utilisé en régression linéaire est le coefficient de détermination ou R 2, qui correspond à la part de variation expliquée par le modèle de régression. C est une grandeur qui varie entre 0 et 1. Plus la valeur du R 2 est proche de 1, plus la qualité d ajustement du modèle est bonne. Dans le cas de la régression linéaire simple, le R 2 correspond au carré du coefficient de corrélation linéaire (ou coefficient de Pearson) entre la variable à expliquer et la variable explicative. Dans le cas de la régression linéaire multiple, plus le nombre de variables explicatives est élevé, plus R 2 va se rapprocher de 1, on privilégie alors comme critère le R 2 ajusté qui tient compte du nombre de variables explicatives incluses dans le modèle (R 2 ajusté a comme propriété d être toujours inférieur à R 2 ). Des critères dérivés du R 2, nommés pseudo-r 2, ont été définis dans le cas de variables à expliquer qualitatives. Cependant, ces critères sont moins informatifs que le R 2 en régression linéaire sur la qualité d ajustement du modèle. Hosmer et Lemeshow ont proposé une statistique notée C qui permet de tester la qualité d ajustement du modèle aux données [8]. Elle correspond à une statistique du Khi-Deux de Pearson entre les probabilités observées et attendues. Si le degré de signification p est supérieur à 0,05, alors on ne rejette pas l hypothèse nulle et l ajustement aux données est considéré comme bon. La plupart des logiciels statistiques présentent dans les résultats la statistique C de Hosmer et Lemeshow et le test associé. D autres mesures appelées diagnostics de régression permettent également de vérifier que le modèle a une bonne qualité d ajustement [8]. Enfin le pouvoir discriminant du modèle de régression logistique, c est-à-dire sa qualité prédictive, peut être étudié par les taux de bon et mauvais classements des données, et à l aide de la courbe ROC (receiver operating characteristic). L aire sous la courbe, qui varie entre 0 et 1, donne une mesure de la capacité du modèle à discriminer les cas positifs des cas négatifs. En règle générale, la discrimination est considérée : nulle si l aire sous la courbe ROC = 0,5 ; acceptable si l aire sous la courbe appartient à [0,7 ; 0,8[ ; excellente si l aire sous la courbe appartient à [0,8 ; 0,9[ ; et exceptionnelle si l aire sous la courbe est supérieure ou égale à 0,9. Si l aire sous la courbe ROC est égale à 1 alors le modèle est parfaitement discriminant. Quelles sont les stratégies de modélisation? Les étapes Il n existe pas de stratégie unique de modélisation multivariée, mais quel que soit le type de modèle, les mêmes STV, vol. 23, n o 7, septembre

7 étapes sont généralement recommandées. La stratégie proposée par Hosmer et Lemeshow comprend 5 étapes: (1) analyse univariée, (2) choix des variables candidates au modèle multivarié, (3) identification des variables à conserver dans le modèle multivarié, (4) étude des interactions, (5) vérification de l adéquation et des hypothèses du modèle [9]. La sélection des variables candidates au modèle multivarié consiste à considérer deux types de variables : celles dont le test univarié a une p-valeur inférieur à un seuil prédéfini (Hosmer et Lemeshow recommandent un seuil de 0,25 mais on peut trouver dans la littérature des seuils plus restrictifs p < 0,15 ou 0,20), et celles qui sont cliniquement importantes (facteurs de risque et facteurs de confusion connus). Une procédure de sélection, parmi les suivantes, est alors appliquée : sélection ascendante («forward») : les variables les plus significatives (p-valeur les plus petites et inférieures au seuil de significativité choisi) sont incluses une à une jusqu à ce que plus aucune variable ne puisse être incluse dans le modèle (variables non significatives) ; sélection descendante («backward») : toutes les variables sont incluses dans le modèle puis les variables les moins significatives (p-valeur les plus élevées et supérieures au seuil de significativité choisi) sont retirées une à une jusqu à ce que toutes les variables restantes soient significatives ; sélection pas à pas («stepwise») : combinaison des deux méthodes ascendante et descendante ; sélection du meilleur sous-ensemble : parmi tous les modèles possibles, sélection du meilleur modèle selon un critère spécifié. Ce critère peut être par exemple le R 2 ou le R 2 ajusté dans le cadre de la régression linéaire, le C(p) de Mallows, ou des critères dits d information dont les calculs prennent en compte la vraisemblance du modèle et le nombre de variables explicatives. Les critères d information les plus célèbres sont le critère AIC d Akaike (Akaike Information Criterion) et le critère BIC de Schwarz (Bayesian Information Criterion). La valeur en elle-même de ces critères est peu informative mais ils permettent de comparer des modèles emboités entre eux 5. Le meilleur modèle est celui minimisant les critères d information ou le C(p) de Mallows, tandis qu en régression linéaire, le meilleur modèle est celui maximisant le R 2 ou le R 2 ajusté. Remarque : Un facteur de risque non significatif en analyse univariée peut être un facteur de risque significatif 5 Un modèle de régression M1 est dit emboîté dans un modèle M2, s il diffère simplement d une ou plusieurs covariables : M1 est le même modèle que M2 (même loi de distribution, appliqué sur les mêmes donnés) mais une ou plusieurs covariables ont été retirées. en analyse multivariée si les facteurs de confusion sont pris en compte (c est-à-dire inclus dans le modèle multivarié) [10]. Les variables candidates au modèle multivarié doivent donc être minutieusement étudiées. De plus, si l inclusion d une variable influence fortement les coefficients des autres variables, il est important de l inclure dans le modèle final même si elle n est pas significative (c està-dire la forcer dans le modèle). Le choix des variables du modèle est une étape délicate, souvent longue et minutieuse, qu il faut savoir ne pas laisser au seul choix du logiciel de statistique utilisé. Ainsi, parfois au prix d une petite perte de qualité statistique, on aura un gain appréciable épidémiologique [11]. Les problèmes de colinéarité Un des problèmes récurrents en régression est la colinéarité c est-à-dire des variables explicatives très corrélées. Les coefficients deviennent alors incohérents et des variables ne seront pas retenues dans le modèle car à tort non significatives. Avant d envisager un modèle de régression multiple, il convient donc d examiner les corrélations entre les covariables. Des variables trop fortement corrélées ne doivent pas être incluses simultanément dans un modèle. De plus, Peduzzi et al. ont montré qu au moins 10 évènements par variable (EPV) sont nécessaires pour garantir la stabilité d un modèle (régression logistique ou de Cox) [12]. Par exemple, dans une étude avec 100 sujets, si 60 sont malades alors il est recommandé de ne pas inclure plus de 4 variables dans le modèle de régression multiple (on calcule le nombre de variables en considérant l évènement le plus rare : ici 40 sujets non malades). Disposer d au moins 10 sujets par covariable est devenue une règle générale pour les modèles multivariés. Le principe de parcimonie Le choix des variables explicatives doit être guidé par le principe de parcimonie qui consiste à retenir le modèle le plus simple (ou modèle «le moins couteux») donnant un ajustement satisfaisant. Si deux modèles ont des qualités proches, on retiendra celui contenant le moins de covariables. Exemple 1 : Modèle de régression linéaire Données illustratives La partie concernant le modèle de régression linéaire est illustrée par des mesures prises sur 21 enfants (11 filles et 10 garçons) âgés de 3à11ans(données fictives). 366 STV, vol. 23, n o 7, septembre 2011

8 Tableau 2. Résultats de la régression linéaire simple de la taille sur l âge et de la régression linéaire multiple de la taille sur l âge et le sexe. Estimate Standard Error T value Pr(> t ) Régression linéaire simple de la taille sur l âge Constante 75,2201 3, ,83 <,0001 Age 6,1966 0, ,49 <,0001 Régression linéaire multiple de la taille sur l âge et le sexe Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/2017. Constante 74,0972 2, ,043 <,0001 Age 6,0100 0, ,712 <,0001 Sexe (garçon) 5,1087 1,6463 3,103 0,0061 Régression linéaire simple (figure 2 ; tableau 2, partie supérieure) Sur la figure 2A, les croix correspondent aux valeurs observées (x i,y i ) de l âge et de la taille, le carré au point moyen (x,y), et la droite à la droite de régression minimisant la somme des carrés des résidus (écarts entre les valeurs observées y i et la droite). L âge moyen des enfants est 7 ans et la taille moyenne est 119 cm : x = 7,019 et y = 118,714 cm. L équation de la régression linéaire de la taille sur l âge s écrit taille = 75,22 + 6,20 age (tableau 2, partie supérieure). Ainsi, la taille augmente en moyenne de 6,20 cm par année (pente). La constante correspond à la taille moyenne pour une valeur de l âge x = 0 an,c est-à-dire à la naissance. Ici, il s agit d une simple extrapolation puisque tous les enfants sont âgés de plus de 3 ans. L équation permet également de prédire (estimer) des tailles pour des âges donnés. Les deux dernières colonnes du tableau indiquent la valeur t = 14,49 (6,1966/0,4276) et la p-valeur du test bilatéral β 1 = 0 (test de Student, n-2 = 19 degrés de liberté). La p-valeur est inférieure à 0,001, donc l hypothèse nulle β 1 = 0 est rejetée. L estimation de la pente étant supérieure à 0, il existe une association positive entre l âge et la taille. Enfin, l erreur standard permet de déterminer l intervalle de confiance à 95 % (IC 95 %) de la pente : 6,20 ± t 0,975 0,43 = 6,20 ± 0,90. L IC 95% de la pente ne contenant pas 0, l hypothèse nulle β 1 = 0 est bien rejetée. La représentation graphique des résidus en fonction de l âge (figure 2B) montre une dispersion homogène des résidus autour de 0, et le QQplot (figure 2C) indique que la distribution des résidus est proche d une distribution normale (points quasiment alignés sur la droite en pointillés) : les conditions de validité du modèle sont donc acceptables. Le coefficient R 2 est égal 0,92 indiquant que 92 % de Taille A Age Residuals B Age Sample Quantiles C Theoretical Quantiles Figure 2. Régression linéaire de la taille sur l âge. A) Relation entre l âge et la taille et droite de régression linéaire. B) Représentation graphique des résidus en fonction de l âge. C) QQplot (diagramme quantile-quantile). STV, vol. 23, n o 7, septembre

9 Tableau 3. Description des variables de l étude UIS. Nom de la variable Description Codes/Valeurs ID Code identifiant du sujet 1 à 575 AGE Âge à l inclusion Années BECK Score de dépression de Beck à l inclusion 0à54 Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/2017. IVHX Antécédents d utilisation de médicaments par voie IV NDRUGTX Nombre de traitements antérieurs =Jamais, 2=Dans le passé, 3=Récemment RACE Couleur du sujet (race) 0=Blanc, 1=Autre TREAT Traitement randomisé 0=Court, 1=Long SITE Site de traitement 0=A, 1=B DFREE Retour à l utilisation de médicaments avant la fin du programme de traitement la variabilité de la taille est expliquée par la variation de l âge. Régression linéaire multiple (tableau 2, partie inférieure) Lorsqu il y a m variables explicatives, une représentation graphique n est plus possible (il s agit de minimiser la somme des carrés des distances entre les valeurs observées de Y et un hyperplan de dimension m). De même, l estimation des paramètres du modèle nécessite l utilisation d un logiciel statistique. Les résultats de la régression multivariée de la taille en fonction de l âge et du sexe (dont les conditions de validité étaient vérifiées) indiquent qu à âge identique, les garçons ont une taille significativement plus élevée que les filles (p =0,0061) : en moyenne, les garçons mesurent 5,1 cm de plus. Le sexe «fille» étant la catégorie de référence, par défaut le codage utilisé est 0. Ainsi, la taille d une fille de 5 ans est estimée à 74,1 + 6, ,1 0 = 104,1 cm. L introduction de l interaction âge sexe (résultats non montrés) indiquait que la relation entre âge et taille n était pas différente selon le sexe (p =0,29). À noter que ce type de régression linéaire incluant une variable explicative quantitative et une variable explicative qualitative s appelle une analyse de covariance (ou ANCOVA). 1=Resté sans médicament 0=Sinon Exemple 2 : modèle de régression logistique dichotomique Données illustratives (tableau 3) La partie concernant le modèle de régression logistique est illustrée par des données de l étude UIS (University of Massachussetts Aids Research Unit (UMARU) Impact Study), reprise par Hosmer et Lemeshow dans leur livre sur la régression logistique appliquée [13]. L objectif de cette étude était de comparer deux programmes de traitement (de durée différente) visant à réduire l abus de médicament et prévenir les comportements à haut risque dans le HIV. Un des critères de jugement était si le sujet était resté sans médicament («drug-free») plus d un an après la randomisation au traitement. Sur les 575 sujets analysés, 147 (25,6 %) étaient restés sans médicaments pendant au moins un an. Le lecteur pourra trouver sur un site web de l Université de Californie à Los Angeles (UCLA), la plupart des codes SAS, SPSS et Stata correspondant aux analyses décrites dans le livre de Hosmer et Lemeshow [14]. Régression logistique simple Les deux premières colonnes du tableau 4 présentent les résultats de l analyse univariée (odds ratio bruts et leurs 368 STV, vol. 23, n o 7, septembre 2011

10 Tableau 4. Résultats de la régression logistique simple et de la régression logistique multiple incluant les covariables significatives au seuil 0,25 en analyse univariée pour l étude UIS. Analyse univariée Analyse multivariée* OR (IC 95 %) p-valeur OR ajusté (IC 95 %) p-valeur AGE 1,20 (0,89 ; 1,62) 0,237 1,65 (1,18 ; 2,32) 0,004 BECK 0,96 (0,87 ; 1,06) 0,425 Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/2017. NDRUGTX 0,93 (0,88 ; 0,97) < 0,001 0,94 (0,89 ; 0,99) 0,016 IVHX 0,001 0,009 Jamais 1 1 Passé 0,62 (0,37 ; 1,04) 0,55 (0,31 ; 0,96) Récent 0,46 (0,30 ; 0,70) 0,48 (0,29 ; 0,79) RACE 0,032 0,311 Blanc 1 1 Autre 1,58 (1,04 ; 2,39) 1,25 (0,81 ; 1,94) TREAT 0,023 0,026 Court 1 1 Long 1,55 (1,06 ; 2,26) 1,56 (1,05 ; 2,30) SITE 0,197 0,494 A 1 1 B 1,30 (0,87 ; 1,94) 1,16 (0,76 ; 1,78) * Modèle multivarié avec les covariables significatives au seuil 0,25 en analyse univariée Odds ratio pour une augmentation de 10 ans Odds ratio pour une augmentation de 5 points intervalles de confiance à 95 % (IC 95 %), p-valeur). La variable IVHX était significativement associée à la variable DFREE (p = 0,001). Un patient qui avait déjà utilisé dans le passé des médicaments par voie IV (IVHX = 2) avait 38 % de chance en moins (OR = 0,62 [IC 95 % : 0,37 ; 1,04]) de ne pas prendre de médicament avant la fin du programme (DFREE = 1) qu un patient n ayant jamais utilisé ce type de médicaments (IVHX = 1). Les patients âgés avaient tendance à rester plus facilement sans médicament que les patients jeunes mais cette différence n était pas significative (OR = 1,20 [IC 95 % : 0,89 ; 1,62] pour une augmentation de 10 ans, p = 0,237] Régression logistique multiple Une fois l analyse univariée effectuée (étape (1) selon Hosmer et Lemeshow), les variables dont le test univarié avait une p-valeur < 0,25 et les variables cliniquement importantes étaient candidates au modèle multivarié (étape (2)). Le score de Beck (variable BECK) dont la p-valeur STV, vol. 23, n o 7, septembre

11 était 0,425 en analyse univariée n était donc pas retenu à cette étape. Les deux dernières colonnes du tableau 4 présentent les résultats du modèle multiple (odds ratio ajustés et IC 95 %, p-valeur) incluant les covariables significatives au seuil 0,25 en analyse univariée. Un patient sous traitement à longue durée (TREAT = 1) avait 1,56 fois plus de chance (OR = 1,56 [IC 95 % : 1,05 ; 2,30]) de rester sans prendre de médicament dans les 12 mois (DFREE = 1) qu un patient sous traitement à courte durée (TREAT = 0) ayant les mêmes caractéristiques par ailleurs (mêmes valeurs pour les autres covariables du modèle). Un patient qui avait utilisé récemment des médicaments par voie IV (IVHX = 3) avait 2 fois moins de chance (OR = 0,48 [IC 95 % : 0,29 ; 0,79]) de rester sans prendre de médicament avant la fin du programme (DFREE = 1) qu un patient n ayant jamais utilisé ce type de médicaments (IVHX = 1). L association pour la variable âge était plus forte après ajustement sur les autres variables. En revanche, les associations pour les variables SITE et RACE étaient moins fortes et non significatives selon le test de Wald (p = 0,494 et p = 0,311). Cependant, ces variables étaient considérées comme suffisamment importantes pour être conservées dans le modèle multivarié. L étape (3) étant terminée, l hypothèse de linéarité pour les variables quantitatives AGE et NDRUGTX devait être vérifiée (étape (4)). Celle-ci était vérifiée pour l âge, en revanche la variable NDRUGTX devait être décomposée en deux termes. Enfin, les interactions entre variables étaient considérées (étape (5)). Quinze paires d interactions étaient possibles, mais seules les interactions significatives au seuil 10 % (p 0,10) étaient ajoutées au modèle à effets principaux. Deux interactions significatives au seuil 5 % étaient finalement retenues dont l interaction RACE SITE (résultats non présentés). Ceci signifiait que la différence de risque (de ne pas prendre de médicament avant la fin du programme) entre les personnes de couleur blanche et d autres couleurs variait selon le site de traitement. Les odds ratio associés à la couleur Autre (RACE = 1) par rapport à la couleur Blanche (RACE = 0) étaient estimés à 1,98 [IC 95 % : 1,18 ; 3,33] et 0,47 [IC 95 % : 0,19 ; 1,18] pour les sites A et B respectivement. La statistique C de Hosmer et Lemeshow de ce modèle multiple (à effets principaux et interactions significatifs) était estimée à 4,39 avec une p-valeur associée égale à 0,820 indiquant une bonne adéquation du modèle aux données. L aire sous la courbe ROC était 0,70. Discussion Les conclusions des recherches médicales sont souvent fondées sur les résultats des modèles de régression multiple afin de décrire au mieux l association entre deux variables en contrôlant l effet d autres variables. Il est donc essentiel que le clinicien connaisse le principe de ces modèles, leurs hypothèses et leur interprétation pour pouvoir faire une lecture critique de la littérature médicale. Conflits d intérêts : aucun Références 1. Falissard B. Comprendre et utiliser les statistiques dans les sciences de la vie. Paris : Masson, 1998 : Labreuche J. Les différents types de variables, leurs représentations graphiques et paramètres descriptifs. Sang Thrombose Vaisseaux 2010 ; 22 : Bouyer J, Hémon D, Cordier S, et al. Epidémiologie - Principes et méthodes quantitatives. Paris : Les Editions INSERM, 1995 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Royston P, Altman DG. Regression using fractional polynomials of continuous covariates: parsimonious parametric modelling (with discussion). Appl Stat 1994 ; 43 : Royston P, Altman DG, Sauerbrei W. Dichotomizing continuous predictors in multiple regression: a bad idea. Stat Med 2006; 25: Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Sun GW, Shook TL, Kay GL. Inappropriate use of bivariable analysis to screen risk factors for use in multivariable analysis. J Clin Epidemiol 1996 ; 49 : Bouyer J, Hémon D, Cordier S, et al. Epidémiologie - Principes et méthodes quantitatives. Paris : Les Editions INSERM, 1995 : Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR. A simulation study of the number of events per variable in logistic regression analysis. J Clin Epidemiol 1996 ; 49 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed.new York : Wiley, 2000 : SAS Textbook Examples: Applied Logistic Regression, 2nd, by Hosmer and Lemeshow. UCLA: Academic Technology Services, Statistical Consulting Group. (accessed April 18, 2011). 370 STV, vol. 23, n o 7, septembre 2011