Modèles de régression multiple
|
|
- Irène Fradette
- il y a 6 ans
- Total affichages :
Transcription
1 Note méthodologique Sang Thrombose Vaisseaux 2011 ; 23, n o 7 : Modèles de régression multiple Florence Gillaizeau 1, Sophie Grabar 2 Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/ Inserm, Centre d Investigation Épidémiologique 4, 20 rue Leblanc, F Paris, France ; Hôpital européen Georges-Pompidou, Unité d Épidémiologie et de Recherche Clinique, 20 rue Leblanc, F Paris, France <florence.gillaizeau@egp.aphp.fr> 2 Université Paris Descartes, Sorbonne Paris Cité, Faculté de médecine, F Paris, France ; Hôpital Cochin, Unité de Biostatistique et Epidémiologie et INSERM U943, 27 rue du Faubourg Saint-Jacques, F Paris, France Résumé. Les analyses multivariées sont largement utilisées en recherche médicale, notamment pour décrire l association entre deux variables en contrôlant l effet d autres variables. Cependant, le clinicien n est souvent pas assez à l aise avec ces modèles mathématiques et leur interprétation pour pouvoir émettre son propre jugement des résultats. Cette note a pour objectif de décrire simplement les modèles de régression multiple et d illustrer leur interprétation par deux exemples médicaux utilisant le modèle de régression linéaire et le modèle de régression logistique. Mots clés : régression, modèles linéaires, modèles logistiques, facteurs de risque, facteurs de confusion, ajustement Abstract Multiple regression models Multivariate analyses are widely used in medical research especially to describe the association between two variables whilst controlling for other variables. However, the clinician is often not comfortable enough with these mathematical models and their interpretation to make her/his own judgment of the results. This paper aims to describe in a simple fashion the multiple regression models and illustrate their interpretation using two medical examples of the linear regression and the logistic regression models. Key words: Regression analysis, linear models, logistic models, risk factors, confounding factors, adjustment Les modèles de régression multiple sont des modèles mathématiques qui permettent d étudier l association entre des facteurs exploratoires et une variable à expliquer, dans un objectif de description et/ou de prédiction [1]. Ils sont ainsi largement utilisés en recherche médicale : étude des associations entre des facteurs d exposition et une maladie, construc- Tirés à part : F. Gillaizeau tion d un score pronostique, étude médico-économique, etc. Malgré leur utilisation et leur présentation fréquentes dans la littérature médicale, le clinicien n est souvent pas assez à l aise avec ces modèles mathématiques et leur interprétation pour pouvoir émettre son propre jugement des résultats. Cette note a pour objectif de décrire simplement les modèles de régression multiple et d illustrer leur interprétation grâce à deux exemples médicaux utilisant le modèle de régression linéaire et le modèle de régression logistique. doi: /stv Pour citer cet article : Gillaizeau F, Grabar S. Modèles de régression multiple. Sang Thrombose Vaisseaux 2011 ; 23 (7) : doi: /stv
2 Présentation de la régression multiple Pourquoi parle-t-on de régression multiple? Les modèles de régression sont des modèles mathématiques qui permettent de représenter une variable à expliquer (ou variable dépendante ou variable endogène ou réponse ou outcome) Y, en fonction d une ou plusieurs variables X 1, X 2,...X p (dites variables indépendantes, variables explicatives, variables exogènes, ou covariables) correspondant à des facteurs de risque et de confusion potentiels. Le modèle de régression est dit simple s il n inclut qu une seule variable explicative, et multiple s il inclut plusieurs variables explicatives. Les modèles de régression simple et multiple sont souvent appelés respectivement modèles de régression univarié et multivarié. En réalité, les analyses multivariées ou multidimensionnelles regroupent plus largement toutes les techniques dédiées à l analyse de données avec plusieurs variables 1. Dans cet article, nous nous intéressons aux modèles de régression multiple, mais le lecteur pourra rencontrer les termes «analyse univariée» et «analyse multivariée», utilisés abusivement pour décrire l étude de l association entre Y et une ou plusieurs variables explicatives. Dans quelles situations utiliser un modèle de régression multiple? Le principal objectif des modèles de régression, qu ils soient simples ou multiples, est de décrire l association entre deux variables, par exemple une exposition (facteur de risque) et une maladie (variable à expliquer Y). Dans les études d intervention ou essais thérapeutiques, le tirage au sort (ou randomisation) assure une répartition équilibrée des facteurs de risque. En épidémiologie, situation d observation, ce n est pas le cas. Par conséquent, une association entre une exposition et une maladie n indique pas nécessairement que cette exposition soit un facteur de risque de la maladie car cette association peut être la conséquence de facteurs de confusion. Pour décrire au mieux l association entre une exposition et une maladie, il faut donc contrôler l effet des autres variables, en particulier les facteurs de confusion : c est le principe de l ajustement. Différentes techniques d ajustement permettent de prendre en compte un facteur de confusion au moment de l analyse : 1 Modèles de régression multiple (linéaire, logistique, Cox, etc.), techniques d analyse des données (analyse discriminante, analyse en composantes principales, analyse des correspondances multiples...), modélisation conjointe de deux ou plusieurs variables à expliquer (analyse de variance multivariée (MANOVA)...). les analyses stratifiées et les analyses de régression multiple. Si les tests stratifiés comme le test du Khi-Deux de Maentel Haenzel sont simples en termes de principe et de calcul (analyse de la liaison par strate), ils ne peuvent prendre en compte qu un nombre limité de facteurs de confusion. La régression multiple permet de palier ce problème. Dans un essai thérapeutique randomisé, l ajustement permet également d augmenter la précision (donc la puissance) de l estimation de l effet du traitement [1]. Quels termes introduire dans le modèle? Variable à expliquer La variable à expliquer Y est la variable dont on souhaite décrire les variations en fonction d autres variables (qui sont alors explicatives). Y peut être une variable quantitative ou qualitative [2]. En médecine, la variable à expliquer est souvent un évènement défavorable comme le décès, la maladie, la récidive, l erreur de prescription, etc. Mais il peut aussi s agir d un évènement favorable (naissance, guérison, etc.) ou d une variable quantitative (mesure biologique, score, etc.). Variables explicatives Les variables explicatives X 1,X 2,...X p sont des variables dont on cherche l association avec la variable à expliquer Y ou qui peuvent modifier cette association : ce sont des facteurs de risque, des facteurs de confusion ou des facteurs d interaction. Elles peuvent être quantitatives ou qualitatives. Facteurs de risque Les facteurs de risque sont des caractéristiques d origines diverses (biologique, génétique, environnementale, culturelle, etc.) qui entraînent une augmentation de la probabilité d apparition d un évènement défavorable 2. Facteurs de confusion Le principal intérêt de la régression multiple est de prendre en compte les biais de confusion par le principe d ajustement 3. On dit qu un facteur F joue le rôle de facteur de confusion entre l exposition E et la maladie M s il est lié à la fois au facteur d exposition E et à la maladie M, 2 Il est délicat d utiliser le terme «facteur de risque» lorsque la variable à expliquer ne représente pas un événement défavorable mais le terme «facteur de chance» est rarement utilisé! 3 La prise en compte des facteurs de confusion peut aussi intervenir au niveau de la population (randomisation, restriction de la population, appariement). Ces facteurs sont néanmoins souvent introduits dans une régression multiple. STV, vol. 23, n o 7, septembre
3 qu il n est pas sur le chemin causal et s il modifie la relation brute aux différents niveaux de F. L association entre E et M peut être atténuée, augmentée, inversée. Prenons l exemple de l analyse de l association entre le chômage (facteur d exposition) et la dépression (maladie) (figure 1A). Dans une population, on observe que le risque de dépression est trois fois plus élevé chez les chômeurs (risque relatif (RR) brut, calculé à partir d un tableau de contingence ou du modèle de régression simple de la dépression sur le chômage). Cette relation entre chômage et dépression est la même chez les sujets de moins de 50 ans et de plus de 50 ans, cependant le risque dans chaque strate est réduit à 2 (RR ajustés, calculés à partir des tableaux de contingence ou du modèle de régression multiple de la dépression sur le chômage et l âge). Ceci s explique en partie par un taux de chômage plus faible chez les moins de 50 ans et un phénomène de dépression plus fréquent chez les personnes âgées. L âge est donc un facteur de confusion qui augmente l association entre le chômage et la dépression. Facteurs d interaction Les facteurs d interaction sont à distinguer des facteurs de confusion. Lorsqu il y a confusion (voir le paragraphe précédent), la relation brute entre E et M (odds ratio (OR) ou RR brut) n est pas la même que celle obtenue aux différents niveaux de F, en revanche cette relation est identique pour chaque niveau de F (OR ou RR ajustés). Lorsqu il y a interaction, la relation brute entre E et M n est pas la même que celle obtenue aux différents niveaux de F et cette relation diffère pour chaque niveau F: on ne peut alors plus parler de risque ajusté car celui-ci est diffèrent pour chaque niveau de F. Cette relation peut être d intensité différente (interaction Chômage 1A? Âge Dépression quantitative) ou de sens opposé (interaction qualitative) [3]. Par exemple, il y a interaction quantitative entre alcool et tabac pour le risque de cancer du larynx : l alcool est un facteur de risque connu de cancer du larynx, et ce risque est augmenté lorsqu il y a consommation conjointe avec du tabac (figure 1B). Dans le modèle de régression multiple, il faut alors introduire comme variables explicatives l alcool, le tabac, et l interaction alcool tabac. Quel type de modèle utiliser? Le choix d un modèle dépend de la distribution (loi de probabilité) et donc du type de la variable à expliquer Y, et de la forme de la liaison entre les variables explicatives et Y. Les modèles de régression multiple les plus couramment utilisés sont le modèle de régression linéaire, le modèle de régression logistique, et le modèle à risques proportionnels de Cox (tableau 1). Le modèle de Cox n est pas décrit dans cette note. Comment interpréter les coefficients de régression? En régression linéaire (voir équation tableau 1), la constante β 0 correspond à la valeur de Y quand toutes les valeurs des covariables X 1,X 2,...,X p sont nulles. L association entre la covariable et Y (respectivement la probabilité π en régression logistique) est positive si le coefficient de régression est positif, et négative si le coefficient de régression est négatif. Un coefficient de régression proche de 0 indique que la covariable influence peu Y (respectivement π). Dans le cas de la régression logistique (voir équation tableau 1), l exponentielle du coefficient de régression β 1 Risque de cancer du larynx 1B Fumeur Non-fumeur Consommation d alcool Figure 1. Illustration des facteurs de confusion et d interaction. A) L âge est un facteur de confusion qui augmente la force de l association entre chômage et dépression. B) Il y a interaction quantitative entre alcool et tabac pour le risque de cancer du larynx : l interaction quantitative se traduit par des pentes différentes pour les fumeurs et les non fumeurs (droites non parallèles). Le risque est augmenté lorsqu il y a consommation conjointe de tabac et d alcool (pente plus forte pour les fumeurs). 362 STV, vol. 23, n o 7, septembre 2011
4 Tableau 1. Présentation des modèles en fonction des variables à expliquer et des variables explicatives. Modèle Type de la variable à expliquer Y[exemples] Distribution de Y Type des variables explicatives X 1,X 2,..., Équation Forme de la liaison entre les variables explicatives et Y Xp Régression linéaire Quantitative [pression artérielle systolique, débit filtration glomérulaire,...] Normale Quantitatives Qualitatives Y = β 0 + β 1 X 1 + β 2 X β p X p + ε Hypothèse de linéarité : la valeur moyenne de Y (ou espérance) est prédite par une combinaison linéaire des variables explicatives X 1,X 2,..., Xp. Régression logistique dichotomique Qualitative binaire* [malade (oui/non), Vivant (oui/non),...] Bernoulli ou binomiale Quantitatives Qualitatives logit(π) = ln π = β 0 + β 1 X 1 + β 2 X β p X p + ε 1 π π = π = exp[β 0 + β 1 X 1 + β 2 X β p X p ] 1 + exp[β 0 + β 1 X 1 + β 2 X β p X p ] + ε ' exp[ (β 0 + β 1 X 1 + β 2 X β p X p )] + ε ' π: probabilité associée à la modalité d intérêt de Y ln : fonction logarithme népérien Hypothèse de linéarité du logit (ou linéarité du log-odds) : la proportion de sujets π avec la caractéristique étudiée (par exemple : la proportion de sujets malades), après transformation logit, est prédite par une combinaison linéaire des variables explicatives X 1, X 2,..., Xp. À risques proportionnels de Cox Survie Temps (données censurées) [décès, récidive,... + temps de suivi] Quantitatives Qualitatives Hypothèses des risques proportionnels * Si Y est une variable qualitative à plus de 2 modalités (k > 2), on parle alors de régression logistique polytomique (le terme trichotomique est parfois employé pour 3 modalités). Le modèle est dit polytomique ordonné si Y est une variable qualitative ordinale. Le modèle est dit polytomique non ordonné ou polytomique multinomial si Y est une variable qualitative non ordinale [4]. Si Y est une variable binaire à deux modalités 0 et 1, dire que Y suit une loi de Bernoulli de paramètre π signifie que Y=1(succès) avec la probabilité π, ety=0(échec) avec la probabilité 1 - π. En épidémiologie, le «succès» c est-à-dire l évènement clinique étudié est souvent la maladie! La moyenne des valeurs prises par un échantillon de sujets correspond alors à la proportion de sujets malades, c est-à-dire π. La proportion de sujets non malades est 1 π. Puisqu une probabilité est comprise entre 0 et 1, celle-ci ne peut pas s exprimer comme une combinaison linéaire de covariables quantitatives et qualitatives (qui peut prendre des valeurs entre - et + ). Ceci explique la transformation de la probabilité π en cote (en anglais odds) π /1-π, et l application de la transformation logit (on parle alors de log-odds). Modèle non présenté dans cette note. Voir détails paragraphe Sous quelle forme introduire les variables explicatives? STV, vol. 23, n o 7, septembre
5 correspond à l odds ratio (exp β 1 = OR). C est une des raisons de la popularité du modèle. Pour une variable qualitative, l exponentielle du coefficient de régression associé à une modalité correspond à l odds ratio entre la modalité de référence et la modalité considérée. Pour une variable quantitative, l exponentielle du coefficient de régression correspond à l odds ratio pour une augmentation de 1 unité de la variable. Une telle augmentation est souvent peu intéressante sur le plan médical, ou peu pertinente si l étendue (range) de la variable est très large. Par exemple, si X 1 est l âge, plutôt que de calculer l odds ratio pour une augmentation de 1 an, on préfère calculer l odds ratio pour une augmentation de 5 ou 10 ans. L odds ratio pour une augmentation de a unités de la variable est égal à exp(a β 1 ), a pouvant être positif ou négatif. Ainsi, l odds ratio associé à une augmentation de 10 ans vaut exp(10 β 1 ), et l odds ratio associé à une diminution de 5 ans vaut exp(-5 β 1 ). Lorsque la régression logistique est multiple, les odds ratio sont dits «ajustés». Ils se calculent de la même manière qu en régression logistique simple (à partir de l exponentielle du coefficient de régression), sauf en présence d interaction où il est nécessaire de fixer la valeur d une des variables du terme d interaction [5]. Sous quelle forme introduire les variables explicatives? Variables qualitatives Dans le cas d une variable explicative qualitative, celleci n est jamais incluse dans un modèle sous sa forme initiale. La variable est transformée en m-1 variables binaires (on parle de dichotomisation) correspondant aux modalités de la variable, la modalité restante étant la catégorie de référence. Dans le cas d une variable qualitative binaire (cas le plus simple), la modalité de référence correspond à la variable dont le codage est 0 dans le modèle. Par exemple, pour la variable sexe, la modalité «femme» est classiquement choisie comme modalité de référence (elle est codée 0 au moment de la modélisation alors que la modalité «homme» est codée 1). Dans le cas d une variable qualitative nominale à m modalités (m > 2), la catégorie de référence correspond en général à une catégorie moyenne (par exemple, catégorie socio-professionnelle (CSP) «cadre»), ou à la catégorie regroupant le plus d observations («ouvrier»). Les résultats présentent alors une p-valeur (degré de signification) «globale» correspondant au test de l association entre la variable explicative à m modalités et la variable à expliquer étudiée (test global des m-1 coefficients). En régression logistique, pour faciliter l interprétation, on choisit souvent comme catégorie de référence celle associée au plus faible risque de présenter l évènement défavorable (ainsi tous les OR associés aux autres catégories sont supérieurs à 1). Des résultats présentant des coefficients ou OR élevés doivent être examinés prudemment : ils peuvent révéler des problèmes d estimation des paramètres suite au choix d une catégorie de référence avec peu d observations. Il est plus judicieux de choisir comme catégorie de référence celle avec le maximum d observations, ou de regrouper des catégories. Dans le cas d une covariable qualitative ordinale avec un nombre de modalités élevé (exemple : réponses possibles à un questionnaire sur l échelle de Likert allant de 1 = «Pas du tout» à7=«toutàfait»),celle-ci peut être étudiée comme une variable quantitative si l hypothèse de linéarité est vérifiée (voir paragraphe suivant). Variables quantitatives et hypothèses dérivées du modèle En régression linéaire, Y est prédite par une combinaison linéaire des variables explicatives X 1,X 2,...X p (voir équation tableau 1). Cette hypothèse de linéarité implique qu une variation (augmentation ou une diminution) de a unités d une variable explicative quantitative X 1 a le même effet sur Y quelle que soit la valeur de X 1 (et à valeurs constantes des autres covariables X 2,...X p ). Par exemple, si dans la régression linéaire du taux de cholestérol sur l âge chez les adultes, la pente vaut 0,01g/L, alors ceci implique que chaque année le taux de cholestérol augmente de 0,01 g/l, et ce, quel que soit l âge du sujet. Cette hypothèse peut se vérifier facilement de manière graphique, en représentant le taux de cholestérol en fonction de l âge et en vérifiant l alignement des points sur une droite. En régression logistique, le logit(π) est prédit par une combinaison linéaire des variables explicatives X 1,X 2,...X p (voir équation tableau 1). Cette hypothèse de linéarité du logit (ou linéarité du log-odds) implique qu une variation de a unités d une variable explicative quantitative X 1 a le même effet sur le risque de succès de Y (odds ratio) quelle que soit la valeur de X 1 (et à valeurs constantes des autres covariables X 2,...X p ). Par exemple, si dans la régression logistique d une maladie sur l âge, le coefficient de régression vaut 0,07 alors l odds ratio pour une augmentation de 10 ans est estimé à OR = exp(0,07 10) = 2. Ceci implique que pour toute augmentation de 10 ans d âge, le risque de maladie est deux fois plus élevé (que l on compare un individu de 40 ans à un individu de 30 ans, un individu de 30 ans à un individu de 20 ans, etc.). Si ces hypothèses de linéarité ne sont pas vérifiées entre Y (ou logit(π)) et la covariable considérée X, il faut envisager un autre type de relation et transformer la variable 364 STV, vol. 23, n o 7, septembre 2011
6 Y et/ou la covariable. La non-linéarité peut être prise en compte par des termes polynomiaux (X 2, X 3, X 4,...), des transformations logarithmiques, ou des combinaisons de transformations plus complexes (polynômes fractionnaires par exemple). [6]. Pour des choix bibliographiques ou de présentation, les variables quantitatives peuvent également être transformées en variables qualitatives (on dit alors qu on «catégorise» la variable). La création de deux catégories seulement (dichotomisation) est néanmoins déconseillée car elle entraîne (entre autres) une perte d information et une réduction de la puissance [7]. Comment vérifier la validité du modèle? Effectuer la régression linéaire de Y sur X 1, X 2,..., X p consiste à déterminer β 0, β 1, β 2,..., β p. C est en testant si β i = 0 que l on teste l association entre la covariable X i et Y. Le résultat du test n est valide que si les résidus, c est-à-dire les erreurs entre les valeurs observées de Y et leur estimation dérivée du modèle, suivent une distribution normale de moyenne nulle, de même variance (hypothèse d homoscédasticité) et s ils ne sont pas corrélés entre eux (hypothèse d indépendance). Ces hypothèses peuvent être vérifiées par des tests ou de manière plus pratique à l aide de graphiques : 1) distribution des résidus et graphique des résidus en fonction des covariables (la dispersion des résidus doit être homogène autour de zéro), et 2) QQplot (ou diagramme quantile-quantile) représentant les quantiles de la distribution de l échantillon en fonction des quantiles de la distribution normale (gaussienne) (les points doivent être quasiment alignés sur la première bissectrice y=x) 4. Ces résultats sont toutefois rarement présentés dans les publications. En régression logistique, les erreurs entre les valeurs observées de Y et leur estimation dérivée du modèle suivent une distribution binomiale dont le paramètre de probabilité est π (les erreurs représentent l écart entre la valeur observée et la probabilité π connaissant X 1,X 2,...,X p ). Cette hypothèse ne nécessite pas de vérification particulière. Comment mesurer la qualité d ajustement du modèle aux données? De nombreux critères de qualité d ajustement (adéquation, goodness-of-fit en anglais) ont été proposés dans la litté- 4 En toute rigueur, Y devrait avoir une distribution normale, la relation entre Y et les covariables devrait être linéaire, et la variance de Y devrait être la même quelles que soient les valeurs des covariables. Cependant, on se contente souvent de vérifier les conditions de validité sur les résidus car elles découlent des hypothèses précédemment citées. rature. Ils permettent de juger de la qualité d un modèle, et sont étroitement liés à la méthode d estimation des paramètres. Le critère le plus connu utilisé en régression linéaire est le coefficient de détermination ou R 2, qui correspond à la part de variation expliquée par le modèle de régression. C est une grandeur qui varie entre 0 et 1. Plus la valeur du R 2 est proche de 1, plus la qualité d ajustement du modèle est bonne. Dans le cas de la régression linéaire simple, le R 2 correspond au carré du coefficient de corrélation linéaire (ou coefficient de Pearson) entre la variable à expliquer et la variable explicative. Dans le cas de la régression linéaire multiple, plus le nombre de variables explicatives est élevé, plus R 2 va se rapprocher de 1, on privilégie alors comme critère le R 2 ajusté qui tient compte du nombre de variables explicatives incluses dans le modèle (R 2 ajusté a comme propriété d être toujours inférieur à R 2 ). Des critères dérivés du R 2, nommés pseudo-r 2, ont été définis dans le cas de variables à expliquer qualitatives. Cependant, ces critères sont moins informatifs que le R 2 en régression linéaire sur la qualité d ajustement du modèle. Hosmer et Lemeshow ont proposé une statistique notée C qui permet de tester la qualité d ajustement du modèle aux données [8]. Elle correspond à une statistique du Khi-Deux de Pearson entre les probabilités observées et attendues. Si le degré de signification p est supérieur à 0,05, alors on ne rejette pas l hypothèse nulle et l ajustement aux données est considéré comme bon. La plupart des logiciels statistiques présentent dans les résultats la statistique C de Hosmer et Lemeshow et le test associé. D autres mesures appelées diagnostics de régression permettent également de vérifier que le modèle a une bonne qualité d ajustement [8]. Enfin le pouvoir discriminant du modèle de régression logistique, c est-à-dire sa qualité prédictive, peut être étudié par les taux de bon et mauvais classements des données, et à l aide de la courbe ROC (receiver operating characteristic). L aire sous la courbe, qui varie entre 0 et 1, donne une mesure de la capacité du modèle à discriminer les cas positifs des cas négatifs. En règle générale, la discrimination est considérée : nulle si l aire sous la courbe ROC = 0,5 ; acceptable si l aire sous la courbe appartient à [0,7 ; 0,8[ ; excellente si l aire sous la courbe appartient à [0,8 ; 0,9[ ; et exceptionnelle si l aire sous la courbe est supérieure ou égale à 0,9. Si l aire sous la courbe ROC est égale à 1 alors le modèle est parfaitement discriminant. Quelles sont les stratégies de modélisation? Les étapes Il n existe pas de stratégie unique de modélisation multivariée, mais quel que soit le type de modèle, les mêmes STV, vol. 23, n o 7, septembre
7 étapes sont généralement recommandées. La stratégie proposée par Hosmer et Lemeshow comprend 5 étapes: (1) analyse univariée, (2) choix des variables candidates au modèle multivarié, (3) identification des variables à conserver dans le modèle multivarié, (4) étude des interactions, (5) vérification de l adéquation et des hypothèses du modèle [9]. La sélection des variables candidates au modèle multivarié consiste à considérer deux types de variables : celles dont le test univarié a une p-valeur inférieur à un seuil prédéfini (Hosmer et Lemeshow recommandent un seuil de 0,25 mais on peut trouver dans la littérature des seuils plus restrictifs p < 0,15 ou 0,20), et celles qui sont cliniquement importantes (facteurs de risque et facteurs de confusion connus). Une procédure de sélection, parmi les suivantes, est alors appliquée : sélection ascendante («forward») : les variables les plus significatives (p-valeur les plus petites et inférieures au seuil de significativité choisi) sont incluses une à une jusqu à ce que plus aucune variable ne puisse être incluse dans le modèle (variables non significatives) ; sélection descendante («backward») : toutes les variables sont incluses dans le modèle puis les variables les moins significatives (p-valeur les plus élevées et supérieures au seuil de significativité choisi) sont retirées une à une jusqu à ce que toutes les variables restantes soient significatives ; sélection pas à pas («stepwise») : combinaison des deux méthodes ascendante et descendante ; sélection du meilleur sous-ensemble : parmi tous les modèles possibles, sélection du meilleur modèle selon un critère spécifié. Ce critère peut être par exemple le R 2 ou le R 2 ajusté dans le cadre de la régression linéaire, le C(p) de Mallows, ou des critères dits d information dont les calculs prennent en compte la vraisemblance du modèle et le nombre de variables explicatives. Les critères d information les plus célèbres sont le critère AIC d Akaike (Akaike Information Criterion) et le critère BIC de Schwarz (Bayesian Information Criterion). La valeur en elle-même de ces critères est peu informative mais ils permettent de comparer des modèles emboités entre eux 5. Le meilleur modèle est celui minimisant les critères d information ou le C(p) de Mallows, tandis qu en régression linéaire, le meilleur modèle est celui maximisant le R 2 ou le R 2 ajusté. Remarque : Un facteur de risque non significatif en analyse univariée peut être un facteur de risque significatif 5 Un modèle de régression M1 est dit emboîté dans un modèle M2, s il diffère simplement d une ou plusieurs covariables : M1 est le même modèle que M2 (même loi de distribution, appliqué sur les mêmes donnés) mais une ou plusieurs covariables ont été retirées. en analyse multivariée si les facteurs de confusion sont pris en compte (c est-à-dire inclus dans le modèle multivarié) [10]. Les variables candidates au modèle multivarié doivent donc être minutieusement étudiées. De plus, si l inclusion d une variable influence fortement les coefficients des autres variables, il est important de l inclure dans le modèle final même si elle n est pas significative (c està-dire la forcer dans le modèle). Le choix des variables du modèle est une étape délicate, souvent longue et minutieuse, qu il faut savoir ne pas laisser au seul choix du logiciel de statistique utilisé. Ainsi, parfois au prix d une petite perte de qualité statistique, on aura un gain appréciable épidémiologique [11]. Les problèmes de colinéarité Un des problèmes récurrents en régression est la colinéarité c est-à-dire des variables explicatives très corrélées. Les coefficients deviennent alors incohérents et des variables ne seront pas retenues dans le modèle car à tort non significatives. Avant d envisager un modèle de régression multiple, il convient donc d examiner les corrélations entre les covariables. Des variables trop fortement corrélées ne doivent pas être incluses simultanément dans un modèle. De plus, Peduzzi et al. ont montré qu au moins 10 évènements par variable (EPV) sont nécessaires pour garantir la stabilité d un modèle (régression logistique ou de Cox) [12]. Par exemple, dans une étude avec 100 sujets, si 60 sont malades alors il est recommandé de ne pas inclure plus de 4 variables dans le modèle de régression multiple (on calcule le nombre de variables en considérant l évènement le plus rare : ici 40 sujets non malades). Disposer d au moins 10 sujets par covariable est devenue une règle générale pour les modèles multivariés. Le principe de parcimonie Le choix des variables explicatives doit être guidé par le principe de parcimonie qui consiste à retenir le modèle le plus simple (ou modèle «le moins couteux») donnant un ajustement satisfaisant. Si deux modèles ont des qualités proches, on retiendra celui contenant le moins de covariables. Exemple 1 : Modèle de régression linéaire Données illustratives La partie concernant le modèle de régression linéaire est illustrée par des mesures prises sur 21 enfants (11 filles et 10 garçons) âgés de 3à11ans(données fictives). 366 STV, vol. 23, n o 7, septembre 2011
8 Tableau 2. Résultats de la régression linéaire simple de la taille sur l âge et de la régression linéaire multiple de la taille sur l âge et le sexe. Estimate Standard Error T value Pr(> t ) Régression linéaire simple de la taille sur l âge Constante 75,2201 3, ,83 <,0001 Age 6,1966 0, ,49 <,0001 Régression linéaire multiple de la taille sur l âge et le sexe Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/2017. Constante 74,0972 2, ,043 <,0001 Age 6,0100 0, ,712 <,0001 Sexe (garçon) 5,1087 1,6463 3,103 0,0061 Régression linéaire simple (figure 2 ; tableau 2, partie supérieure) Sur la figure 2A, les croix correspondent aux valeurs observées (x i,y i ) de l âge et de la taille, le carré au point moyen (x,y), et la droite à la droite de régression minimisant la somme des carrés des résidus (écarts entre les valeurs observées y i et la droite). L âge moyen des enfants est 7 ans et la taille moyenne est 119 cm : x = 7,019 et y = 118,714 cm. L équation de la régression linéaire de la taille sur l âge s écrit taille = 75,22 + 6,20 age (tableau 2, partie supérieure). Ainsi, la taille augmente en moyenne de 6,20 cm par année (pente). La constante correspond à la taille moyenne pour une valeur de l âge x = 0 an,c est-à-dire à la naissance. Ici, il s agit d une simple extrapolation puisque tous les enfants sont âgés de plus de 3 ans. L équation permet également de prédire (estimer) des tailles pour des âges donnés. Les deux dernières colonnes du tableau indiquent la valeur t = 14,49 (6,1966/0,4276) et la p-valeur du test bilatéral β 1 = 0 (test de Student, n-2 = 19 degrés de liberté). La p-valeur est inférieure à 0,001, donc l hypothèse nulle β 1 = 0 est rejetée. L estimation de la pente étant supérieure à 0, il existe une association positive entre l âge et la taille. Enfin, l erreur standard permet de déterminer l intervalle de confiance à 95 % (IC 95 %) de la pente : 6,20 ± t 0,975 0,43 = 6,20 ± 0,90. L IC 95% de la pente ne contenant pas 0, l hypothèse nulle β 1 = 0 est bien rejetée. La représentation graphique des résidus en fonction de l âge (figure 2B) montre une dispersion homogène des résidus autour de 0, et le QQplot (figure 2C) indique que la distribution des résidus est proche d une distribution normale (points quasiment alignés sur la droite en pointillés) : les conditions de validité du modèle sont donc acceptables. Le coefficient R 2 est égal 0,92 indiquant que 92 % de Taille A Age Residuals B Age Sample Quantiles C Theoretical Quantiles Figure 2. Régression linéaire de la taille sur l âge. A) Relation entre l âge et la taille et droite de régression linéaire. B) Représentation graphique des résidus en fonction de l âge. C) QQplot (diagramme quantile-quantile). STV, vol. 23, n o 7, septembre
9 Tableau 3. Description des variables de l étude UIS. Nom de la variable Description Codes/Valeurs ID Code identifiant du sujet 1 à 575 AGE Âge à l inclusion Années BECK Score de dépression de Beck à l inclusion 0à54 Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/2017. IVHX Antécédents d utilisation de médicaments par voie IV NDRUGTX Nombre de traitements antérieurs =Jamais, 2=Dans le passé, 3=Récemment RACE Couleur du sujet (race) 0=Blanc, 1=Autre TREAT Traitement randomisé 0=Court, 1=Long SITE Site de traitement 0=A, 1=B DFREE Retour à l utilisation de médicaments avant la fin du programme de traitement la variabilité de la taille est expliquée par la variation de l âge. Régression linéaire multiple (tableau 2, partie inférieure) Lorsqu il y a m variables explicatives, une représentation graphique n est plus possible (il s agit de minimiser la somme des carrés des distances entre les valeurs observées de Y et un hyperplan de dimension m). De même, l estimation des paramètres du modèle nécessite l utilisation d un logiciel statistique. Les résultats de la régression multivariée de la taille en fonction de l âge et du sexe (dont les conditions de validité étaient vérifiées) indiquent qu à âge identique, les garçons ont une taille significativement plus élevée que les filles (p =0,0061) : en moyenne, les garçons mesurent 5,1 cm de plus. Le sexe «fille» étant la catégorie de référence, par défaut le codage utilisé est 0. Ainsi, la taille d une fille de 5 ans est estimée à 74,1 + 6, ,1 0 = 104,1 cm. L introduction de l interaction âge sexe (résultats non montrés) indiquait que la relation entre âge et taille n était pas différente selon le sexe (p =0,29). À noter que ce type de régression linéaire incluant une variable explicative quantitative et une variable explicative qualitative s appelle une analyse de covariance (ou ANCOVA). 1=Resté sans médicament 0=Sinon Exemple 2 : modèle de régression logistique dichotomique Données illustratives (tableau 3) La partie concernant le modèle de régression logistique est illustrée par des données de l étude UIS (University of Massachussetts Aids Research Unit (UMARU) Impact Study), reprise par Hosmer et Lemeshow dans leur livre sur la régression logistique appliquée [13]. L objectif de cette étude était de comparer deux programmes de traitement (de durée différente) visant à réduire l abus de médicament et prévenir les comportements à haut risque dans le HIV. Un des critères de jugement était si le sujet était resté sans médicament («drug-free») plus d un an après la randomisation au traitement. Sur les 575 sujets analysés, 147 (25,6 %) étaient restés sans médicaments pendant au moins un an. Le lecteur pourra trouver sur un site web de l Université de Californie à Los Angeles (UCLA), la plupart des codes SAS, SPSS et Stata correspondant aux analyses décrites dans le livre de Hosmer et Lemeshow [14]. Régression logistique simple Les deux premières colonnes du tableau 4 présentent les résultats de l analyse univariée (odds ratio bruts et leurs 368 STV, vol. 23, n o 7, septembre 2011
10 Tableau 4. Résultats de la régression logistique simple et de la régression logistique multiple incluant les covariables significatives au seuil 0,25 en analyse univariée pour l étude UIS. Analyse univariée Analyse multivariée* OR (IC 95 %) p-valeur OR ajusté (IC 95 %) p-valeur AGE 1,20 (0,89 ; 1,62) 0,237 1,65 (1,18 ; 2,32) 0,004 BECK 0,96 (0,87 ; 1,06) 0,425 Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/2017. NDRUGTX 0,93 (0,88 ; 0,97) < 0,001 0,94 (0,89 ; 0,99) 0,016 IVHX 0,001 0,009 Jamais 1 1 Passé 0,62 (0,37 ; 1,04) 0,55 (0,31 ; 0,96) Récent 0,46 (0,30 ; 0,70) 0,48 (0,29 ; 0,79) RACE 0,032 0,311 Blanc 1 1 Autre 1,58 (1,04 ; 2,39) 1,25 (0,81 ; 1,94) TREAT 0,023 0,026 Court 1 1 Long 1,55 (1,06 ; 2,26) 1,56 (1,05 ; 2,30) SITE 0,197 0,494 A 1 1 B 1,30 (0,87 ; 1,94) 1,16 (0,76 ; 1,78) * Modèle multivarié avec les covariables significatives au seuil 0,25 en analyse univariée Odds ratio pour une augmentation de 10 ans Odds ratio pour une augmentation de 5 points intervalles de confiance à 95 % (IC 95 %), p-valeur). La variable IVHX était significativement associée à la variable DFREE (p = 0,001). Un patient qui avait déjà utilisé dans le passé des médicaments par voie IV (IVHX = 2) avait 38 % de chance en moins (OR = 0,62 [IC 95 % : 0,37 ; 1,04]) de ne pas prendre de médicament avant la fin du programme (DFREE = 1) qu un patient n ayant jamais utilisé ce type de médicaments (IVHX = 1). Les patients âgés avaient tendance à rester plus facilement sans médicament que les patients jeunes mais cette différence n était pas significative (OR = 1,20 [IC 95 % : 0,89 ; 1,62] pour une augmentation de 10 ans, p = 0,237] Régression logistique multiple Une fois l analyse univariée effectuée (étape (1) selon Hosmer et Lemeshow), les variables dont le test univarié avait une p-valeur < 0,25 et les variables cliniquement importantes étaient candidates au modèle multivarié (étape (2)). Le score de Beck (variable BECK) dont la p-valeur STV, vol. 23, n o 7, septembre
11 était 0,425 en analyse univariée n était donc pas retenu à cette étape. Les deux dernières colonnes du tableau 4 présentent les résultats du modèle multiple (odds ratio ajustés et IC 95 %, p-valeur) incluant les covariables significatives au seuil 0,25 en analyse univariée. Un patient sous traitement à longue durée (TREAT = 1) avait 1,56 fois plus de chance (OR = 1,56 [IC 95 % : 1,05 ; 2,30]) de rester sans prendre de médicament dans les 12 mois (DFREE = 1) qu un patient sous traitement à courte durée (TREAT = 0) ayant les mêmes caractéristiques par ailleurs (mêmes valeurs pour les autres covariables du modèle). Un patient qui avait utilisé récemment des médicaments par voie IV (IVHX = 3) avait 2 fois moins de chance (OR = 0,48 [IC 95 % : 0,29 ; 0,79]) de rester sans prendre de médicament avant la fin du programme (DFREE = 1) qu un patient n ayant jamais utilisé ce type de médicaments (IVHX = 1). L association pour la variable âge était plus forte après ajustement sur les autres variables. En revanche, les associations pour les variables SITE et RACE étaient moins fortes et non significatives selon le test de Wald (p = 0,494 et p = 0,311). Cependant, ces variables étaient considérées comme suffisamment importantes pour être conservées dans le modèle multivarié. L étape (3) étant terminée, l hypothèse de linéarité pour les variables quantitatives AGE et NDRUGTX devait être vérifiée (étape (4)). Celle-ci était vérifiée pour l âge, en revanche la variable NDRUGTX devait être décomposée en deux termes. Enfin, les interactions entre variables étaient considérées (étape (5)). Quinze paires d interactions étaient possibles, mais seules les interactions significatives au seuil 10 % (p 0,10) étaient ajoutées au modèle à effets principaux. Deux interactions significatives au seuil 5 % étaient finalement retenues dont l interaction RACE SITE (résultats non présentés). Ceci signifiait que la différence de risque (de ne pas prendre de médicament avant la fin du programme) entre les personnes de couleur blanche et d autres couleurs variait selon le site de traitement. Les odds ratio associés à la couleur Autre (RACE = 1) par rapport à la couleur Blanche (RACE = 0) étaient estimés à 1,98 [IC 95 % : 1,18 ; 3,33] et 0,47 [IC 95 % : 0,19 ; 1,18] pour les sites A et B respectivement. La statistique C de Hosmer et Lemeshow de ce modèle multiple (à effets principaux et interactions significatifs) était estimée à 4,39 avec une p-valeur associée égale à 0,820 indiquant une bonne adéquation du modèle aux données. L aire sous la courbe ROC était 0,70. Discussion Les conclusions des recherches médicales sont souvent fondées sur les résultats des modèles de régression multiple afin de décrire au mieux l association entre deux variables en contrôlant l effet d autres variables. Il est donc essentiel que le clinicien connaisse le principe de ces modèles, leurs hypothèses et leur interprétation pour pouvoir faire une lecture critique de la littérature médicale. Conflits d intérêts : aucun Références 1. Falissard B. Comprendre et utiliser les statistiques dans les sciences de la vie. Paris : Masson, 1998 : Labreuche J. Les différents types de variables, leurs représentations graphiques et paramètres descriptifs. Sang Thrombose Vaisseaux 2010 ; 22 : Bouyer J, Hémon D, Cordier S, et al. Epidémiologie - Principes et méthodes quantitatives. Paris : Les Editions INSERM, 1995 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Royston P, Altman DG. Regression using fractional polynomials of continuous covariates: parsimonious parametric modelling (with discussion). Appl Stat 1994 ; 43 : Royston P, Altman DG, Sauerbrei W. Dichotomizing continuous predictors in multiple regression: a bad idea. Stat Med 2006; 25: Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Sun GW, Shook TL, Kay GL. Inappropriate use of bivariable analysis to screen risk factors for use in multivariable analysis. J Clin Epidemiol 1996 ; 49 : Bouyer J, Hémon D, Cordier S, et al. Epidémiologie - Principes et méthodes quantitatives. Paris : Les Editions INSERM, 1995 : Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR. A simulation study of the number of events per variable in logistic regression analysis. J Clin Epidemiol 1996 ; 49 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed.new York : Wiley, 2000 : SAS Textbook Examples: Applied Logistic Regression, 2nd, by Hosmer and Lemeshow. UCLA: Academic Technology Services, Statistical Consulting Group. (accessed April 18, 2011). 370 STV, vol. 23, n o 7, septembre 2011
Principe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détailChapitre 6 Test de comparaison de pourcentages χ². José LABARERE
UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables
Plus en détailLa survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Plus en détailExercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015
Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par
Plus en détailDonnées longitudinales et modèles de survie
ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détail«Cours Statistique et logiciel R»
«Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire
Plus en détailMedication management ability assessment: results from a performance based measure in older outpatients with schizophrenia.
Medication Management Ability Assessment (MMAA) Patterson TL, Lacro J, McKibbin CL, Moscona S, Hughs T, Jeste DV. (2002) Medication management ability assessment: results from a performance based measure
Plus en détailApplication des courbes ROC à l analyse des facteurs pronostiques binaires
Application des courbes ROC à l analyse des facteurs pronostiques binaires Combescure C (1), Perneger TV (1), Weber DC (2), Daurès J P (3), Foucher Y (4) (1) Service d épidémiologie clinique et Centre
Plus en détailChapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE
UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction
Plus en détailIBM SPSS Regression 21
IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics
Plus en détailL axe 5 du Cancéropole Nord Ouest
L axe 5 du Cancéropole Nord Ouest Cancers, Individu id & Société L état des lieux d un pari Le Rapport Cordier 1 Biomarqueurs prédictifs 2 L axe 5 du Cancéropole Nord Ouest Cancers, Individu & Société
Plus en détailRelation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
Plus en détailTests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE
Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.
Plus en détailIntroduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
Plus en détailÉvaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement
Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement DIU HTA François Gueyffier Service de pharmacologie clinique UMR CNRS 5558 CIC 201, LYON francois.gueyffier@chu-lyon.fr
Plus en détailCancer bronchique primitif: données épidémiologiques récentes
Cancer bronchique primitif: données épidémiologiques récentes Pr Jean Trédaniel Service de pneumologie et oncologie thoracique Groupe Hospitalier Paris Saint Joseph Université Paris Descartes Sources Données
Plus en détailLire ; Compter ; Tester... avec R
Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................
Plus en détailSTATISTIQUES. UE Modélisation pour la biologie
STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres
Plus en détailHENDRICH FALL RISK MODEL (HFRM)
HENDRICH FALL RISK MODEL (HFRM) Hendrich, A. L., Bender, P. S., & Nyhuis, A. (2003). Validation of the Hendrich II Fall Risk Model: a large concurrent case/control study of hospitalized patients. Appl.Nurs
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailSAS ENTERPRISE MINER POUR L'ACTUAIRE
SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de
Plus en détailLECTURE CRITIQUE 1 ER PAS
1 LECTURE CRITIQUE D UN ARTICLE SCIENTIFIQUE 1 ER PAS FORUM PCI 20,05,14 MJ Thévenin / Inf. EPIAS/ SMPH BUTS ET ORGANISATION DE LA PRÉSENTATION Utiliser une grille de lecture critique d un article Comprendre
Plus en détailAnalyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin
Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet
Plus en détailEssais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire
Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire Sylvie CHABAUD Direction de la Recherche Clinique et de l Innovation : Centre Léon Bérard - Lyon Unité de Biostatistique
Plus en détailUn exemple de régression logistique sous
Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les
Plus en détailDirection des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Plus en détailAnalyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)
Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Plus en détailUne variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)
CIVILITE-SES.doc - 1 - Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) 1 PRÉSENTATION DU DOSSIER CIVILITE On s intéresse
Plus en détailTableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1
UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés
Plus en détailFormations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS
Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES
Plus en détailExemples d application
AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif
Plus en détailBases de données Outils de gestion
11/03/2010 Bases de données Outils de gestion Mise en place d outils pour gérer, stocker et utiliser les informations d une recherche biomédicale ent réalisé par L. QUINQUIS d épidémiologie et de biostatistique
Plus en détail1 Définition de la non stationnarité
Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles
Plus en détail23. Interprétation clinique des mesures de l effet traitement
23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+
ERRATA ET AJOUTS Chapitre, p. 64, l équation se lit comme suit : 008, Taux effectif = 1+ 0 0816 =, Chapitre 3, p. 84, l équation se lit comme suit : 0, 075 1 000 C = = 37, 50$ Chapitre 4, p. 108, note
Plus en détailUNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU
Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris
Plus en détailTests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
Plus en détailEssais cliniques de phase 0 : état de la littérature 2006-2009
17 èmes Journées des Statisticiens des Centres de Lutte contre le Cancer 4 ème Conférence Francophone d Epidémiologie Clinique Essais cliniques de phase 0 : état de la littérature 2006-2009 Q Picat, N
Plus en détailValidation clinique des marqueurs prédictifs le point de vue du méthodologiste. Michel Cucherat UMR CNRS 5558 - Lyon
Validation clinique des marqueurs prédictifs le point de vue du méthodologiste Michel Cucherat UMR CNRS 5558 - Lyon Marqueur prédictif - Définition Un marqueur prédictif est un marqueur qui prédit le bénéfice
Plus en détailÉtudes épidémiologiques analytiques et biais
Master 1 «Conception, évaluation et gestion des essais thérapeutiques» Études épidémiologiques analytiques et biais Roxane Schaub Médecin de santé publique Octobre 2013 1 Objectifs pédagogiques Connaitre
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailExemple PLS avec SAS
Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that
Plus en détailEvaluation des modèles non-linéaires à effets mixtes
Evaluation des effets mixtes INSERM UMR738 GDR Statistiques et Santé, 20 octobre 2009 Pharmacométrie Définition modélisation des données obtenues lors d essais cliniques sur des médicaments développement
Plus en détailStatistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014
Tests du χ 2 Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 A. Lourme http://alexandrelourme.free.fr Outline
Plus en détailÉconométrie, causalité et analyse des politiques
Économétrie, causalité et analyse des politiques Jean-Marie Dufour Université de Montréal October 2006 This work was supported by the Canada Research Chair Program (Chair in Econometrics, Université de
Plus en détailPROGRAMME (Susceptible de modifications)
Page 1 sur 8 PROGRAMME (Susceptible de modifications) Partie 1 : Méthodes des revues systématiques Mercredi 29 mai 2013 Introduction, présentation du cours et des participants Rappel des principes et des
Plus en détailTests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»
Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences
Plus en détailFORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)
87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation
Plus en détailL approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011
L approche de régression par discontinuité Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011 Plan de la présentation L approche de régression par discontinuité (RD) Historique
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailItem 169 : Évaluation thérapeutique et niveau de preuve
Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailMulford C. (1992). The Mother-Baby Assessment(MBA): An Apgar Score for breastfeeding. Journal of Human Lactation, 8(2), 79-82.
MOTHER-BABY ASSESSMENT SCALE Mulford C. (1992). The Mother-Baby Assessment(MBA): An Apgar Score for breastfeeding. Journal of Human Lactation, 8(2), 79-82. Instrument de Mother-Baby Assessment scale mesure
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailMortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine
Mortalité observée et mortalité attendue au cours de la vague de chaleur de uillet en France métropolitaine FOUILLET A 1, REY G 1, JOUGLA E, HÉMON D 1 1 Inserm, U75, Villeuif, France. Inserm CépiDc, IFR9,
Plus en détailAnalyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Plus en détailTESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme
TESTS D HYPOTHÈSE FONDÉS SUR LE χ² http://fr.wikipedia.org/wiki/eugénisme Logo du Second International Congress of Eugenics 1921. «Comme un arbre, l eugénisme tire ses constituants de nombreuses sources
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détaildistribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position
Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons
Plus en détailLes simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailLecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888
Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques
Plus en détailÉquivalence et Non-infériorité
Équivalence et Non-infériorité Éléments d Introduction Lionel RIOU FRANÇA INSERM U669 Mars 2009 Essais cliniques de supériorité Exemple d Introduction Données tirées de Brinkhaus B et al. Arch Intern Med.
Plus en détailCOMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES
J. sci. pharm. biol., Vol.9, n - 00, pp. 9-0 EDUCI 00 9 VALLEE POLNEAU S.* DIAINE C. COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES Notre étude visait à comparer les résultats obtenus
Plus en détailStatistique Descriptive Élémentaire
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier
Plus en détailLe quizz des stats. Xavier Paoletti. Sce de biostatistiques / Inserm U900 Institut Curie
Le quizz des stats Xavier Paoletti Sce de biostatistiques / Inserm U900 Institut Curie Qques questions pour entamer les hostilités 1. Description de la population Pourquoi parler d'âge médian et non moyen?
Plus en détailModélisation géostatistique des débits le long des cours d eau.
Modélisation géostatistique des débits le long des cours d eau. C. Bernard-Michel (actuellement à ) & C. de Fouquet MISTIS, INRIA Rhône-Alpes. 655 avenue de l Europe, 38334 SAINT ISMIER Cedex. Ecole des
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailUne introduction. Lionel RIOU FRANÇA. Septembre 2008
Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4
Plus en détail«Quelle information aux patients en recherche biomédicale? Quels enseignements en retirer pour la pratique quotidienne?»
«Quelle information aux patients en recherche biomédicale? Quels enseignements en retirer pour la pratique quotidienne?» Dr Adeline Paris Unité de Pharmacologie Clinique Centre d Investigation Clinique
Plus en détailÉtude de cas Assurance (d après une étude de Philippe Périé, CISIA)
Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont
Plus en détailExercices supplémentaires sur l introduction générale à la notion de probabilité 2009-2010
Exercices supplémentaires sur l introduction générale à la notion de probabilité 2009-2010 Exercices fortement conseillés : 6, 10 et 14 1) Un groupe d étudiants est formé de 20 étudiants de première année
Plus en détailOptimisation des ressources des produits automobile première
EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients
Plus en détailTable des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Plus en détailLe chi carré. Le sommaire. Approche quantitative
Approche quantitative Le chi carré Les objectifs pédagogiques Définir le test du chi carré Déterminer la nature des données propres au chi carré Savoir calculer le chi carré Savoir déterminer les fréquences
Plus en détailStatistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Plus en détailHospital Anxiety and Depression Scale (HADS)
dmt Risques psychosociaux : out ils d é va lua t ion FRPS 13 CATÉGORIE ATTEINTE À LA SANTÉ PHYSIQUE ET MENTALE Hospital Anxiety and Depression Scale (HADS) LANGEVIN V.*, FRANÇOIS M.**, BOINI S.***, RIOU
Plus en détailCALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING
CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de
Plus en détailHedging delta et gamma neutre d un option digitale
Hedging delta et gamma neutre d un option digitale Daniel Herlemont 1 Introduction L objectif de ce projet est d examiner la couverture delta-gamma neutre d un portefeuille d options digitales Asset-Or-Nothing
Plus en détailLES DIFFERENTS TYPES DE MESURE
LES DIFFERENTS TYPES DE MESURE Licence - Statistiques 2004/2005 REALITE ET DONNEES CHIFFREES Recherche = - mesure. - traduction d une réalité en chiffre - abouti à des tableaux, des calculs 1) Qu est-ce
Plus en détailApproche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897
Plus en détailIFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels
IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels Yann-Gaël Guéhéneuc Professeur adjoint guehene@iro.umontreal.ca, local 2345 Département d informatique et de recherche
Plus en détailRating et probabilité de défaut des entreprises européennes :
Rating et probabilité de défaut des entreprises européennes : détermination par un modèle de régression logistique ordonné Éric Paget-Blanc Maître de Conférence Université d Evry Val d Essonne Chercheur
Plus en détailMODELE A CORRECTION D ERREUR ET APPLICATIONS
MODELE A CORRECTION D ERREUR ET APPLICATIONS Hélène HAMISULTANE Bibliographie : Bourbonnais R. (2000), Econométrie, DUNOD. Lardic S. et Mignon V. (2002), Econométrie des Séries Temporelles Macroéconomiques
Plus en détailEssai Inter-groupe : FFCD UNICANCER FRENCH - GERCOR
CLIMAT - PRODIGE 30 Etude de phase III randomisée évaluant l Intérêt de la colectomie première chez les patients porteurs d un cancer colique asymptomatique avec métastases hépatiques synchrones non résécables
Plus en détailLES MODELES DE SCORE
LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d
Plus en détailEFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE
MICHÈLE PICARD FLIBOTTE EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE Essai-stage présenté à la Faculté des études supérieures de l Université Laval dans le cadre
Plus en détailLa place de SAS dans l'informatique décisionnelle
La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie
Plus en détailEvidence-based medicine en français
Evidence-based medicine en français MÉDECINE FACTUELLE (Office de la langue française) Médecine fondée sur des faits démontrés Médecine fondée sur des preuves Médecine fondée sur des données probantes
Plus en détailEVALUATION DES TECHNOLOGIES DE SANTÉ ANALYSE MÉDICO-ÉCONOMIQUE. Efficacité et efficience des hypolipémiants Une analyse centrée sur les statines
EVALUATION DES TECHNOLOGIES DE SANTÉ ANALYSE MÉDICO-ÉCONOMIQUE Efficacité et efficience des hypolipémiants Une analyse centrée sur les statines Juillet 2010 Mise à jour Septembre 2010 1 Le rapport complet
Plus en détailStatistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Plus en détailImputation du salaire d ego dans TeO
Imputation du salaire d ego dans TeO Objet de la note : linéariser la réponse en tranche du salaire, et imputer le salaire en cas de non réponse Champ et principe de la méthode Les individus qui se sont
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détail