Modèles de régression multiple

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Modèles de régression multiple"

Transcription

1 Note méthodologique Sang Thrombose Vaisseaux 2011 ; 23, n o 7 : Modèles de régression multiple Florence Gillaizeau 1, Sophie Grabar 2 Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/ Inserm, Centre d Investigation Épidémiologique 4, 20 rue Leblanc, F Paris, France ; Hôpital européen Georges-Pompidou, Unité d Épidémiologie et de Recherche Clinique, 20 rue Leblanc, F Paris, France 2 Université Paris Descartes, Sorbonne Paris Cité, Faculté de médecine, F Paris, France ; Hôpital Cochin, Unité de Biostatistique et Epidémiologie et INSERM U943, 27 rue du Faubourg Saint-Jacques, F Paris, France Résumé. Les analyses multivariées sont largement utilisées en recherche médicale, notamment pour décrire l association entre deux variables en contrôlant l effet d autres variables. Cependant, le clinicien n est souvent pas assez à l aise avec ces modèles mathématiques et leur interprétation pour pouvoir émettre son propre jugement des résultats. Cette note a pour objectif de décrire simplement les modèles de régression multiple et d illustrer leur interprétation par deux exemples médicaux utilisant le modèle de régression linéaire et le modèle de régression logistique. Mots clés : régression, modèles linéaires, modèles logistiques, facteurs de risque, facteurs de confusion, ajustement Abstract Multiple regression models Multivariate analyses are widely used in medical research especially to describe the association between two variables whilst controlling for other variables. However, the clinician is often not comfortable enough with these mathematical models and their interpretation to make her/his own judgment of the results. This paper aims to describe in a simple fashion the multiple regression models and illustrate their interpretation using two medical examples of the linear regression and the logistic regression models. Key words: Regression analysis, linear models, logistic models, risk factors, confounding factors, adjustment Les modèles de régression multiple sont des modèles mathématiques qui permettent d étudier l association entre des facteurs exploratoires et une variable à expliquer, dans un objectif de description et/ou de prédiction [1]. Ils sont ainsi largement utilisés en recherche médicale : étude des associations entre des facteurs d exposition et une maladie, construc- Tirés à part : F. Gillaizeau tion d un score pronostique, étude médico-économique, etc. Malgré leur utilisation et leur présentation fréquentes dans la littérature médicale, le clinicien n est souvent pas assez à l aise avec ces modèles mathématiques et leur interprétation pour pouvoir émettre son propre jugement des résultats. Cette note a pour objectif de décrire simplement les modèles de régression multiple et d illustrer leur interprétation grâce à deux exemples médicaux utilisant le modèle de régression linéaire et le modèle de régression logistique. doi: /stv Pour citer cet article : Gillaizeau F, Grabar S. Modèles de régression multiple. Sang Thrombose Vaisseaux 2011 ; 23 (7) : doi: /stv

2 Présentation de la régression multiple Pourquoi parle-t-on de régression multiple? Les modèles de régression sont des modèles mathématiques qui permettent de représenter une variable à expliquer (ou variable dépendante ou variable endogène ou réponse ou outcome) Y, en fonction d une ou plusieurs variables X 1, X 2,...X p (dites variables indépendantes, variables explicatives, variables exogènes, ou covariables) correspondant à des facteurs de risque et de confusion potentiels. Le modèle de régression est dit simple s il n inclut qu une seule variable explicative, et multiple s il inclut plusieurs variables explicatives. Les modèles de régression simple et multiple sont souvent appelés respectivement modèles de régression univarié et multivarié. En réalité, les analyses multivariées ou multidimensionnelles regroupent plus largement toutes les techniques dédiées à l analyse de données avec plusieurs variables 1. Dans cet article, nous nous intéressons aux modèles de régression multiple, mais le lecteur pourra rencontrer les termes «analyse univariée» et «analyse multivariée», utilisés abusivement pour décrire l étude de l association entre Y et une ou plusieurs variables explicatives. Dans quelles situations utiliser un modèle de régression multiple? Le principal objectif des modèles de régression, qu ils soient simples ou multiples, est de décrire l association entre deux variables, par exemple une exposition (facteur de risque) et une maladie (variable à expliquer Y). Dans les études d intervention ou essais thérapeutiques, le tirage au sort (ou randomisation) assure une répartition équilibrée des facteurs de risque. En épidémiologie, situation d observation, ce n est pas le cas. Par conséquent, une association entre une exposition et une maladie n indique pas nécessairement que cette exposition soit un facteur de risque de la maladie car cette association peut être la conséquence de facteurs de confusion. Pour décrire au mieux l association entre une exposition et une maladie, il faut donc contrôler l effet des autres variables, en particulier les facteurs de confusion : c est le principe de l ajustement. Différentes techniques d ajustement permettent de prendre en compte un facteur de confusion au moment de l analyse : 1 Modèles de régression multiple (linéaire, logistique, Cox, etc.), techniques d analyse des données (analyse discriminante, analyse en composantes principales, analyse des correspondances multiples...), modélisation conjointe de deux ou plusieurs variables à expliquer (analyse de variance multivariée (MANOVA)...). les analyses stratifiées et les analyses de régression multiple. Si les tests stratifiés comme le test du Khi-Deux de Maentel Haenzel sont simples en termes de principe et de calcul (analyse de la liaison par strate), ils ne peuvent prendre en compte qu un nombre limité de facteurs de confusion. La régression multiple permet de palier ce problème. Dans un essai thérapeutique randomisé, l ajustement permet également d augmenter la précision (donc la puissance) de l estimation de l effet du traitement [1]. Quels termes introduire dans le modèle? Variable à expliquer La variable à expliquer Y est la variable dont on souhaite décrire les variations en fonction d autres variables (qui sont alors explicatives). Y peut être une variable quantitative ou qualitative [2]. En médecine, la variable à expliquer est souvent un évènement défavorable comme le décès, la maladie, la récidive, l erreur de prescription, etc. Mais il peut aussi s agir d un évènement favorable (naissance, guérison, etc.) ou d une variable quantitative (mesure biologique, score, etc.). Variables explicatives Les variables explicatives X 1,X 2,...X p sont des variables dont on cherche l association avec la variable à expliquer Y ou qui peuvent modifier cette association : ce sont des facteurs de risque, des facteurs de confusion ou des facteurs d interaction. Elles peuvent être quantitatives ou qualitatives. Facteurs de risque Les facteurs de risque sont des caractéristiques d origines diverses (biologique, génétique, environnementale, culturelle, etc.) qui entraînent une augmentation de la probabilité d apparition d un évènement défavorable 2. Facteurs de confusion Le principal intérêt de la régression multiple est de prendre en compte les biais de confusion par le principe d ajustement 3. On dit qu un facteur F joue le rôle de facteur de confusion entre l exposition E et la maladie M s il est lié à la fois au facteur d exposition E et à la maladie M, 2 Il est délicat d utiliser le terme «facteur de risque» lorsque la variable à expliquer ne représente pas un événement défavorable mais le terme «facteur de chance» est rarement utilisé! 3 La prise en compte des facteurs de confusion peut aussi intervenir au niveau de la population (randomisation, restriction de la population, appariement). Ces facteurs sont néanmoins souvent introduits dans une régression multiple. STV, vol. 23, n o 7, septembre

3 qu il n est pas sur le chemin causal et s il modifie la relation brute aux différents niveaux de F. L association entre E et M peut être atténuée, augmentée, inversée. Prenons l exemple de l analyse de l association entre le chômage (facteur d exposition) et la dépression (maladie) (figure 1A). Dans une population, on observe que le risque de dépression est trois fois plus élevé chez les chômeurs (risque relatif (RR) brut, calculé à partir d un tableau de contingence ou du modèle de régression simple de la dépression sur le chômage). Cette relation entre chômage et dépression est la même chez les sujets de moins de 50 ans et de plus de 50 ans, cependant le risque dans chaque strate est réduit à 2 (RR ajustés, calculés à partir des tableaux de contingence ou du modèle de régression multiple de la dépression sur le chômage et l âge). Ceci s explique en partie par un taux de chômage plus faible chez les moins de 50 ans et un phénomène de dépression plus fréquent chez les personnes âgées. L âge est donc un facteur de confusion qui augmente l association entre le chômage et la dépression. Facteurs d interaction Les facteurs d interaction sont à distinguer des facteurs de confusion. Lorsqu il y a confusion (voir le paragraphe précédent), la relation brute entre E et M (odds ratio (OR) ou RR brut) n est pas la même que celle obtenue aux différents niveaux de F, en revanche cette relation est identique pour chaque niveau de F (OR ou RR ajustés). Lorsqu il y a interaction, la relation brute entre E et M n est pas la même que celle obtenue aux différents niveaux de F et cette relation diffère pour chaque niveau F: on ne peut alors plus parler de risque ajusté car celui-ci est diffèrent pour chaque niveau de F. Cette relation peut être d intensité différente (interaction Chômage 1A? Âge Dépression quantitative) ou de sens opposé (interaction qualitative) [3]. Par exemple, il y a interaction quantitative entre alcool et tabac pour le risque de cancer du larynx : l alcool est un facteur de risque connu de cancer du larynx, et ce risque est augmenté lorsqu il y a consommation conjointe avec du tabac (figure 1B). Dans le modèle de régression multiple, il faut alors introduire comme variables explicatives l alcool, le tabac, et l interaction alcool tabac. Quel type de modèle utiliser? Le choix d un modèle dépend de la distribution (loi de probabilité) et donc du type de la variable à expliquer Y, et de la forme de la liaison entre les variables explicatives et Y. Les modèles de régression multiple les plus couramment utilisés sont le modèle de régression linéaire, le modèle de régression logistique, et le modèle à risques proportionnels de Cox (tableau 1). Le modèle de Cox n est pas décrit dans cette note. Comment interpréter les coefficients de régression? En régression linéaire (voir équation tableau 1), la constante β 0 correspond à la valeur de Y quand toutes les valeurs des covariables X 1,X 2,...,X p sont nulles. L association entre la covariable et Y (respectivement la probabilité π en régression logistique) est positive si le coefficient de régression est positif, et négative si le coefficient de régression est négatif. Un coefficient de régression proche de 0 indique que la covariable influence peu Y (respectivement π). Dans le cas de la régression logistique (voir équation tableau 1), l exponentielle du coefficient de régression β 1 Risque de cancer du larynx 1B Fumeur Non-fumeur Consommation d alcool Figure 1. Illustration des facteurs de confusion et d interaction. A) L âge est un facteur de confusion qui augmente la force de l association entre chômage et dépression. B) Il y a interaction quantitative entre alcool et tabac pour le risque de cancer du larynx : l interaction quantitative se traduit par des pentes différentes pour les fumeurs et les non fumeurs (droites non parallèles). Le risque est augmenté lorsqu il y a consommation conjointe de tabac et d alcool (pente plus forte pour les fumeurs). 362 STV, vol. 23, n o 7, septembre 2011

4 Tableau 1. Présentation des modèles en fonction des variables à expliquer et des variables explicatives. Modèle Type de la variable à expliquer Y[exemples] Distribution de Y Type des variables explicatives X 1,X 2,..., Équation Forme de la liaison entre les variables explicatives et Y Xp Régression linéaire Quantitative [pression artérielle systolique, débit filtration glomérulaire,...] Normale Quantitatives Qualitatives Y = β 0 + β 1 X 1 + β 2 X β p X p + ε Hypothèse de linéarité : la valeur moyenne de Y (ou espérance) est prédite par une combinaison linéaire des variables explicatives X 1,X 2,..., Xp. Régression logistique dichotomique Qualitative binaire* [malade (oui/non), Vivant (oui/non),...] Bernoulli ou binomiale Quantitatives Qualitatives logit(π) = ln π = β 0 + β 1 X 1 + β 2 X β p X p + ε 1 π π = π = exp[β 0 + β 1 X 1 + β 2 X β p X p ] 1 + exp[β 0 + β 1 X 1 + β 2 X β p X p ] + ε ' exp[ (β 0 + β 1 X 1 + β 2 X β p X p )] + ε ' π: probabilité associée à la modalité d intérêt de Y ln : fonction logarithme népérien Hypothèse de linéarité du logit (ou linéarité du log-odds) : la proportion de sujets π avec la caractéristique étudiée (par exemple : la proportion de sujets malades), après transformation logit, est prédite par une combinaison linéaire des variables explicatives X 1, X 2,..., Xp. À risques proportionnels de Cox Survie Temps (données censurées) [décès, récidive,... + temps de suivi] Quantitatives Qualitatives Hypothèses des risques proportionnels * Si Y est une variable qualitative à plus de 2 modalités (k > 2), on parle alors de régression logistique polytomique (le terme trichotomique est parfois employé pour 3 modalités). Le modèle est dit polytomique ordonné si Y est une variable qualitative ordinale. Le modèle est dit polytomique non ordonné ou polytomique multinomial si Y est une variable qualitative non ordinale [4]. Si Y est une variable binaire à deux modalités 0 et 1, dire que Y suit une loi de Bernoulli de paramètre π signifie que Y=1(succès) avec la probabilité π, ety=0(échec) avec la probabilité 1 - π. En épidémiologie, le «succès» c est-à-dire l évènement clinique étudié est souvent la maladie! La moyenne des valeurs prises par un échantillon de sujets correspond alors à la proportion de sujets malades, c est-à-dire π. La proportion de sujets non malades est 1 π. Puisqu une probabilité est comprise entre 0 et 1, celle-ci ne peut pas s exprimer comme une combinaison linéaire de covariables quantitatives et qualitatives (qui peut prendre des valeurs entre - et + ). Ceci explique la transformation de la probabilité π en cote (en anglais odds) π /1-π, et l application de la transformation logit (on parle alors de log-odds). Modèle non présenté dans cette note. Voir détails paragraphe Sous quelle forme introduire les variables explicatives? STV, vol. 23, n o 7, septembre

5 correspond à l odds ratio (exp β 1 = OR). C est une des raisons de la popularité du modèle. Pour une variable qualitative, l exponentielle du coefficient de régression associé à une modalité correspond à l odds ratio entre la modalité de référence et la modalité considérée. Pour une variable quantitative, l exponentielle du coefficient de régression correspond à l odds ratio pour une augmentation de 1 unité de la variable. Une telle augmentation est souvent peu intéressante sur le plan médical, ou peu pertinente si l étendue (range) de la variable est très large. Par exemple, si X 1 est l âge, plutôt que de calculer l odds ratio pour une augmentation de 1 an, on préfère calculer l odds ratio pour une augmentation de 5 ou 10 ans. L odds ratio pour une augmentation de a unités de la variable est égal à exp(a β 1 ), a pouvant être positif ou négatif. Ainsi, l odds ratio associé à une augmentation de 10 ans vaut exp(10 β 1 ), et l odds ratio associé à une diminution de 5 ans vaut exp(-5 β 1 ). Lorsque la régression logistique est multiple, les odds ratio sont dits «ajustés». Ils se calculent de la même manière qu en régression logistique simple (à partir de l exponentielle du coefficient de régression), sauf en présence d interaction où il est nécessaire de fixer la valeur d une des variables du terme d interaction [5]. Sous quelle forme introduire les variables explicatives? Variables qualitatives Dans le cas d une variable explicative qualitative, celleci n est jamais incluse dans un modèle sous sa forme initiale. La variable est transformée en m-1 variables binaires (on parle de dichotomisation) correspondant aux modalités de la variable, la modalité restante étant la catégorie de référence. Dans le cas d une variable qualitative binaire (cas le plus simple), la modalité de référence correspond à la variable dont le codage est 0 dans le modèle. Par exemple, pour la variable sexe, la modalité «femme» est classiquement choisie comme modalité de référence (elle est codée 0 au moment de la modélisation alors que la modalité «homme» est codée 1). Dans le cas d une variable qualitative nominale à m modalités (m > 2), la catégorie de référence correspond en général à une catégorie moyenne (par exemple, catégorie socio-professionnelle (CSP) «cadre»), ou à la catégorie regroupant le plus d observations («ouvrier»). Les résultats présentent alors une p-valeur (degré de signification) «globale» correspondant au test de l association entre la variable explicative à m modalités et la variable à expliquer étudiée (test global des m-1 coefficients). En régression logistique, pour faciliter l interprétation, on choisit souvent comme catégorie de référence celle associée au plus faible risque de présenter l évènement défavorable (ainsi tous les OR associés aux autres catégories sont supérieurs à 1). Des résultats présentant des coefficients ou OR élevés doivent être examinés prudemment : ils peuvent révéler des problèmes d estimation des paramètres suite au choix d une catégorie de référence avec peu d observations. Il est plus judicieux de choisir comme catégorie de référence celle avec le maximum d observations, ou de regrouper des catégories. Dans le cas d une covariable qualitative ordinale avec un nombre de modalités élevé (exemple : réponses possibles à un questionnaire sur l échelle de Likert allant de 1 = «Pas du tout» à7=«toutàfait»),celle-ci peut être étudiée comme une variable quantitative si l hypothèse de linéarité est vérifiée (voir paragraphe suivant). Variables quantitatives et hypothèses dérivées du modèle En régression linéaire, Y est prédite par une combinaison linéaire des variables explicatives X 1,X 2,...X p (voir équation tableau 1). Cette hypothèse de linéarité implique qu une variation (augmentation ou une diminution) de a unités d une variable explicative quantitative X 1 a le même effet sur Y quelle que soit la valeur de X 1 (et à valeurs constantes des autres covariables X 2,...X p ). Par exemple, si dans la régression linéaire du taux de cholestérol sur l âge chez les adultes, la pente vaut 0,01g/L, alors ceci implique que chaque année le taux de cholestérol augmente de 0,01 g/l, et ce, quel que soit l âge du sujet. Cette hypothèse peut se vérifier facilement de manière graphique, en représentant le taux de cholestérol en fonction de l âge et en vérifiant l alignement des points sur une droite. En régression logistique, le logit(π) est prédit par une combinaison linéaire des variables explicatives X 1,X 2,...X p (voir équation tableau 1). Cette hypothèse de linéarité du logit (ou linéarité du log-odds) implique qu une variation de a unités d une variable explicative quantitative X 1 a le même effet sur le risque de succès de Y (odds ratio) quelle que soit la valeur de X 1 (et à valeurs constantes des autres covariables X 2,...X p ). Par exemple, si dans la régression logistique d une maladie sur l âge, le coefficient de régression vaut 0,07 alors l odds ratio pour une augmentation de 10 ans est estimé à OR = exp(0,07 10) = 2. Ceci implique que pour toute augmentation de 10 ans d âge, le risque de maladie est deux fois plus élevé (que l on compare un individu de 40 ans à un individu de 30 ans, un individu de 30 ans à un individu de 20 ans, etc.). Si ces hypothèses de linéarité ne sont pas vérifiées entre Y (ou logit(π)) et la covariable considérée X, il faut envisager un autre type de relation et transformer la variable 364 STV, vol. 23, n o 7, septembre 2011

6 Y et/ou la covariable. La non-linéarité peut être prise en compte par des termes polynomiaux (X 2, X 3, X 4,...), des transformations logarithmiques, ou des combinaisons de transformations plus complexes (polynômes fractionnaires par exemple). [6]. Pour des choix bibliographiques ou de présentation, les variables quantitatives peuvent également être transformées en variables qualitatives (on dit alors qu on «catégorise» la variable). La création de deux catégories seulement (dichotomisation) est néanmoins déconseillée car elle entraîne (entre autres) une perte d information et une réduction de la puissance [7]. Comment vérifier la validité du modèle? Effectuer la régression linéaire de Y sur X 1, X 2,..., X p consiste à déterminer β 0, β 1, β 2,..., β p. C est en testant si β i = 0 que l on teste l association entre la covariable X i et Y. Le résultat du test n est valide que si les résidus, c est-à-dire les erreurs entre les valeurs observées de Y et leur estimation dérivée du modèle, suivent une distribution normale de moyenne nulle, de même variance (hypothèse d homoscédasticité) et s ils ne sont pas corrélés entre eux (hypothèse d indépendance). Ces hypothèses peuvent être vérifiées par des tests ou de manière plus pratique à l aide de graphiques : 1) distribution des résidus et graphique des résidus en fonction des covariables (la dispersion des résidus doit être homogène autour de zéro), et 2) QQplot (ou diagramme quantile-quantile) représentant les quantiles de la distribution de l échantillon en fonction des quantiles de la distribution normale (gaussienne) (les points doivent être quasiment alignés sur la première bissectrice y=x) 4. Ces résultats sont toutefois rarement présentés dans les publications. En régression logistique, les erreurs entre les valeurs observées de Y et leur estimation dérivée du modèle suivent une distribution binomiale dont le paramètre de probabilité est π (les erreurs représentent l écart entre la valeur observée et la probabilité π connaissant X 1,X 2,...,X p ). Cette hypothèse ne nécessite pas de vérification particulière. Comment mesurer la qualité d ajustement du modèle aux données? De nombreux critères de qualité d ajustement (adéquation, goodness-of-fit en anglais) ont été proposés dans la litté- 4 En toute rigueur, Y devrait avoir une distribution normale, la relation entre Y et les covariables devrait être linéaire, et la variance de Y devrait être la même quelles que soient les valeurs des covariables. Cependant, on se contente souvent de vérifier les conditions de validité sur les résidus car elles découlent des hypothèses précédemment citées. rature. Ils permettent de juger de la qualité d un modèle, et sont étroitement liés à la méthode d estimation des paramètres. Le critère le plus connu utilisé en régression linéaire est le coefficient de détermination ou R 2, qui correspond à la part de variation expliquée par le modèle de régression. C est une grandeur qui varie entre 0 et 1. Plus la valeur du R 2 est proche de 1, plus la qualité d ajustement du modèle est bonne. Dans le cas de la régression linéaire simple, le R 2 correspond au carré du coefficient de corrélation linéaire (ou coefficient de Pearson) entre la variable à expliquer et la variable explicative. Dans le cas de la régression linéaire multiple, plus le nombre de variables explicatives est élevé, plus R 2 va se rapprocher de 1, on privilégie alors comme critère le R 2 ajusté qui tient compte du nombre de variables explicatives incluses dans le modèle (R 2 ajusté a comme propriété d être toujours inférieur à R 2 ). Des critères dérivés du R 2, nommés pseudo-r 2, ont été définis dans le cas de variables à expliquer qualitatives. Cependant, ces critères sont moins informatifs que le R 2 en régression linéaire sur la qualité d ajustement du modèle. Hosmer et Lemeshow ont proposé une statistique notée C qui permet de tester la qualité d ajustement du modèle aux données [8]. Elle correspond à une statistique du Khi-Deux de Pearson entre les probabilités observées et attendues. Si le degré de signification p est supérieur à 0,05, alors on ne rejette pas l hypothèse nulle et l ajustement aux données est considéré comme bon. La plupart des logiciels statistiques présentent dans les résultats la statistique C de Hosmer et Lemeshow et le test associé. D autres mesures appelées diagnostics de régression permettent également de vérifier que le modèle a une bonne qualité d ajustement [8]. Enfin le pouvoir discriminant du modèle de régression logistique, c est-à-dire sa qualité prédictive, peut être étudié par les taux de bon et mauvais classements des données, et à l aide de la courbe ROC (receiver operating characteristic). L aire sous la courbe, qui varie entre 0 et 1, donne une mesure de la capacité du modèle à discriminer les cas positifs des cas négatifs. En règle générale, la discrimination est considérée : nulle si l aire sous la courbe ROC = 0,5 ; acceptable si l aire sous la courbe appartient à [0,7 ; 0,8[ ; excellente si l aire sous la courbe appartient à [0,8 ; 0,9[ ; et exceptionnelle si l aire sous la courbe est supérieure ou égale à 0,9. Si l aire sous la courbe ROC est égale à 1 alors le modèle est parfaitement discriminant. Quelles sont les stratégies de modélisation? Les étapes Il n existe pas de stratégie unique de modélisation multivariée, mais quel que soit le type de modèle, les mêmes STV, vol. 23, n o 7, septembre

7 étapes sont généralement recommandées. La stratégie proposée par Hosmer et Lemeshow comprend 5 étapes: (1) analyse univariée, (2) choix des variables candidates au modèle multivarié, (3) identification des variables à conserver dans le modèle multivarié, (4) étude des interactions, (5) vérification de l adéquation et des hypothèses du modèle [9]. La sélection des variables candidates au modèle multivarié consiste à considérer deux types de variables : celles dont le test univarié a une p-valeur inférieur à un seuil prédéfini (Hosmer et Lemeshow recommandent un seuil de 0,25 mais on peut trouver dans la littérature des seuils plus restrictifs p < 0,15 ou 0,20), et celles qui sont cliniquement importantes (facteurs de risque et facteurs de confusion connus). Une procédure de sélection, parmi les suivantes, est alors appliquée : sélection ascendante («forward») : les variables les plus significatives (p-valeur les plus petites et inférieures au seuil de significativité choisi) sont incluses une à une jusqu à ce que plus aucune variable ne puisse être incluse dans le modèle (variables non significatives) ; sélection descendante («backward») : toutes les variables sont incluses dans le modèle puis les variables les moins significatives (p-valeur les plus élevées et supérieures au seuil de significativité choisi) sont retirées une à une jusqu à ce que toutes les variables restantes soient significatives ; sélection pas à pas («stepwise») : combinaison des deux méthodes ascendante et descendante ; sélection du meilleur sous-ensemble : parmi tous les modèles possibles, sélection du meilleur modèle selon un critère spécifié. Ce critère peut être par exemple le R 2 ou le R 2 ajusté dans le cadre de la régression linéaire, le C(p) de Mallows, ou des critères dits d information dont les calculs prennent en compte la vraisemblance du modèle et le nombre de variables explicatives. Les critères d information les plus célèbres sont le critère AIC d Akaike (Akaike Information Criterion) et le critère BIC de Schwarz (Bayesian Information Criterion). La valeur en elle-même de ces critères est peu informative mais ils permettent de comparer des modèles emboités entre eux 5. Le meilleur modèle est celui minimisant les critères d information ou le C(p) de Mallows, tandis qu en régression linéaire, le meilleur modèle est celui maximisant le R 2 ou le R 2 ajusté. Remarque : Un facteur de risque non significatif en analyse univariée peut être un facteur de risque significatif 5 Un modèle de régression M1 est dit emboîté dans un modèle M2, s il diffère simplement d une ou plusieurs covariables : M1 est le même modèle que M2 (même loi de distribution, appliqué sur les mêmes donnés) mais une ou plusieurs covariables ont été retirées. en analyse multivariée si les facteurs de confusion sont pris en compte (c est-à-dire inclus dans le modèle multivarié) [10]. Les variables candidates au modèle multivarié doivent donc être minutieusement étudiées. De plus, si l inclusion d une variable influence fortement les coefficients des autres variables, il est important de l inclure dans le modèle final même si elle n est pas significative (c està-dire la forcer dans le modèle). Le choix des variables du modèle est une étape délicate, souvent longue et minutieuse, qu il faut savoir ne pas laisser au seul choix du logiciel de statistique utilisé. Ainsi, parfois au prix d une petite perte de qualité statistique, on aura un gain appréciable épidémiologique [11]. Les problèmes de colinéarité Un des problèmes récurrents en régression est la colinéarité c est-à-dire des variables explicatives très corrélées. Les coefficients deviennent alors incohérents et des variables ne seront pas retenues dans le modèle car à tort non significatives. Avant d envisager un modèle de régression multiple, il convient donc d examiner les corrélations entre les covariables. Des variables trop fortement corrélées ne doivent pas être incluses simultanément dans un modèle. De plus, Peduzzi et al. ont montré qu au moins 10 évènements par variable (EPV) sont nécessaires pour garantir la stabilité d un modèle (régression logistique ou de Cox) [12]. Par exemple, dans une étude avec 100 sujets, si 60 sont malades alors il est recommandé de ne pas inclure plus de 4 variables dans le modèle de régression multiple (on calcule le nombre de variables en considérant l évènement le plus rare : ici 40 sujets non malades). Disposer d au moins 10 sujets par covariable est devenue une règle générale pour les modèles multivariés. Le principe de parcimonie Le choix des variables explicatives doit être guidé par le principe de parcimonie qui consiste à retenir le modèle le plus simple (ou modèle «le moins couteux») donnant un ajustement satisfaisant. Si deux modèles ont des qualités proches, on retiendra celui contenant le moins de covariables. Exemple 1 : Modèle de régression linéaire Données illustratives La partie concernant le modèle de régression linéaire est illustrée par des mesures prises sur 21 enfants (11 filles et 10 garçons) âgés de 3à11ans(données fictives). 366 STV, vol. 23, n o 7, septembre 2011

8 Tableau 2. Résultats de la régression linéaire simple de la taille sur l âge et de la régression linéaire multiple de la taille sur l âge et le sexe. Estimate Standard Error T value Pr(> t ) Régression linéaire simple de la taille sur l âge Constante 75,2201 3, ,83 <,0001 Age 6,1966 0, ,49 <,0001 Régression linéaire multiple de la taille sur l âge et le sexe Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/2017. Constante 74,0972 2, ,043 <,0001 Age 6,0100 0, ,712 <,0001 Sexe (garçon) 5,1087 1,6463 3,103 0,0061 Régression linéaire simple (figure 2 ; tableau 2, partie supérieure) Sur la figure 2A, les croix correspondent aux valeurs observées (x i,y i ) de l âge et de la taille, le carré au point moyen (x,y), et la droite à la droite de régression minimisant la somme des carrés des résidus (écarts entre les valeurs observées y i et la droite). L âge moyen des enfants est 7 ans et la taille moyenne est 119 cm : x = 7,019 et y = 118,714 cm. L équation de la régression linéaire de la taille sur l âge s écrit taille = 75,22 + 6,20 age (tableau 2, partie supérieure). Ainsi, la taille augmente en moyenne de 6,20 cm par année (pente). La constante correspond à la taille moyenne pour une valeur de l âge x = 0 an,c est-à-dire à la naissance. Ici, il s agit d une simple extrapolation puisque tous les enfants sont âgés de plus de 3 ans. L équation permet également de prédire (estimer) des tailles pour des âges donnés. Les deux dernières colonnes du tableau indiquent la valeur t = 14,49 (6,1966/0,4276) et la p-valeur du test bilatéral β 1 = 0 (test de Student, n-2 = 19 degrés de liberté). La p-valeur est inférieure à 0,001, donc l hypothèse nulle β 1 = 0 est rejetée. L estimation de la pente étant supérieure à 0, il existe une association positive entre l âge et la taille. Enfin, l erreur standard permet de déterminer l intervalle de confiance à 95 % (IC 95 %) de la pente : 6,20 ± t 0,975 0,43 = 6,20 ± 0,90. L IC 95% de la pente ne contenant pas 0, l hypothèse nulle β 1 = 0 est bien rejetée. La représentation graphique des résidus en fonction de l âge (figure 2B) montre une dispersion homogène des résidus autour de 0, et le QQplot (figure 2C) indique que la distribution des résidus est proche d une distribution normale (points quasiment alignés sur la droite en pointillés) : les conditions de validité du modèle sont donc acceptables. Le coefficient R 2 est égal 0,92 indiquant que 92 % de Taille A Age Residuals B Age Sample Quantiles C Theoretical Quantiles Figure 2. Régression linéaire de la taille sur l âge. A) Relation entre l âge et la taille et droite de régression linéaire. B) Représentation graphique des résidus en fonction de l âge. C) QQplot (diagramme quantile-quantile). STV, vol. 23, n o 7, septembre

9 Tableau 3. Description des variables de l étude UIS. Nom de la variable Description Codes/Valeurs ID Code identifiant du sujet 1 à 575 AGE Âge à l inclusion Années BECK Score de dépression de Beck à l inclusion 0à54 Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/2017. IVHX Antécédents d utilisation de médicaments par voie IV NDRUGTX Nombre de traitements antérieurs =Jamais, 2=Dans le passé, 3=Récemment RACE Couleur du sujet (race) 0=Blanc, 1=Autre TREAT Traitement randomisé 0=Court, 1=Long SITE Site de traitement 0=A, 1=B DFREE Retour à l utilisation de médicaments avant la fin du programme de traitement la variabilité de la taille est expliquée par la variation de l âge. Régression linéaire multiple (tableau 2, partie inférieure) Lorsqu il y a m variables explicatives, une représentation graphique n est plus possible (il s agit de minimiser la somme des carrés des distances entre les valeurs observées de Y et un hyperplan de dimension m). De même, l estimation des paramètres du modèle nécessite l utilisation d un logiciel statistique. Les résultats de la régression multivariée de la taille en fonction de l âge et du sexe (dont les conditions de validité étaient vérifiées) indiquent qu à âge identique, les garçons ont une taille significativement plus élevée que les filles (p =0,0061) : en moyenne, les garçons mesurent 5,1 cm de plus. Le sexe «fille» étant la catégorie de référence, par défaut le codage utilisé est 0. Ainsi, la taille d une fille de 5 ans est estimée à 74,1 + 6, ,1 0 = 104,1 cm. L introduction de l interaction âge sexe (résultats non montrés) indiquait que la relation entre âge et taille n était pas différente selon le sexe (p =0,29). À noter que ce type de régression linéaire incluant une variable explicative quantitative et une variable explicative qualitative s appelle une analyse de covariance (ou ANCOVA). 1=Resté sans médicament 0=Sinon Exemple 2 : modèle de régression logistique dichotomique Données illustratives (tableau 3) La partie concernant le modèle de régression logistique est illustrée par des données de l étude UIS (University of Massachussetts Aids Research Unit (UMARU) Impact Study), reprise par Hosmer et Lemeshow dans leur livre sur la régression logistique appliquée [13]. L objectif de cette étude était de comparer deux programmes de traitement (de durée différente) visant à réduire l abus de médicament et prévenir les comportements à haut risque dans le HIV. Un des critères de jugement était si le sujet était resté sans médicament («drug-free») plus d un an après la randomisation au traitement. Sur les 575 sujets analysés, 147 (25,6 %) étaient restés sans médicaments pendant au moins un an. Le lecteur pourra trouver sur un site web de l Université de Californie à Los Angeles (UCLA), la plupart des codes SAS, SPSS et Stata correspondant aux analyses décrites dans le livre de Hosmer et Lemeshow [14]. Régression logistique simple Les deux premières colonnes du tableau 4 présentent les résultats de l analyse univariée (odds ratio bruts et leurs 368 STV, vol. 23, n o 7, septembre 2011

10 Tableau 4. Résultats de la régression logistique simple et de la régression logistique multiple incluant les covariables significatives au seuil 0,25 en analyse univariée pour l étude UIS. Analyse univariée Analyse multivariée* OR (IC 95 %) p-valeur OR ajusté (IC 95 %) p-valeur AGE 1,20 (0,89 ; 1,62) 0,237 1,65 (1,18 ; 2,32) 0,004 BECK 0,96 (0,87 ; 1,06) 0,425 Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/2017. NDRUGTX 0,93 (0,88 ; 0,97) < 0,001 0,94 (0,89 ; 0,99) 0,016 IVHX 0,001 0,009 Jamais 1 1 Passé 0,62 (0,37 ; 1,04) 0,55 (0,31 ; 0,96) Récent 0,46 (0,30 ; 0,70) 0,48 (0,29 ; 0,79) RACE 0,032 0,311 Blanc 1 1 Autre 1,58 (1,04 ; 2,39) 1,25 (0,81 ; 1,94) TREAT 0,023 0,026 Court 1 1 Long 1,55 (1,06 ; 2,26) 1,56 (1,05 ; 2,30) SITE 0,197 0,494 A 1 1 B 1,30 (0,87 ; 1,94) 1,16 (0,76 ; 1,78) * Modèle multivarié avec les covariables significatives au seuil 0,25 en analyse univariée Odds ratio pour une augmentation de 10 ans Odds ratio pour une augmentation de 5 points intervalles de confiance à 95 % (IC 95 %), p-valeur). La variable IVHX était significativement associée à la variable DFREE (p = 0,001). Un patient qui avait déjà utilisé dans le passé des médicaments par voie IV (IVHX = 2) avait 38 % de chance en moins (OR = 0,62 [IC 95 % : 0,37 ; 1,04]) de ne pas prendre de médicament avant la fin du programme (DFREE = 1) qu un patient n ayant jamais utilisé ce type de médicaments (IVHX = 1). Les patients âgés avaient tendance à rester plus facilement sans médicament que les patients jeunes mais cette différence n était pas significative (OR = 1,20 [IC 95 % : 0,89 ; 1,62] pour une augmentation de 10 ans, p = 0,237] Régression logistique multiple Une fois l analyse univariée effectuée (étape (1) selon Hosmer et Lemeshow), les variables dont le test univarié avait une p-valeur < 0,25 et les variables cliniquement importantes étaient candidates au modèle multivarié (étape (2)). Le score de Beck (variable BECK) dont la p-valeur STV, vol. 23, n o 7, septembre

11 était 0,425 en analyse univariée n était donc pas retenu à cette étape. Les deux dernières colonnes du tableau 4 présentent les résultats du modèle multiple (odds ratio ajustés et IC 95 %, p-valeur) incluant les covariables significatives au seuil 0,25 en analyse univariée. Un patient sous traitement à longue durée (TREAT = 1) avait 1,56 fois plus de chance (OR = 1,56 [IC 95 % : 1,05 ; 2,30]) de rester sans prendre de médicament dans les 12 mois (DFREE = 1) qu un patient sous traitement à courte durée (TREAT = 0) ayant les mêmes caractéristiques par ailleurs (mêmes valeurs pour les autres covariables du modèle). Un patient qui avait utilisé récemment des médicaments par voie IV (IVHX = 3) avait 2 fois moins de chance (OR = 0,48 [IC 95 % : 0,29 ; 0,79]) de rester sans prendre de médicament avant la fin du programme (DFREE = 1) qu un patient n ayant jamais utilisé ce type de médicaments (IVHX = 1). L association pour la variable âge était plus forte après ajustement sur les autres variables. En revanche, les associations pour les variables SITE et RACE étaient moins fortes et non significatives selon le test de Wald (p = 0,494 et p = 0,311). Cependant, ces variables étaient considérées comme suffisamment importantes pour être conservées dans le modèle multivarié. L étape (3) étant terminée, l hypothèse de linéarité pour les variables quantitatives AGE et NDRUGTX devait être vérifiée (étape (4)). Celle-ci était vérifiée pour l âge, en revanche la variable NDRUGTX devait être décomposée en deux termes. Enfin, les interactions entre variables étaient considérées (étape (5)). Quinze paires d interactions étaient possibles, mais seules les interactions significatives au seuil 10 % (p 0,10) étaient ajoutées au modèle à effets principaux. Deux interactions significatives au seuil 5 % étaient finalement retenues dont l interaction RACE SITE (résultats non présentés). Ceci signifiait que la différence de risque (de ne pas prendre de médicament avant la fin du programme) entre les personnes de couleur blanche et d autres couleurs variait selon le site de traitement. Les odds ratio associés à la couleur Autre (RACE = 1) par rapport à la couleur Blanche (RACE = 0) étaient estimés à 1,98 [IC 95 % : 1,18 ; 3,33] et 0,47 [IC 95 % : 0,19 ; 1,18] pour les sites A et B respectivement. La statistique C de Hosmer et Lemeshow de ce modèle multiple (à effets principaux et interactions significatifs) était estimée à 4,39 avec une p-valeur associée égale à 0,820 indiquant une bonne adéquation du modèle aux données. L aire sous la courbe ROC était 0,70. Discussion Les conclusions des recherches médicales sont souvent fondées sur les résultats des modèles de régression multiple afin de décrire au mieux l association entre deux variables en contrôlant l effet d autres variables. Il est donc essentiel que le clinicien connaisse le principe de ces modèles, leurs hypothèses et leur interprétation pour pouvoir faire une lecture critique de la littérature médicale. Conflits d intérêts : aucun Références 1. Falissard B. Comprendre et utiliser les statistiques dans les sciences de la vie. Paris : Masson, 1998 : Labreuche J. Les différents types de variables, leurs représentations graphiques et paramètres descriptifs. Sang Thrombose Vaisseaux 2010 ; 22 : Bouyer J, Hémon D, Cordier S, et al. Epidémiologie - Principes et méthodes quantitatives. Paris : Les Editions INSERM, 1995 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Royston P, Altman DG. Regression using fractional polynomials of continuous covariates: parsimonious parametric modelling (with discussion). Appl Stat 1994 ; 43 : Royston P, Altman DG, Sauerbrei W. Dichotomizing continuous predictors in multiple regression: a bad idea. Stat Med 2006; 25: Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Sun GW, Shook TL, Kay GL. Inappropriate use of bivariable analysis to screen risk factors for use in multivariable analysis. J Clin Epidemiol 1996 ; 49 : Bouyer J, Hémon D, Cordier S, et al. Epidémiologie - Principes et méthodes quantitatives. Paris : Les Editions INSERM, 1995 : Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR. A simulation study of the number of events per variable in logistic regression analysis. J Clin Epidemiol 1996 ; 49 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed.new York : Wiley, 2000 : SAS Textbook Examples: Applied Logistic Regression, 2nd, by Hosmer and Lemeshow. UCLA: Academic Technology Services, Statistical Consulting Group. (accessed April 18, 2011). 370 STV, vol. 23, n o 7, septembre 2011

Application à la base de données du TITANIC. Bérangère BERTHO & Laura SEBILLE

Application à la base de données du TITANIC. Bérangère BERTHO & Laura SEBILLE Application à la base de données du TITANIC Bérangère BERTHO & Laura SEBILLE Partie 1 : Généralités Partie 2 : Interprétations Partie 3 : Pour un meilleur modèle 2 1. Principe et estimation 2. Bonne ou

Plus en détail

Régression logistique. Dr Cécile Couchoud

Régression logistique. Dr Cécile Couchoud Régression logistique Dr Cécile Couchoud But de la régression logistique Modélisation d une variable dépendante (que l on veut prédire ou expliquer) qualitative dichotomique : sains/malades, exposés/non

Plus en détail

Population et Échantillon. Principes des Tests et Tests

Population et Échantillon. Principes des Tests et Tests Population et Échantillon Principes des Tests et Tests Pr Roch Giorgi LERTIM, Faculté de Médecine, Université de la Méditerranée, Marseille, France http://cybertim.timone.univ-mrs.fr Population et Échantillon

Plus en détail

Mini-Glossaire de Statistique Descriptive - Jean VAILLANT

Mini-Glossaire de Statistique Descriptive - Jean VAILLANT Mini-Glossaire de Statistique Descriptive - Jean VAILLANT Amplitude d une classe (ou d un intervalle) : C est la longueur de l intervalle. L amplitude de la classe ]a i 1 ; a i ] est a i a i 1. Exemple

Plus en détail

Régression logistique

Régression logistique Régression logistique Erik-André Sauleau - Nicolas Meyer erik-andre.sauleau@medecine.u-strasbg.fr - nmeyer@unistra.fr Laboratoire de Biostatistiques - Faculté de Médecine Pôle de Santé Publique CHU - STRASBOURG

Plus en détail

Chapitre 9 Corrélation - Régression Exercices commentés. José LABARERE

Chapitre 9 Corrélation - Régression Exercices commentés. José LABARERE UE4 : Biostatistiques Chapitre 9 Corrélation - Régression Exercices commentés José LABARERE Année universitaire 2011/2012 Université Joseph Fourier de Grenoble - Tous droits réservés. Exercice I Les notes

Plus en détail

Économétrie. Francesco Quatraro M1 EFM 2010/2011

Économétrie. Francesco Quatraro M1 EFM 2010/2011 Francesco Quatraro M1 EFM 2010/2011 1 Pour mieux comprendre le concept de multicolinéarité on peut partir de la corrélation partielle Considérons l exemple du marchand de glaces prés de la tour Eiffel

Plus en détail

Régression logistique multinomiale avec TANAGRA

Régression logistique multinomiale avec TANAGRA Objectif Régression logistique multinomiale. La régression logistique est très répandue pour les problèmes de prédiction ou d explication d une variable dépendante binaire (malade oui/non, défaillance

Plus en détail

Analyse de la variance

Analyse de la variance Plan Analyse de la variance - Chapitre VI - Notes de cours Statistique L3 MIASHS - Université de Bordeaux - Chapitre VI - L3 MIASHS- Analyse de la variance 1/37 Plan Plan 1 Introduction 2 3 4 5 - Chapitre

Plus en détail

Théorie de la décision (corrélation et régression)

Théorie de la décision (corrélation et régression) Théorie de la décision (corrélation et régression) Corrélation et régression Objectifs Vérifier l'existence d'association entre deux variables Exprimer la loi de cette relation? Applications Concordance

Plus en détail

CSE II. Biométrie et statistiques B2 1710E

CSE II. Biométrie et statistiques B2 1710E CSE II Biométrie et statistiques B2 1710E 1 Rappel : Présentation des données sous forme de tableaux et de graphiques : effectif, fréquence relative Calcul des paramètres de tendance centrale et de dispersion

Plus en détail

Régression linéaire multiple

Régression linéaire multiple 1 1 IRMA, Université de Strasbourg France ESIEA 08-03-2012 Régression linéaire simple Exemple Affiner le modèle Exemple : Issu du livre «Statistiques avec R», P.A. Cornillon, et al., Deuxième édition,

Plus en détail

Corrélation - Régression

Corrélation - Régression Corrélation - Régression Biostatistiques Erik A. Sauleau - Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg 23 Mars 2011 Plan 1 Introduction 2 Le coefficient

Plus en détail

Master 1 de Santé Publique. UE de biostatistique : cours 8. Régression linéaire

Master 1 de Santé Publique. UE de biostatistique : cours 8. Régression linéaire Master 1 de Santé Publique UE de biostatistique : cours 8 Régression linéaire 1. Définition, estimation et test M1 de Santé Publique Biostatistique - Cours 8 - Régression linéaire 1 1 Liaison entre variables

Plus en détail

V. COMPARER, RELIER OU CROISER DES DONNEES

V. COMPARER, RELIER OU CROISER DES DONNEES V. COMPARER, RELIER OU CROISER DES DONNEES V.1. Associer une variable quantitative et une variable qualitative o Doivent être mesurées sur les mêmes unités statistiques. o Répartition des unités de l échantillon

Plus en détail

Statistiques - Ajustement de courbes

Statistiques - Ajustement de courbes Statistiques - Ajustement de courbes 1 Rappels de Statistiques 1.1 Moyenne, variance, écart-type Soit une série statistique : x 1, x 2, x n (n valeurs) Moyenne x = 1 n x i n i=1 Somme des carrés des écarts

Plus en détail

Corrélation, régression

Corrélation, régression Corrélation, régression Les statistiques unidimensionnelles ne permettent pas de résumer toute l information contenue dans les données. L étude des variables deux à deux va permettre de détecter d éventuelles

Plus en détail

12. Régression linéaire simple

12. Régression linéaire simple 12. Régression linéaire simple MTH2302D S. Le Digabel, École Polytechnique de Montréal A2016 (v1) MTH2302D: régression 1/45 Plan 1. Introduction 2. Régression linéaire simple 3. Estimation des paramètres

Plus en détail

On considère que la variable «taux de sucre» suit une loi normale et on choisit un risque de 5%.

On considère que la variable «taux de sucre» suit une loi normale et on choisit un risque de 5%. Question 1 (1050) Suite à une grande étude épidémiologique sur les infections opportunistes chez le sidéen sur un échantillon de 400 000 patients observés en structure hospitalière, on observe 100 000

Plus en détail

SCORE DE PROPENSION PROPENSITY SCORE. Virginie Migeot

SCORE DE PROPENSION PROPENSITY SCORE. Virginie Migeot 1 SCORE DE PROPENSION PROPENSITY SCORE STAFF SANTE PUBLIQUE - 11 janvier 2012 Virginie Migeot 2? Traitement Evénement 3 4 Expérimentale Comparabilité des groupes (randomisation, procédure d insu) Limite

Plus en détail

Écrire / Lire un Article Principes de Base

Écrire / Lire un Article Principes de Base Écrire / Lire un Article Principes de Base Dr Julien Mancini julien.mancini@univmed.fr Laboratoire d Enseignement et de Recherche sur le Traitement de l Information Médicale Faculté de Médecine de Marseille,

Plus en détail

Choix du modèle. Frédéric Bertrand et Myriam Maumy. Master 1ère Année Strasbourg, France

Choix du modèle. Frédéric Bertrand et Myriam Maumy. Master 1ère Année Strasbourg, France 1 1 IRMA, Université Louis Pasteur Strasbourg, France Master 1ère Année 11-02-2008 Critère du R 2 Critère du R 2 ajusté Le critère du C p de Mallows Les critères AIC et AIC c Le critère BIC Il existe plusieurs

Plus en détail

Corrigé de l exercice 8

Corrigé de l exercice 8 Corrigé de l exercice 8 Statistique II SP08 Enseignant: Jean-François Bickel 1 Contenu de l exercice Sur la base du fichier de données SHP_Ex8.sav, l exercice consiste en l analyse, au moyen d une régression

Plus en détail

Aurélien VESIN - Institut Albert Bonniot Grenoble (Version du 02/2012)

Aurélien VESIN - Institut Albert Bonniot Grenoble (Version du 02/2012) La régression de Poisson Théorie et Applications SAS Albert Bonniot Grenoble (Version du 02/2012) Introduction Principe : Modéliser une variable discrète positive En principe un nombre de quelque chose

Plus en détail

Statistique descriptive Notes de cours

Statistique descriptive Notes de cours L1 MASS 2013-2014 Statistique descriptive Notes de cours Hélène Boistard Université Toulouse 1 - Capitole www.boistard.fr Table des matières 1 Les données statistiques 4 1.1 Les variables statistiques

Plus en détail

N.MOLINARI. La statistique. Schéma général de la statistique. La variabilité. 2 ème cycle DCEM1 MB6 Année Universitaire

N.MOLINARI. La statistique. Schéma général de la statistique. La variabilité. 2 ème cycle DCEM1 MB6 Année Universitaire Biostatistique MB6 2008-2009 Nicolas Molinari La statistique Ce document doit obligatoirement être associé aux notes de cours pour représenter un support de travail complet. La statistique ti ti est un

Plus en détail

Chapitre 0. Comment caractériser l activité du statisticien? 12 I Le contexte II La démarche III Le modèle... 14

Chapitre 0. Comment caractériser l activité du statisticien? 12 I Le contexte II La démarche III Le modèle... 14 Statistique inférentielle Objectif du cours C e cours comprend l essentiel des notions de statistique mathématique, principalement paramétrique, avec une introduction au cas non-paramétrique. Les notions

Plus en détail

Statistique n 1 Susanna Davoust

Statistique n 1 Susanna Davoust CORRECTION de la Conférence du 28 Septembre 2010 Statistique n 1 Susanna Davoust Question de Statistiques Section I : -16. Statistique descriptive : estimation des paramètres d une population, intervalle

Plus en détail

Analyse de la variance à deux facteurs : dispositif équilibré

Analyse de la variance à deux facteurs : dispositif équilibré Analyse des données - Méthodes explicatives (STA102) Analyse de la variance à deux facteurs : dispositif équilibré Giorgio Russolillo Departement IMATH CNAM giorgio.russolillo@cnam.fr Introduction Giorgio

Plus en détail

Protocole d étude de l évaluation des résultats des centres de FIV Activité 2012-

Protocole d étude de l évaluation des résultats des centres de FIV Activité 2012- Protocole d étude Evaluation des résultats des centres de FIV -Activité 2012- Contexte Depuis 2005, l Agence de la biomédecine a pour mission de suivre et d évaluer les activités cliniques et biologiques

Plus en détail

Enoncé commun pour les QCM 1 à 4

Enoncé commun pour les QCM 1 à 4 Enoncé commun pour les QCM 1 à 4 La probabilité pour une femme de développer un cancer du sein au cours de la vie est de 0,11. Différents facteurs influencent ce risque ; ainsi, la probabilité est deux

Plus en détail

La régression logistique

La régression logistique 1 1 IRMA, Université Louis Pasteur Strasbourg, France Master 2ème Année 28-11-2005 Ce cours se base sur l ouvrage de Bruno Falissard Comprendre et utiliser les statistiques dans les sciences de la vie,

Plus en détail

UE 1.2 S2 Santé Publique et économie de la santé Outils statistiques

UE 1.2 S2 Santé Publique et économie de la santé Outils statistiques UE 1.2 S2 Santé Publique et économie de la santé Outils statistiques ISPED Institut de Santé Publique, d Epidémiologie et de Développement Université Bordeaux Segalen 1 Plan de l enseignement Introduction

Plus en détail

Page 1. Analyse de variance à un critère de classification (ANOVA) Pourquoi ne pas utiliser plusieurs tests de t? Possibilités et limites de l ANOVA

Page 1. Analyse de variance à un critère de classification (ANOVA) Pourquoi ne pas utiliser plusieurs tests de t? Possibilités et limites de l ANOVA Page Quand utiliser l ANOVA Analyse de variance à un critère de classification (ANOVA) Quand utiliser l ANOVA Les modèles d ANOVA et la répartition des sommes des carrés ANOVA: test d hypothèses ANOVA:

Plus en détail

Exercices 10.3, 11.1, 12.1, 13.6, 14.2, 15.8, 16.4

Exercices 10.3, 11.1, 12.1, 13.6, 14.2, 15.8, 16.4 Université de Lausanne Statistique I non-psy. Cours du professeur André Berchtold Institut des Sciences Sociales Corrigé de la seconde série d exercices supplémentaires Exercices 10.3, 11.1, 12.1, 13.6,

Plus en détail

Analyses de régression pour modéliser des effectifs

Analyses de régression pour modéliser des effectifs Analyses de régression pour modéliser des effectifs Description générale Présenter des analyses de régression appropriées lorsque la variable dépendante (VD) prend que des valeurs entières non négatives

Plus en détail

Contrat didactique du cours de statistique multivariée. Prérequis et articulation avec le cursus :

Contrat didactique du cours de statistique multivariée. Prérequis et articulation avec le cursus : Contrat didactique du cours de statistique multivariée Prérequis et articulation avec le cursus : Connaissances élémentaires en analyse mathématique : notions de dérivation et d intégration. Connaissances

Plus en détail

Corrélation - Régression

Corrélation - Régression Corrélation - Régression Corrélation Mesure le degré de liaison entre deux variables quantitatives Pour qu il y ait série statistique, il faut qu au moins l une des deux variables soit aléatoire. Cas 1

Plus en détail

Rôle des femmes dans la société

Rôle des femmes dans la société Rôle des femmes dans la société Matthieu Pache 14 octobre 2012 Résumé Ce rapport étudie le rôle des femmes dans la société en analysant des données recueillies dans un sondage. Ce-dernier consiste à demander

Plus en détail

Statistiques non paramétriques Comparaison de "moyennes"

Statistiques non paramétriques Comparaison de moyennes 1 / 47 Statistiques non paramétriques Comparaison de "moyennes" M-A Dronne 2016-2017 Introduction Rappels Contrairement aux tests paramétriques, les tests non paramétriques ne nécessitent pas l estimation

Plus en détail

Méthodologie et outils statistiques : indicateurs

Méthodologie et outils statistiques : indicateurs Méthodologie et outils statistiques : indicateurs Dr Roch Giorgi roch.giorgi@ap-hm.fr LERTIM, Faculté de Médecine, Université de la Méditerranée, Marseille, France http://cybertim.timone.univ-mrs.fr Préambule

Plus en détail

TABLE DES MATIÈRES. Introduction CHAPITRE I STATISTIQUE DESCRIPTIVE

TABLE DES MATIÈRES. Introduction CHAPITRE I STATISTIQUE DESCRIPTIVE TABLE DES MATIÈRES Introduction... 21 CHAPITRE I STATISTIQUE DESCRIPTIVE I L observation statistique...2 I.1 Concepts de base... 2 I.2 L élaboration de tableaux statistiques... 29 I.21 Étude d un seul

Plus en détail

LES TESTS STATISTIQUES

LES TESTS STATISTIQUES Université Paris IX Dauphine Ecole Doctorale de Gestion B. Goldfarb goldfarb@dauphine.fr C. Pardoux pardoux@dauphine.fr LES TESTS STATISTIQUES 16 décembre 2004 Objectif Éprouver des hypothèses de recherche

Plus en détail

La corrélation : présentation et test du coefficient de corrélation de Pearson

La corrélation : présentation et test du coefficient de corrélation de Pearson La corrélation : présentation et test du coefficient de corrélation de Pearson C. Bardel Septembre 26 Master 2 Neurosciences / 38 Plan du cours Introduction Mesure de la corrélation : covariance et coefficient

Plus en détail

Notions de base en statistique. Dr Cécile Couchoud

Notions de base en statistique. Dr Cécile Couchoud Notions de base en statistique Dr Cécile Couchoud Démarche déductive «Vraie» valeur prévoir la valeur sur un échantillon futur < fluctuations d échantillonnage Intervalle de fluctuation Formule générale

Plus en détail

Le modèle linéaire généralisé (logit, probit,...)

Le modèle linéaire généralisé (logit, probit,...) Le modèle linéaire généralisé (logit, probit,...) Master 2 Recherche SES-IES Analyse de données Ana Karina Fermin Université Paris-Ouest-Nanterre-La Défense http://fermin.perso.math.cnrs.fr/ 1 Modèle de

Plus en détail

Introduction à la modélisation statistique

Introduction à la modélisation statistique Introduction à la modélisation statistique Illustrée avec XLSTAT Jean Paul Maalouf webinar@xlstat.com 29 novembre 2016 www.xlstat.com 1 PLAN XLSTAT : qui sommes-nous? Statistiques : categories Rappel :

Plus en détail

Principe des tests statistiques : Application à la comparaison d une moyenne à une valeur de référence

Principe des tests statistiques : Application à la comparaison d une moyenne à une valeur de référence 1 / 57 Principe des tests statistiques : Application à la comparaison d une moyenne à une valeur de référence M-A Dronne 2016-2017 2 / 57 Introduction Remarques préliminaires Etablir un plan d expérience

Plus en détail

Estimation, Échantillonnage et Tests

Estimation, Échantillonnage et Tests Estimation, Échantillonnage et Tests H. Hocquard HSE 2016-2017 Hervé Hocquard Estimation, Échantillonnage et Tests 1/60 Introduction : les 3 grandes lignes Les statistiques peuvent permettre : Hervé Hocquard

Plus en détail

Méthodes statistiques M /

Méthodes statistiques M / Méthodes statistiques M 1 2 0 1 3 / 2 0 1 4 Tableaux, population, échantillon On rassemble les données dans des tableaux = individus * variables Une ligne = un «individu statistique» (un interviewé, un

Plus en détail

Faculté de Médecine Comité des thèses Année Lecture critique d un article médical

Faculté de Médecine Comité des thèses Année Lecture critique d un article médical Faculté de Médecine Comité des thèses Année 2012 Lecture critique d un article médical Pourquoi une lecture critique? La lecture critique est indispensable: Abondance de la littérature scientifique Lecture

Plus en détail

R-Commander : Notions du chapitre 3. Estimation et tests d hypothèses : problèmes à un échantillon. 1) Présentation du jeu de données 2

R-Commander : Notions du chapitre 3. Estimation et tests d hypothèses : problèmes à un échantillon. 1) Présentation du jeu de données 2 R-Commander : Notions du chapitre 3 Estimation et tests d hypothèses : problèmes à un échantillon 1) Présentation du jeu de données ) Estimation et test sur une moyenne μ..3 a) Test bilatéral et intervalle

Plus en détail

Lecture critique d une étude publiée. Laure HUOT Unité de Recherche Clinique Pôle IMER HCL

Lecture critique d une étude publiée. Laure HUOT Unité de Recherche Clinique Pôle IMER HCL Lecture critique d une étude publiée Laure HUOT Unité de Recherche Clinique Pôle IMER HCL Notions de lecture critique Lecture critique = évaluation du résultat Sa validité scientifique (fiabilité) Son

Plus en détail

Introduction à l analyse de régression. Jean-François Bickel Statistique II SP08

Introduction à l analyse de régression. Jean-François Bickel Statistique II SP08 Introduction à l analyse de régression Jean-François Bickel Statistique II SP08 1 I. Les opérations de la régression 1) Description a) de la relation entre une variable dépendante (y) et une ou plusieurs

Plus en détail

Protocole d étude Evaluation des résultats des centres de FIV -Activité 2013-

Protocole d étude Evaluation des résultats des centres de FIV -Activité 2013- Protocole d étude Evaluation des résultats des centres de FIV -Activité 2013- Contexte Depuis 2005, l Agence de la biomédecine a pour mission de suivre et d évaluer les activités cliniques et biologiques

Plus en détail

Introduction à la régression

Introduction à la régression Introduction à la régression Olivier Godechot Introduction historique : de la droite de régression vers la médiocrité à la droite de régression Galton (cousin de Darwin). Mesure de la taille des descendants

Plus en détail

Epreuves Classantes Nationales Epreuve de Lecture Critique d Article MAI 2014

Epreuves Classantes Nationales Epreuve de Lecture Critique d Article MAI 2014 Epreuves Classantes Nationales Epreuve de Lecture Critique d Article MAI 04 Correction proposée par Karine Lacut Diminution rapide de la pression artérielle chez des patients présentant une hémorragie

Plus en détail

Premières notions de statistique Régression Linéaire

Premières notions de statistique Régression Linéaire Premières notions de statistique Régression Linéaire Franck Picard UMR CNRS-5558, Laboratoire de Biométrie et Biologie Evolutive franck.picard@univ-lyon1.fr F. Picard, 1/59 Outline 1 Principe généraux

Plus en détail

Régression linéaire multiple

Régression linéaire multiple 1 1 IRMA, Université Louis Pasteur Strasbourg, France Master 1ère Année 23-03-2009 Régression linéaire simple Exemple Affiner le modèle Problème : Étude de la concentration d ozone dans l air. Modèle :

Plus en détail

Le score de propension :

Le score de propension : Le score de propension : Comment ça marche? Quand l'utiliser? Pourquoi faut-il y faire attention? Philippe BERTRAND bertrand@med.univ-tours.fr Le problème Dans une étude comparative non randomiséesur 2

Plus en détail

Choix du modèle. Frédéric Bertrand. ESIEA 4ème Année France

Choix du modèle. Frédéric Bertrand. ESIEA 4ème Année France 1 1 IRMA, Université de Strasbourg France ESIEA 4ème Année 06-04-2010 Ce cours s appuie sur l ouvrage suivant «Analyse de régression appliquée» Yadolah Dodge Dunod, 1999 Le lecteur intéressé par ce sujet

Plus en détail

22/11/2011. Cours 10. Le test de moyenne. Test de moyenne avec SPSS. Test de comparaison de moyennes

22/11/2011. Cours 10. Le test de moyenne. Test de moyenne avec SPSS. Test de comparaison de moyennes Cours 10 Test de comparaison de moyennes Le test de moyenne Utilité et postulats d utilisation Les tests paramétriques Les tests non-paramétriques Test de moyenne avec SPSS 2 Le type de test utilisé dépend

Plus en détail

Caroline Elie URC Paris Centre Hôpital Necker

Caroline Elie URC Paris Centre Hôpital Necker Qu est-ce qu un pronostic? Principes des études pronostiques Caroline Elie URC Paris Centre Hôpital Necker Chez un homme de 50 ans, fumeur, traité pour une hypercholestérolémie, et à 15 jours d un infarctus

Plus en détail

Régression linéaire. M-A Dronne / 65

Régression linéaire. M-A Dronne / 65 1 / 65 Régression linéaire M-A Dronne 2016-2017 2 / 65 Introduction Plan du cours (et sans pondération) Autres types de régression Régression linéaire pondérée Régression multiple Régression non linéaire

Plus en détail

25. Méthodes non quantitatives de méta-analyse

25. Méthodes non quantitatives de méta-analyse 25. Méthodes non quantitatives de méta-analyse Par méthodes non quantitatives nous désignerons des techniques de synthèse qui ne s intéressent pas à la taille de l effet, mais seulement à son existence.

Plus en détail

TUTORAT UE Biostatistiques Séance n 6 Semaine du 19/11/2012

TUTORAT UE Biostatistiques Séance n 6 Semaine du 19/11/2012 TUTORAT UE 4 2012-2013 Biostatistiques Séance n 6 Semaine du 19/11/2012 Correction d'annales Séance préparée par l'équipe du TSN QCM n 1 : La randomisation dans un essai thérapeutique (comparaison de deux

Plus en détail

Pronostic du Carcinome HépatoCellulaire :

Pronostic du Carcinome HépatoCellulaire : Pronostic du Carcinome HépatoCellulaire : Comparaison de différentes classifications Sandra Collette Master 2 (Bordeaux 2) Responsables : J-C. Barbare, F. Bonnetain, X. Paoletti 1 Carcinome HépatoCellulaire

Plus en détail

M2 MASS. TP5 : Introduction au logiciel SAS Classification supervisée : Analyses Discriminantes et Régression Logistique

M2 MASS. TP5 : Introduction au logiciel SAS Classification supervisée : Analyses Discriminantes et Régression Logistique Université de Montpellier 2 M2 MASS TP5 : Introduction au logiciel SAS Classification supervisée : Analyses Discriminantes et Régression Logistique 1 Les données On étudie les données du fichier entreprises.txt

Plus en détail

Elemstat /7/3 14 :36 page IX #3 TABLE DES MATIÈRES. Partie I HISTOIRE ET DÉMARCHE... 1

Elemstat /7/3 14 :36 page IX #3 TABLE DES MATIÈRES. Partie I HISTOIRE ET DÉMARCHE... 1 Elemstat-2015 2015/7/3 14 :36 page IX #3 Partie I HISTOIRE ET DÉMARCHE................................................. 1 Chapitre 1 LA STATISTIQUE...........................................................

Plus en détail

Chapitre 5 Les informations qualitatives

Chapitre 5 Les informations qualitatives Chapitre 5 Les informations qualitatives Licence Econométrie / MASS Econométrie II, 7-8 Martin Fournier Fournier@gate.cnrs.fr Econométrie II. Les variables indicatrices Variables «dummy» Econométrie II.

Plus en détail

Séminaire d Epidémiologie Animale Analyse de données de dénombrements et de taux

Séminaire d Epidémiologie Animale Analyse de données de dénombrements et de taux Protocole n 001117004 Le contexte La distribution de Poisson Le modèle de (régression) de Poisson Interprétation des coefficients du modèle de Poisson Exemple : Impact de la FCO sur la mortalité des veaux

Plus en détail

Introduction aux modèles mixtes Comparaison de k moyennes à partir d échantillons non indépendants. 27 mai 2009 Pierre INGRAND

Introduction aux modèles mixtes Comparaison de k moyennes à partir d échantillons non indépendants. 27 mai 2009 Pierre INGRAND Introduction aux modèles mixtes Comparaison de k moyennes à partir d échantillons non indépendants 27 mai 2009 Pierre INGRAND Position du problème. Exemple On cherche à comparer la réponse pharmacologique

Plus en détail

Analyse de la Variance pour Plans à Mesures Répétées

Analyse de la Variance pour Plans à Mesures Répétées Analyse de la Variance pour Plans à Mesures Répétées Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim.univ-amu.fr/ Introduction

Plus en détail

Chapitre 9 Analyse des facteurs explicatifs de l utilisation des services de garde

Chapitre 9 Analyse des facteurs explicatifs de l utilisation des services de garde Chapitre 9 Analyse des facteurs explicatifs de l utilisation des services de garde Les analyses décrites dans les chapitres précédents ont permis de repérer des associations entre, d une part, différents

Plus en détail

Cours Modélisation et inférence statistique Examen

Cours Modélisation et inférence statistique Examen Université Lyon 2 Florence Goffette-Nagot Licence 3 économétrie Année 2007-2008 Cours Modélisation et inférence statistique Examen Déroulement de l examen Deuxième session - Jeudi 26 juin 2008 CORRECTION

Plus en détail

Modèles statistiques

Modèles statistiques 1 1 IRMA, Université Louis Pasteur Strasbourg, France École Doctorale 25-06-2008 Sommaire 1 2 3 Ce premier cours a pour but de faire un rapide exposé de ce que l on appelle un modèle statistique tout en

Plus en détail

TUTORAT UE Biostatistiques Séance n 5 Semaine du 27/10/2014

TUTORAT UE Biostatistiques Séance n 5 Semaine du 27/10/2014 < TUTORAT UE 4 2014-2015 Biostatistiques Séance n 5 Semaine du 27/10/2014 Tests statistiques 2 M. Molinari Séance préparée par Jeanne FABRY et Chloé BUCHALET (ATM²) QCM n 1 : Le tableau suivant indique

Plus en détail

Unité d'enseignement de biostatistiques

Unité d'enseignement de biostatistiques Unité d'enseignement de biostatistiques Examen du 16 janvier 017 Le syndrome d'apnée du sommeil (SAS) se caractérise par des épisodes récurrents d'obstruction des voies respiratoires au cours du sommeil.

Plus en détail

Séminaire d Epidémiologie Animale Méthodes de standardisations

Séminaire d Epidémiologie Animale Méthodes de standardisations La standardisation des taux Standardisation directe Exemple : tuberculose bovine Standardisation indirecte Tuberculose bovine suite Standardisation indirecte ou indirecte? 28-30/09/2011 Service Biométrie

Plus en détail

Statistiques déductives :

Statistiques déductives : I Généralités sur les test d'hypothèse : Statistiques déductives : Dans les statistiques déductives, contrairement aux statistiques descriptives, on essaie, à partir des observations faites, de tirer des

Plus en détail

Exercices sur le modèle de régression linéaire simple

Exercices sur le modèle de régression linéaire simple ESSEC de Tunis Exercices sur le modèle de régression linéaire simple Exercice 1 Le tableau ci-dessous représente l évolution du revenu disponible brut et de la consommation des ménages en euros pour un

Plus en détail

Corrigé de l examen du 22/01/2007

Corrigé de l examen du 22/01/2007 Corrigé de l examen du 22/01/2007 Cogmaster 2006 2007 Partie 1 (5 points) 1 point par réponse(s) correcte(s) à chaque question. 1. oui 2. non 3. oui 4. 0.7 2 = 0.49, soit 49 % 5. Si on note que µ i = µ

Plus en détail

Techniques d enquêtes. Analyse des données. Cours 6. 21/12/02

Techniques d enquêtes. Analyse des données. Cours 6. 21/12/02 I. Introduction. - Analyse univariée : C est l étude de variables une à une (tendance moyenne centrale : Mode, médiane et dispersion : Variance, écart-type). - Analyse bivariée : Etude des relations entre

Plus en détail

Université de Bordeaux Collège Sciences de la Santé CONCOURS PACES - PARAMEDICAUX UE 4

Université de Bordeaux Collège Sciences de la Santé CONCOURS PACES - PARAMEDICAUX UE 4 Université de Bordeaux Collège Sciences de la Santé CONCOURS PACES - PARAMEDICAUX UE 4 Evaluation des méthodes d analyses appliquées aux sciences de la vie et de la santé Jeudi 17 décembre 2015 Durée de

Plus en détail

Journée Annuelle 2013 du Groupe Biopharmacie & Santé. Alexandra Cochinaire ISUP 3 ème Année Filière Biostatistique

Journée Annuelle 2013 du Groupe Biopharmacie & Santé. Alexandra Cochinaire ISUP 3 ème Année Filière Biostatistique Incidence des complications cardiovasculaires du diabète de type 2 entrainant une hospitalisation en France. Une analyse des risques concurrents dans une cohorte rétrospective reconstituée à partir de

Plus en détail

La régression linéaire. Formation Fondamentale

La régression linéaire. Formation Fondamentale Formation Fondamentale Sommaire 1 Modéle statistique Généralités Relation statistique 2 les hypothèses Démarche Propriétés Qualité Tests Sommaire 1 Modéle statistique Généralités Relation statistique 2

Plus en détail

1 Le cas d une variable de Bernoulli (0/1)

1 Le cas d une variable de Bernoulli (0/1) Comprendre les modèles linéaires généralisés Emmanuel Paradis paradis@isem.univ-montp2.fr 15 novembre 2004 1 Le cas d une variable de Bernoulli (0/1) Supposons que l on observe une variable binaire y (habituellement

Plus en détail

Statistique Descriptive II (M1201)

Statistique Descriptive II (M1201) Nathalie Villa-Vialaneix Illustration du cours de Statistique Descriptive II (M1201) Année scolaire 2013/2014 Université de Perpignan Via Domitia, IUT STatistique et Informatique Décisionnelle (STID) Table

Plus en détail

TABLE DES MATIÈRES Introduction Statistique descriptive...21 II. Éléments de probabilité...50

TABLE DES MATIÈRES Introduction Statistique descriptive...21 II. Éléments de probabilité...50 TABLE DES MATIÈRES Introduction... 11 1. Statistique descriptive...21 I-1 Généralités sur les distributions statistiques... 21 I-1-1 Variables statistiques...21 I-1-2 Distribution statistique à une variable...23

Plus en détail

Examen de statistique : UE C14 (EADD/PVIA)

Examen de statistique : UE C14 (EADD/PVIA) Examen de statistique : UE C4 (EADD/PVIA) Date : 6//05. Durée : H00. Consignes : Vos réponses sont à remettre sur une copie séparée. Veillez à bien formuler vos hypothèses quand cela est nécessaire et

Plus en détail

(pour la première fois)?» Effectif enquêté

(pour la première fois)?» Effectif enquêté EXERCICE I : DEPENDANCE ENTRE 1 VARIABLE QUALITATIVE ET 1 VARIABLE QUANTITATIVE. En 2002, une équipe d étudiants pour leur recherche en sciences sociales s intéressent aux effets des caractéristiques familiales

Plus en détail

Analyse des données dans SPSS

Analyse des données dans SPSS Analyse des données dans SPSS Première étape : statistiques descriptives 1. Analyses univariées : Pour chaque variable, réalisez soit une table de fréquence (pour les variables catégorielles), soit (pour

Plus en détail

LES TESTS STATISTIQUES

LES TESTS STATISTIQUES LES TESTS STATISTIQUES E 3 Exercice Pour les 2 exemples ci-dessous, indiquer a) Quelle est l unité d observation? b) Quelle est la taille de l échantillon? c) Quelle est la variable étudiée (ou quelles

Plus en détail

Les outils statistiques pour les plans d expérience :

Les outils statistiques pour les plans d expérience : Les outils statistiques pour les plans d expérience : et régression linéaire André Mas, I3M LMGC, 1er Décembre 2009 1/21 André Mas, I3M Outils statistiques Plan de l exposé Préliminaires 1 Préliminaires

Plus en détail

Questions pratiques 2: l inférence causale

Questions pratiques 2: l inférence causale Questions pratiques 2: l inférence causale 1 I. Possibilités et limites des modèles statistiques Nous avons précédemment défini et décrit la régression comme une méthode statistique visant à décrire la

Plus en détail

Méthodologie de la recherche. Laurent Bosquet Université Lille 2

Méthodologie de la recherche. Laurent Bosquet Université Lille 2 Méthodologie de la recherche Laurent Bosquet Université Lille 2 Plan du cours 1. La loi normale et l erreur d échantillonnage 2. Comparaison de deux échantillons 3. Comparaison de trois échantillons ou

Plus en détail

Chapitre 3. Séries statistiques bivariées.

Chapitre 3. Séries statistiques bivariées. Chapitre 3. Séries statistiques bivariées nicolas.chenavier@lmpa.univ-littoral.fr Exemple introductif 1 On considère un nombre n d individus (en pratique, n est grand) faisant intervenir exactement deux

Plus en détail

Enseignante: A. GUERRAB

Enseignante: A. GUERRAB Enseignante: A. GUERRAB Mise en contexte En statistiques, plusieurs problèmes consistent à définir la relation qui existe entre deux variables statistiques : Le nombre d années d expérience et le nombre

Plus en détail

Statistiques. 1.2 Présentation des données et représentations graphiques

Statistiques. 1.2 Présentation des données et représentations graphiques Statistiques 1 Séries statistiques à une variable 1.1 Vocabulaire Une population est un ensemble d individus sur lesquels on étudie un caractère ou une variable, qui prend différentes valeurs ou modalités.

Plus en détail

Méta-analyses des études des technologies diagnostiques

Méta-analyses des études des technologies diagnostiques Méta-analyses des études des technologies diagnostiques Intérêts de la méta-analyse pour les tests diagnostiques Permet de gérer la multiplicité des études La «disparité» des résultats Permet de faire

Plus en détail