Modèles de régression multiple

Dimension: px
Commencer à balayer dès la page:

Download "Modèles de régression multiple"

Transcription

1 Note méthodologique Sang Thrombose Vaisseaux 2011 ; 23, n o 7 : Modèles de régression multiple Florence Gillaizeau 1, Sophie Grabar 2 Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/ Inserm, Centre d Investigation Épidémiologique 4, 20 rue Leblanc, F Paris, France ; Hôpital européen Georges-Pompidou, Unité d Épidémiologie et de Recherche Clinique, 20 rue Leblanc, F Paris, France 2 Université Paris Descartes, Sorbonne Paris Cité, Faculté de médecine, F Paris, France ; Hôpital Cochin, Unité de Biostatistique et Epidémiologie et INSERM U943, 27 rue du Faubourg Saint-Jacques, F Paris, France Résumé. Les analyses multivariées sont largement utilisées en recherche médicale, notamment pour décrire l association entre deux variables en contrôlant l effet d autres variables. Cependant, le clinicien n est souvent pas assez à l aise avec ces modèles mathématiques et leur interprétation pour pouvoir émettre son propre jugement des résultats. Cette note a pour objectif de décrire simplement les modèles de régression multiple et d illustrer leur interprétation par deux exemples médicaux utilisant le modèle de régression linéaire et le modèle de régression logistique. Mots clés : régression, modèles linéaires, modèles logistiques, facteurs de risque, facteurs de confusion, ajustement Abstract Multiple regression models Multivariate analyses are widely used in medical research especially to describe the association between two variables whilst controlling for other variables. However, the clinician is often not comfortable enough with these mathematical models and their interpretation to make her/his own judgment of the results. This paper aims to describe in a simple fashion the multiple regression models and illustrate their interpretation using two medical examples of the linear regression and the logistic regression models. Key words: Regression analysis, linear models, logistic models, risk factors, confounding factors, adjustment Les modèles de régression multiple sont des modèles mathématiques qui permettent d étudier l association entre des facteurs exploratoires et une variable à expliquer, dans un objectif de description et/ou de prédiction [1]. Ils sont ainsi largement utilisés en recherche médicale : étude des associations entre des facteurs d exposition et une maladie, construc- Tirés à part : F. Gillaizeau tion d un score pronostique, étude médico-économique, etc. Malgré leur utilisation et leur présentation fréquentes dans la littérature médicale, le clinicien n est souvent pas assez à l aise avec ces modèles mathématiques et leur interprétation pour pouvoir émettre son propre jugement des résultats. Cette note a pour objectif de décrire simplement les modèles de régression multiple et d illustrer leur interprétation grâce à deux exemples médicaux utilisant le modèle de régression linéaire et le modèle de régression logistique. doi: /stv Pour citer cet article : Gillaizeau F, Grabar S. Modèles de régression multiple. Sang Thrombose Vaisseaux 2011 ; 23 (7) : doi: /stv

2 Présentation de la régression multiple Pourquoi parle-t-on de régression multiple? Les modèles de régression sont des modèles mathématiques qui permettent de représenter une variable à expliquer (ou variable dépendante ou variable endogène ou réponse ou outcome) Y, en fonction d une ou plusieurs variables X 1, X 2,...X p (dites variables indépendantes, variables explicatives, variables exogènes, ou covariables) correspondant à des facteurs de risque et de confusion potentiels. Le modèle de régression est dit simple s il n inclut qu une seule variable explicative, et multiple s il inclut plusieurs variables explicatives. Les modèles de régression simple et multiple sont souvent appelés respectivement modèles de régression univarié et multivarié. En réalité, les analyses multivariées ou multidimensionnelles regroupent plus largement toutes les techniques dédiées à l analyse de données avec plusieurs variables 1. Dans cet article, nous nous intéressons aux modèles de régression multiple, mais le lecteur pourra rencontrer les termes «analyse univariée» et «analyse multivariée», utilisés abusivement pour décrire l étude de l association entre Y et une ou plusieurs variables explicatives. Dans quelles situations utiliser un modèle de régression multiple? Le principal objectif des modèles de régression, qu ils soient simples ou multiples, est de décrire l association entre deux variables, par exemple une exposition (facteur de risque) et une maladie (variable à expliquer Y). Dans les études d intervention ou essais thérapeutiques, le tirage au sort (ou randomisation) assure une répartition équilibrée des facteurs de risque. En épidémiologie, situation d observation, ce n est pas le cas. Par conséquent, une association entre une exposition et une maladie n indique pas nécessairement que cette exposition soit un facteur de risque de la maladie car cette association peut être la conséquence de facteurs de confusion. Pour décrire au mieux l association entre une exposition et une maladie, il faut donc contrôler l effet des autres variables, en particulier les facteurs de confusion : c est le principe de l ajustement. Différentes techniques d ajustement permettent de prendre en compte un facteur de confusion au moment de l analyse : 1 Modèles de régression multiple (linéaire, logistique, Cox, etc.), techniques d analyse des données (analyse discriminante, analyse en composantes principales, analyse des correspondances multiples...), modélisation conjointe de deux ou plusieurs variables à expliquer (analyse de variance multivariée (MANOVA)...). les analyses stratifiées et les analyses de régression multiple. Si les tests stratifiés comme le test du Khi-Deux de Maentel Haenzel sont simples en termes de principe et de calcul (analyse de la liaison par strate), ils ne peuvent prendre en compte qu un nombre limité de facteurs de confusion. La régression multiple permet de palier ce problème. Dans un essai thérapeutique randomisé, l ajustement permet également d augmenter la précision (donc la puissance) de l estimation de l effet du traitement [1]. Quels termes introduire dans le modèle? Variable à expliquer La variable à expliquer Y est la variable dont on souhaite décrire les variations en fonction d autres variables (qui sont alors explicatives). Y peut être une variable quantitative ou qualitative [2]. En médecine, la variable à expliquer est souvent un évènement défavorable comme le décès, la maladie, la récidive, l erreur de prescription, etc. Mais il peut aussi s agir d un évènement favorable (naissance, guérison, etc.) ou d une variable quantitative (mesure biologique, score, etc.). Variables explicatives Les variables explicatives X 1,X 2,...X p sont des variables dont on cherche l association avec la variable à expliquer Y ou qui peuvent modifier cette association : ce sont des facteurs de risque, des facteurs de confusion ou des facteurs d interaction. Elles peuvent être quantitatives ou qualitatives. Facteurs de risque Les facteurs de risque sont des caractéristiques d origines diverses (biologique, génétique, environnementale, culturelle, etc.) qui entraînent une augmentation de la probabilité d apparition d un évènement défavorable 2. Facteurs de confusion Le principal intérêt de la régression multiple est de prendre en compte les biais de confusion par le principe d ajustement 3. On dit qu un facteur F joue le rôle de facteur de confusion entre l exposition E et la maladie M s il est lié à la fois au facteur d exposition E et à la maladie M, 2 Il est délicat d utiliser le terme «facteur de risque» lorsque la variable à expliquer ne représente pas un événement défavorable mais le terme «facteur de chance» est rarement utilisé! 3 La prise en compte des facteurs de confusion peut aussi intervenir au niveau de la population (randomisation, restriction de la population, appariement). Ces facteurs sont néanmoins souvent introduits dans une régression multiple. STV, vol. 23, n o 7, septembre

3 qu il n est pas sur le chemin causal et s il modifie la relation brute aux différents niveaux de F. L association entre E et M peut être atténuée, augmentée, inversée. Prenons l exemple de l analyse de l association entre le chômage (facteur d exposition) et la dépression (maladie) (figure 1A). Dans une population, on observe que le risque de dépression est trois fois plus élevé chez les chômeurs (risque relatif (RR) brut, calculé à partir d un tableau de contingence ou du modèle de régression simple de la dépression sur le chômage). Cette relation entre chômage et dépression est la même chez les sujets de moins de 50 ans et de plus de 50 ans, cependant le risque dans chaque strate est réduit à 2 (RR ajustés, calculés à partir des tableaux de contingence ou du modèle de régression multiple de la dépression sur le chômage et l âge). Ceci s explique en partie par un taux de chômage plus faible chez les moins de 50 ans et un phénomène de dépression plus fréquent chez les personnes âgées. L âge est donc un facteur de confusion qui augmente l association entre le chômage et la dépression. Facteurs d interaction Les facteurs d interaction sont à distinguer des facteurs de confusion. Lorsqu il y a confusion (voir le paragraphe précédent), la relation brute entre E et M (odds ratio (OR) ou RR brut) n est pas la même que celle obtenue aux différents niveaux de F, en revanche cette relation est identique pour chaque niveau de F (OR ou RR ajustés). Lorsqu il y a interaction, la relation brute entre E et M n est pas la même que celle obtenue aux différents niveaux de F et cette relation diffère pour chaque niveau F: on ne peut alors plus parler de risque ajusté car celui-ci est diffèrent pour chaque niveau de F. Cette relation peut être d intensité différente (interaction Chômage 1A? Âge Dépression quantitative) ou de sens opposé (interaction qualitative) [3]. Par exemple, il y a interaction quantitative entre alcool et tabac pour le risque de cancer du larynx : l alcool est un facteur de risque connu de cancer du larynx, et ce risque est augmenté lorsqu il y a consommation conjointe avec du tabac (figure 1B). Dans le modèle de régression multiple, il faut alors introduire comme variables explicatives l alcool, le tabac, et l interaction alcool tabac. Quel type de modèle utiliser? Le choix d un modèle dépend de la distribution (loi de probabilité) et donc du type de la variable à expliquer Y, et de la forme de la liaison entre les variables explicatives et Y. Les modèles de régression multiple les plus couramment utilisés sont le modèle de régression linéaire, le modèle de régression logistique, et le modèle à risques proportionnels de Cox (tableau 1). Le modèle de Cox n est pas décrit dans cette note. Comment interpréter les coefficients de régression? En régression linéaire (voir équation tableau 1), la constante β 0 correspond à la valeur de Y quand toutes les valeurs des covariables X 1,X 2,...,X p sont nulles. L association entre la covariable et Y (respectivement la probabilité π en régression logistique) est positive si le coefficient de régression est positif, et négative si le coefficient de régression est négatif. Un coefficient de régression proche de 0 indique que la covariable influence peu Y (respectivement π). Dans le cas de la régression logistique (voir équation tableau 1), l exponentielle du coefficient de régression β 1 Risque de cancer du larynx 1B Fumeur Non-fumeur Consommation d alcool Figure 1. Illustration des facteurs de confusion et d interaction. A) L âge est un facteur de confusion qui augmente la force de l association entre chômage et dépression. B) Il y a interaction quantitative entre alcool et tabac pour le risque de cancer du larynx : l interaction quantitative se traduit par des pentes différentes pour les fumeurs et les non fumeurs (droites non parallèles). Le risque est augmenté lorsqu il y a consommation conjointe de tabac et d alcool (pente plus forte pour les fumeurs). 362 STV, vol. 23, n o 7, septembre 2011

4 Tableau 1. Présentation des modèles en fonction des variables à expliquer et des variables explicatives. Modèle Type de la variable à expliquer Y[exemples] Distribution de Y Type des variables explicatives X 1,X 2,..., Équation Forme de la liaison entre les variables explicatives et Y Xp Régression linéaire Quantitative [pression artérielle systolique, débit filtration glomérulaire,...] Normale Quantitatives Qualitatives Y = β 0 + β 1 X 1 + β 2 X β p X p + ε Hypothèse de linéarité : la valeur moyenne de Y (ou espérance) est prédite par une combinaison linéaire des variables explicatives X 1,X 2,..., Xp. Régression logistique dichotomique Qualitative binaire* [malade (oui/non), Vivant (oui/non),...] Bernoulli ou binomiale Quantitatives Qualitatives logit(π) = ln π = β 0 + β 1 X 1 + β 2 X β p X p + ε 1 π π = π = exp[β 0 + β 1 X 1 + β 2 X β p X p ] 1 + exp[β 0 + β 1 X 1 + β 2 X β p X p ] + ε ' exp[ (β 0 + β 1 X 1 + β 2 X β p X p )] + ε ' π: probabilité associée à la modalité d intérêt de Y ln : fonction logarithme népérien Hypothèse de linéarité du logit (ou linéarité du log-odds) : la proportion de sujets π avec la caractéristique étudiée (par exemple : la proportion de sujets malades), après transformation logit, est prédite par une combinaison linéaire des variables explicatives X 1, X 2,..., Xp. À risques proportionnels de Cox Survie Temps (données censurées) [décès, récidive,... + temps de suivi] Quantitatives Qualitatives Hypothèses des risques proportionnels * Si Y est une variable qualitative à plus de 2 modalités (k > 2), on parle alors de régression logistique polytomique (le terme trichotomique est parfois employé pour 3 modalités). Le modèle est dit polytomique ordonné si Y est une variable qualitative ordinale. Le modèle est dit polytomique non ordonné ou polytomique multinomial si Y est une variable qualitative non ordinale [4]. Si Y est une variable binaire à deux modalités 0 et 1, dire que Y suit une loi de Bernoulli de paramètre π signifie que Y=1(succès) avec la probabilité π, ety=0(échec) avec la probabilité 1 - π. En épidémiologie, le «succès» c est-à-dire l évènement clinique étudié est souvent la maladie! La moyenne des valeurs prises par un échantillon de sujets correspond alors à la proportion de sujets malades, c est-à-dire π. La proportion de sujets non malades est 1 π. Puisqu une probabilité est comprise entre 0 et 1, celle-ci ne peut pas s exprimer comme une combinaison linéaire de covariables quantitatives et qualitatives (qui peut prendre des valeurs entre - et + ). Ceci explique la transformation de la probabilité π en cote (en anglais odds) π /1-π, et l application de la transformation logit (on parle alors de log-odds). Modèle non présenté dans cette note. Voir détails paragraphe Sous quelle forme introduire les variables explicatives? STV, vol. 23, n o 7, septembre

5 correspond à l odds ratio (exp β 1 = OR). C est une des raisons de la popularité du modèle. Pour une variable qualitative, l exponentielle du coefficient de régression associé à une modalité correspond à l odds ratio entre la modalité de référence et la modalité considérée. Pour une variable quantitative, l exponentielle du coefficient de régression correspond à l odds ratio pour une augmentation de 1 unité de la variable. Une telle augmentation est souvent peu intéressante sur le plan médical, ou peu pertinente si l étendue (range) de la variable est très large. Par exemple, si X 1 est l âge, plutôt que de calculer l odds ratio pour une augmentation de 1 an, on préfère calculer l odds ratio pour une augmentation de 5 ou 10 ans. L odds ratio pour une augmentation de a unités de la variable est égal à exp(a β 1 ), a pouvant être positif ou négatif. Ainsi, l odds ratio associé à une augmentation de 10 ans vaut exp(10 β 1 ), et l odds ratio associé à une diminution de 5 ans vaut exp(-5 β 1 ). Lorsque la régression logistique est multiple, les odds ratio sont dits «ajustés». Ils se calculent de la même manière qu en régression logistique simple (à partir de l exponentielle du coefficient de régression), sauf en présence d interaction où il est nécessaire de fixer la valeur d une des variables du terme d interaction [5]. Sous quelle forme introduire les variables explicatives? Variables qualitatives Dans le cas d une variable explicative qualitative, celleci n est jamais incluse dans un modèle sous sa forme initiale. La variable est transformée en m-1 variables binaires (on parle de dichotomisation) correspondant aux modalités de la variable, la modalité restante étant la catégorie de référence. Dans le cas d une variable qualitative binaire (cas le plus simple), la modalité de référence correspond à la variable dont le codage est 0 dans le modèle. Par exemple, pour la variable sexe, la modalité «femme» est classiquement choisie comme modalité de référence (elle est codée 0 au moment de la modélisation alors que la modalité «homme» est codée 1). Dans le cas d une variable qualitative nominale à m modalités (m > 2), la catégorie de référence correspond en général à une catégorie moyenne (par exemple, catégorie socio-professionnelle (CSP) «cadre»), ou à la catégorie regroupant le plus d observations («ouvrier»). Les résultats présentent alors une p-valeur (degré de signification) «globale» correspondant au test de l association entre la variable explicative à m modalités et la variable à expliquer étudiée (test global des m-1 coefficients). En régression logistique, pour faciliter l interprétation, on choisit souvent comme catégorie de référence celle associée au plus faible risque de présenter l évènement défavorable (ainsi tous les OR associés aux autres catégories sont supérieurs à 1). Des résultats présentant des coefficients ou OR élevés doivent être examinés prudemment : ils peuvent révéler des problèmes d estimation des paramètres suite au choix d une catégorie de référence avec peu d observations. Il est plus judicieux de choisir comme catégorie de référence celle avec le maximum d observations, ou de regrouper des catégories. Dans le cas d une covariable qualitative ordinale avec un nombre de modalités élevé (exemple : réponses possibles à un questionnaire sur l échelle de Likert allant de 1 = «Pas du tout» à7=«toutàfait»),celle-ci peut être étudiée comme une variable quantitative si l hypothèse de linéarité est vérifiée (voir paragraphe suivant). Variables quantitatives et hypothèses dérivées du modèle En régression linéaire, Y est prédite par une combinaison linéaire des variables explicatives X 1,X 2,...X p (voir équation tableau 1). Cette hypothèse de linéarité implique qu une variation (augmentation ou une diminution) de a unités d une variable explicative quantitative X 1 a le même effet sur Y quelle que soit la valeur de X 1 (et à valeurs constantes des autres covariables X 2,...X p ). Par exemple, si dans la régression linéaire du taux de cholestérol sur l âge chez les adultes, la pente vaut 0,01g/L, alors ceci implique que chaque année le taux de cholestérol augmente de 0,01 g/l, et ce, quel que soit l âge du sujet. Cette hypothèse peut se vérifier facilement de manière graphique, en représentant le taux de cholestérol en fonction de l âge et en vérifiant l alignement des points sur une droite. En régression logistique, le logit(π) est prédit par une combinaison linéaire des variables explicatives X 1,X 2,...X p (voir équation tableau 1). Cette hypothèse de linéarité du logit (ou linéarité du log-odds) implique qu une variation de a unités d une variable explicative quantitative X 1 a le même effet sur le risque de succès de Y (odds ratio) quelle que soit la valeur de X 1 (et à valeurs constantes des autres covariables X 2,...X p ). Par exemple, si dans la régression logistique d une maladie sur l âge, le coefficient de régression vaut 0,07 alors l odds ratio pour une augmentation de 10 ans est estimé à OR = exp(0,07 10) = 2. Ceci implique que pour toute augmentation de 10 ans d âge, le risque de maladie est deux fois plus élevé (que l on compare un individu de 40 ans à un individu de 30 ans, un individu de 30 ans à un individu de 20 ans, etc.). Si ces hypothèses de linéarité ne sont pas vérifiées entre Y (ou logit(π)) et la covariable considérée X, il faut envisager un autre type de relation et transformer la variable 364 STV, vol. 23, n o 7, septembre 2011

6 Y et/ou la covariable. La non-linéarité peut être prise en compte par des termes polynomiaux (X 2, X 3, X 4,...), des transformations logarithmiques, ou des combinaisons de transformations plus complexes (polynômes fractionnaires par exemple). [6]. Pour des choix bibliographiques ou de présentation, les variables quantitatives peuvent également être transformées en variables qualitatives (on dit alors qu on «catégorise» la variable). La création de deux catégories seulement (dichotomisation) est néanmoins déconseillée car elle entraîne (entre autres) une perte d information et une réduction de la puissance [7]. Comment vérifier la validité du modèle? Effectuer la régression linéaire de Y sur X 1, X 2,..., X p consiste à déterminer β 0, β 1, β 2,..., β p. C est en testant si β i = 0 que l on teste l association entre la covariable X i et Y. Le résultat du test n est valide que si les résidus, c est-à-dire les erreurs entre les valeurs observées de Y et leur estimation dérivée du modèle, suivent une distribution normale de moyenne nulle, de même variance (hypothèse d homoscédasticité) et s ils ne sont pas corrélés entre eux (hypothèse d indépendance). Ces hypothèses peuvent être vérifiées par des tests ou de manière plus pratique à l aide de graphiques : 1) distribution des résidus et graphique des résidus en fonction des covariables (la dispersion des résidus doit être homogène autour de zéro), et 2) QQplot (ou diagramme quantile-quantile) représentant les quantiles de la distribution de l échantillon en fonction des quantiles de la distribution normale (gaussienne) (les points doivent être quasiment alignés sur la première bissectrice y=x) 4. Ces résultats sont toutefois rarement présentés dans les publications. En régression logistique, les erreurs entre les valeurs observées de Y et leur estimation dérivée du modèle suivent une distribution binomiale dont le paramètre de probabilité est π (les erreurs représentent l écart entre la valeur observée et la probabilité π connaissant X 1,X 2,...,X p ). Cette hypothèse ne nécessite pas de vérification particulière. Comment mesurer la qualité d ajustement du modèle aux données? De nombreux critères de qualité d ajustement (adéquation, goodness-of-fit en anglais) ont été proposés dans la litté- 4 En toute rigueur, Y devrait avoir une distribution normale, la relation entre Y et les covariables devrait être linéaire, et la variance de Y devrait être la même quelles que soient les valeurs des covariables. Cependant, on se contente souvent de vérifier les conditions de validité sur les résidus car elles découlent des hypothèses précédemment citées. rature. Ils permettent de juger de la qualité d un modèle, et sont étroitement liés à la méthode d estimation des paramètres. Le critère le plus connu utilisé en régression linéaire est le coefficient de détermination ou R 2, qui correspond à la part de variation expliquée par le modèle de régression. C est une grandeur qui varie entre 0 et 1. Plus la valeur du R 2 est proche de 1, plus la qualité d ajustement du modèle est bonne. Dans le cas de la régression linéaire simple, le R 2 correspond au carré du coefficient de corrélation linéaire (ou coefficient de Pearson) entre la variable à expliquer et la variable explicative. Dans le cas de la régression linéaire multiple, plus le nombre de variables explicatives est élevé, plus R 2 va se rapprocher de 1, on privilégie alors comme critère le R 2 ajusté qui tient compte du nombre de variables explicatives incluses dans le modèle (R 2 ajusté a comme propriété d être toujours inférieur à R 2 ). Des critères dérivés du R 2, nommés pseudo-r 2, ont été définis dans le cas de variables à expliquer qualitatives. Cependant, ces critères sont moins informatifs que le R 2 en régression linéaire sur la qualité d ajustement du modèle. Hosmer et Lemeshow ont proposé une statistique notée C qui permet de tester la qualité d ajustement du modèle aux données [8]. Elle correspond à une statistique du Khi-Deux de Pearson entre les probabilités observées et attendues. Si le degré de signification p est supérieur à 0,05, alors on ne rejette pas l hypothèse nulle et l ajustement aux données est considéré comme bon. La plupart des logiciels statistiques présentent dans les résultats la statistique C de Hosmer et Lemeshow et le test associé. D autres mesures appelées diagnostics de régression permettent également de vérifier que le modèle a une bonne qualité d ajustement [8]. Enfin le pouvoir discriminant du modèle de régression logistique, c est-à-dire sa qualité prédictive, peut être étudié par les taux de bon et mauvais classements des données, et à l aide de la courbe ROC (receiver operating characteristic). L aire sous la courbe, qui varie entre 0 et 1, donne une mesure de la capacité du modèle à discriminer les cas positifs des cas négatifs. En règle générale, la discrimination est considérée : nulle si l aire sous la courbe ROC = 0,5 ; acceptable si l aire sous la courbe appartient à [0,7 ; 0,8[ ; excellente si l aire sous la courbe appartient à [0,8 ; 0,9[ ; et exceptionnelle si l aire sous la courbe est supérieure ou égale à 0,9. Si l aire sous la courbe ROC est égale à 1 alors le modèle est parfaitement discriminant. Quelles sont les stratégies de modélisation? Les étapes Il n existe pas de stratégie unique de modélisation multivariée, mais quel que soit le type de modèle, les mêmes STV, vol. 23, n o 7, septembre

7 étapes sont généralement recommandées. La stratégie proposée par Hosmer et Lemeshow comprend 5 étapes: (1) analyse univariée, (2) choix des variables candidates au modèle multivarié, (3) identification des variables à conserver dans le modèle multivarié, (4) étude des interactions, (5) vérification de l adéquation et des hypothèses du modèle [9]. La sélection des variables candidates au modèle multivarié consiste à considérer deux types de variables : celles dont le test univarié a une p-valeur inférieur à un seuil prédéfini (Hosmer et Lemeshow recommandent un seuil de 0,25 mais on peut trouver dans la littérature des seuils plus restrictifs p < 0,15 ou 0,20), et celles qui sont cliniquement importantes (facteurs de risque et facteurs de confusion connus). Une procédure de sélection, parmi les suivantes, est alors appliquée : sélection ascendante («forward») : les variables les plus significatives (p-valeur les plus petites et inférieures au seuil de significativité choisi) sont incluses une à une jusqu à ce que plus aucune variable ne puisse être incluse dans le modèle (variables non significatives) ; sélection descendante («backward») : toutes les variables sont incluses dans le modèle puis les variables les moins significatives (p-valeur les plus élevées et supérieures au seuil de significativité choisi) sont retirées une à une jusqu à ce que toutes les variables restantes soient significatives ; sélection pas à pas («stepwise») : combinaison des deux méthodes ascendante et descendante ; sélection du meilleur sous-ensemble : parmi tous les modèles possibles, sélection du meilleur modèle selon un critère spécifié. Ce critère peut être par exemple le R 2 ou le R 2 ajusté dans le cadre de la régression linéaire, le C(p) de Mallows, ou des critères dits d information dont les calculs prennent en compte la vraisemblance du modèle et le nombre de variables explicatives. Les critères d information les plus célèbres sont le critère AIC d Akaike (Akaike Information Criterion) et le critère BIC de Schwarz (Bayesian Information Criterion). La valeur en elle-même de ces critères est peu informative mais ils permettent de comparer des modèles emboités entre eux 5. Le meilleur modèle est celui minimisant les critères d information ou le C(p) de Mallows, tandis qu en régression linéaire, le meilleur modèle est celui maximisant le R 2 ou le R 2 ajusté. Remarque : Un facteur de risque non significatif en analyse univariée peut être un facteur de risque significatif 5 Un modèle de régression M1 est dit emboîté dans un modèle M2, s il diffère simplement d une ou plusieurs covariables : M1 est le même modèle que M2 (même loi de distribution, appliqué sur les mêmes donnés) mais une ou plusieurs covariables ont été retirées. en analyse multivariée si les facteurs de confusion sont pris en compte (c est-à-dire inclus dans le modèle multivarié) [10]. Les variables candidates au modèle multivarié doivent donc être minutieusement étudiées. De plus, si l inclusion d une variable influence fortement les coefficients des autres variables, il est important de l inclure dans le modèle final même si elle n est pas significative (c està-dire la forcer dans le modèle). Le choix des variables du modèle est une étape délicate, souvent longue et minutieuse, qu il faut savoir ne pas laisser au seul choix du logiciel de statistique utilisé. Ainsi, parfois au prix d une petite perte de qualité statistique, on aura un gain appréciable épidémiologique [11]. Les problèmes de colinéarité Un des problèmes récurrents en régression est la colinéarité c est-à-dire des variables explicatives très corrélées. Les coefficients deviennent alors incohérents et des variables ne seront pas retenues dans le modèle car à tort non significatives. Avant d envisager un modèle de régression multiple, il convient donc d examiner les corrélations entre les covariables. Des variables trop fortement corrélées ne doivent pas être incluses simultanément dans un modèle. De plus, Peduzzi et al. ont montré qu au moins 10 évènements par variable (EPV) sont nécessaires pour garantir la stabilité d un modèle (régression logistique ou de Cox) [12]. Par exemple, dans une étude avec 100 sujets, si 60 sont malades alors il est recommandé de ne pas inclure plus de 4 variables dans le modèle de régression multiple (on calcule le nombre de variables en considérant l évènement le plus rare : ici 40 sujets non malades). Disposer d au moins 10 sujets par covariable est devenue une règle générale pour les modèles multivariés. Le principe de parcimonie Le choix des variables explicatives doit être guidé par le principe de parcimonie qui consiste à retenir le modèle le plus simple (ou modèle «le moins couteux») donnant un ajustement satisfaisant. Si deux modèles ont des qualités proches, on retiendra celui contenant le moins de covariables. Exemple 1 : Modèle de régression linéaire Données illustratives La partie concernant le modèle de régression linéaire est illustrée par des mesures prises sur 21 enfants (11 filles et 10 garçons) âgés de 3à11ans(données fictives). 366 STV, vol. 23, n o 7, septembre 2011

8 Tableau 2. Résultats de la régression linéaire simple de la taille sur l âge et de la régression linéaire multiple de la taille sur l âge et le sexe. Estimate Standard Error T value Pr(> t ) Régression linéaire simple de la taille sur l âge Constante 75,2201 3, ,83 <,0001 Age 6,1966 0, ,49 <,0001 Régression linéaire multiple de la taille sur l âge et le sexe Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/2017. Constante 74,0972 2, ,043 <,0001 Age 6,0100 0, ,712 <,0001 Sexe (garçon) 5,1087 1,6463 3,103 0,0061 Régression linéaire simple (figure 2 ; tableau 2, partie supérieure) Sur la figure 2A, les croix correspondent aux valeurs observées (x i,y i ) de l âge et de la taille, le carré au point moyen (x,y), et la droite à la droite de régression minimisant la somme des carrés des résidus (écarts entre les valeurs observées y i et la droite). L âge moyen des enfants est 7 ans et la taille moyenne est 119 cm : x = 7,019 et y = 118,714 cm. L équation de la régression linéaire de la taille sur l âge s écrit taille = 75,22 + 6,20 age (tableau 2, partie supérieure). Ainsi, la taille augmente en moyenne de 6,20 cm par année (pente). La constante correspond à la taille moyenne pour une valeur de l âge x = 0 an,c est-à-dire à la naissance. Ici, il s agit d une simple extrapolation puisque tous les enfants sont âgés de plus de 3 ans. L équation permet également de prédire (estimer) des tailles pour des âges donnés. Les deux dernières colonnes du tableau indiquent la valeur t = 14,49 (6,1966/0,4276) et la p-valeur du test bilatéral β 1 = 0 (test de Student, n-2 = 19 degrés de liberté). La p-valeur est inférieure à 0,001, donc l hypothèse nulle β 1 = 0 est rejetée. L estimation de la pente étant supérieure à 0, il existe une association positive entre l âge et la taille. Enfin, l erreur standard permet de déterminer l intervalle de confiance à 95 % (IC 95 %) de la pente : 6,20 ± t 0,975 0,43 = 6,20 ± 0,90. L IC 95% de la pente ne contenant pas 0, l hypothèse nulle β 1 = 0 est bien rejetée. La représentation graphique des résidus en fonction de l âge (figure 2B) montre une dispersion homogène des résidus autour de 0, et le QQplot (figure 2C) indique que la distribution des résidus est proche d une distribution normale (points quasiment alignés sur la droite en pointillés) : les conditions de validité du modèle sont donc acceptables. Le coefficient R 2 est égal 0,92 indiquant que 92 % de Taille A Age Residuals B Age Sample Quantiles C Theoretical Quantiles Figure 2. Régression linéaire de la taille sur l âge. A) Relation entre l âge et la taille et droite de régression linéaire. B) Représentation graphique des résidus en fonction de l âge. C) QQplot (diagramme quantile-quantile). STV, vol. 23, n o 7, septembre

9 Tableau 3. Description des variables de l étude UIS. Nom de la variable Description Codes/Valeurs ID Code identifiant du sujet 1 à 575 AGE Âge à l inclusion Années BECK Score de dépression de Beck à l inclusion 0à54 Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/2017. IVHX Antécédents d utilisation de médicaments par voie IV NDRUGTX Nombre de traitements antérieurs =Jamais, 2=Dans le passé, 3=Récemment RACE Couleur du sujet (race) 0=Blanc, 1=Autre TREAT Traitement randomisé 0=Court, 1=Long SITE Site de traitement 0=A, 1=B DFREE Retour à l utilisation de médicaments avant la fin du programme de traitement la variabilité de la taille est expliquée par la variation de l âge. Régression linéaire multiple (tableau 2, partie inférieure) Lorsqu il y a m variables explicatives, une représentation graphique n est plus possible (il s agit de minimiser la somme des carrés des distances entre les valeurs observées de Y et un hyperplan de dimension m). De même, l estimation des paramètres du modèle nécessite l utilisation d un logiciel statistique. Les résultats de la régression multivariée de la taille en fonction de l âge et du sexe (dont les conditions de validité étaient vérifiées) indiquent qu à âge identique, les garçons ont une taille significativement plus élevée que les filles (p =0,0061) : en moyenne, les garçons mesurent 5,1 cm de plus. Le sexe «fille» étant la catégorie de référence, par défaut le codage utilisé est 0. Ainsi, la taille d une fille de 5 ans est estimée à 74,1 + 6, ,1 0 = 104,1 cm. L introduction de l interaction âge sexe (résultats non montrés) indiquait que la relation entre âge et taille n était pas différente selon le sexe (p =0,29). À noter que ce type de régression linéaire incluant une variable explicative quantitative et une variable explicative qualitative s appelle une analyse de covariance (ou ANCOVA). 1=Resté sans médicament 0=Sinon Exemple 2 : modèle de régression logistique dichotomique Données illustratives (tableau 3) La partie concernant le modèle de régression logistique est illustrée par des données de l étude UIS (University of Massachussetts Aids Research Unit (UMARU) Impact Study), reprise par Hosmer et Lemeshow dans leur livre sur la régression logistique appliquée [13]. L objectif de cette étude était de comparer deux programmes de traitement (de durée différente) visant à réduire l abus de médicament et prévenir les comportements à haut risque dans le HIV. Un des critères de jugement était si le sujet était resté sans médicament («drug-free») plus d un an après la randomisation au traitement. Sur les 575 sujets analysés, 147 (25,6 %) étaient restés sans médicaments pendant au moins un an. Le lecteur pourra trouver sur un site web de l Université de Californie à Los Angeles (UCLA), la plupart des codes SAS, SPSS et Stata correspondant aux analyses décrites dans le livre de Hosmer et Lemeshow [14]. Régression logistique simple Les deux premières colonnes du tableau 4 présentent les résultats de l analyse univariée (odds ratio bruts et leurs 368 STV, vol. 23, n o 7, septembre 2011

10 Tableau 4. Résultats de la régression logistique simple et de la régression logistique multiple incluant les covariables significatives au seuil 0,25 en analyse univariée pour l étude UIS. Analyse univariée Analyse multivariée* OR (IC 95 %) p-valeur OR ajusté (IC 95 %) p-valeur AGE 1,20 (0,89 ; 1,62) 0,237 1,65 (1,18 ; 2,32) 0,004 BECK 0,96 (0,87 ; 1,06) 0,425 Copyright 2017 John Libbey Eurotext. Téléchargé par un robot venant de le 18/07/2017. NDRUGTX 0,93 (0,88 ; 0,97) < 0,001 0,94 (0,89 ; 0,99) 0,016 IVHX 0,001 0,009 Jamais 1 1 Passé 0,62 (0,37 ; 1,04) 0,55 (0,31 ; 0,96) Récent 0,46 (0,30 ; 0,70) 0,48 (0,29 ; 0,79) RACE 0,032 0,311 Blanc 1 1 Autre 1,58 (1,04 ; 2,39) 1,25 (0,81 ; 1,94) TREAT 0,023 0,026 Court 1 1 Long 1,55 (1,06 ; 2,26) 1,56 (1,05 ; 2,30) SITE 0,197 0,494 A 1 1 B 1,30 (0,87 ; 1,94) 1,16 (0,76 ; 1,78) * Modèle multivarié avec les covariables significatives au seuil 0,25 en analyse univariée Odds ratio pour une augmentation de 10 ans Odds ratio pour une augmentation de 5 points intervalles de confiance à 95 % (IC 95 %), p-valeur). La variable IVHX était significativement associée à la variable DFREE (p = 0,001). Un patient qui avait déjà utilisé dans le passé des médicaments par voie IV (IVHX = 2) avait 38 % de chance en moins (OR = 0,62 [IC 95 % : 0,37 ; 1,04]) de ne pas prendre de médicament avant la fin du programme (DFREE = 1) qu un patient n ayant jamais utilisé ce type de médicaments (IVHX = 1). Les patients âgés avaient tendance à rester plus facilement sans médicament que les patients jeunes mais cette différence n était pas significative (OR = 1,20 [IC 95 % : 0,89 ; 1,62] pour une augmentation de 10 ans, p = 0,237] Régression logistique multiple Une fois l analyse univariée effectuée (étape (1) selon Hosmer et Lemeshow), les variables dont le test univarié avait une p-valeur < 0,25 et les variables cliniquement importantes étaient candidates au modèle multivarié (étape (2)). Le score de Beck (variable BECK) dont la p-valeur STV, vol. 23, n o 7, septembre

11 était 0,425 en analyse univariée n était donc pas retenu à cette étape. Les deux dernières colonnes du tableau 4 présentent les résultats du modèle multiple (odds ratio ajustés et IC 95 %, p-valeur) incluant les covariables significatives au seuil 0,25 en analyse univariée. Un patient sous traitement à longue durée (TREAT = 1) avait 1,56 fois plus de chance (OR = 1,56 [IC 95 % : 1,05 ; 2,30]) de rester sans prendre de médicament dans les 12 mois (DFREE = 1) qu un patient sous traitement à courte durée (TREAT = 0) ayant les mêmes caractéristiques par ailleurs (mêmes valeurs pour les autres covariables du modèle). Un patient qui avait utilisé récemment des médicaments par voie IV (IVHX = 3) avait 2 fois moins de chance (OR = 0,48 [IC 95 % : 0,29 ; 0,79]) de rester sans prendre de médicament avant la fin du programme (DFREE = 1) qu un patient n ayant jamais utilisé ce type de médicaments (IVHX = 1). L association pour la variable âge était plus forte après ajustement sur les autres variables. En revanche, les associations pour les variables SITE et RACE étaient moins fortes et non significatives selon le test de Wald (p = 0,494 et p = 0,311). Cependant, ces variables étaient considérées comme suffisamment importantes pour être conservées dans le modèle multivarié. L étape (3) étant terminée, l hypothèse de linéarité pour les variables quantitatives AGE et NDRUGTX devait être vérifiée (étape (4)). Celle-ci était vérifiée pour l âge, en revanche la variable NDRUGTX devait être décomposée en deux termes. Enfin, les interactions entre variables étaient considérées (étape (5)). Quinze paires d interactions étaient possibles, mais seules les interactions significatives au seuil 10 % (p 0,10) étaient ajoutées au modèle à effets principaux. Deux interactions significatives au seuil 5 % étaient finalement retenues dont l interaction RACE SITE (résultats non présentés). Ceci signifiait que la différence de risque (de ne pas prendre de médicament avant la fin du programme) entre les personnes de couleur blanche et d autres couleurs variait selon le site de traitement. Les odds ratio associés à la couleur Autre (RACE = 1) par rapport à la couleur Blanche (RACE = 0) étaient estimés à 1,98 [IC 95 % : 1,18 ; 3,33] et 0,47 [IC 95 % : 0,19 ; 1,18] pour les sites A et B respectivement. La statistique C de Hosmer et Lemeshow de ce modèle multiple (à effets principaux et interactions significatifs) était estimée à 4,39 avec une p-valeur associée égale à 0,820 indiquant une bonne adéquation du modèle aux données. L aire sous la courbe ROC était 0,70. Discussion Les conclusions des recherches médicales sont souvent fondées sur les résultats des modèles de régression multiple afin de décrire au mieux l association entre deux variables en contrôlant l effet d autres variables. Il est donc essentiel que le clinicien connaisse le principe de ces modèles, leurs hypothèses et leur interprétation pour pouvoir faire une lecture critique de la littérature médicale. Conflits d intérêts : aucun Références 1. Falissard B. Comprendre et utiliser les statistiques dans les sciences de la vie. Paris : Masson, 1998 : Labreuche J. Les différents types de variables, leurs représentations graphiques et paramètres descriptifs. Sang Thrombose Vaisseaux 2010 ; 22 : Bouyer J, Hémon D, Cordier S, et al. Epidémiologie - Principes et méthodes quantitatives. Paris : Les Editions INSERM, 1995 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Royston P, Altman DG. Regression using fractional polynomials of continuous covariates: parsimonious parametric modelling (with discussion). Appl Stat 1994 ; 43 : Royston P, Altman DG, Sauerbrei W. Dichotomizing continuous predictors in multiple regression: a bad idea. Stat Med 2006; 25: Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed. New York : Wiley, 2000 : Sun GW, Shook TL, Kay GL. Inappropriate use of bivariable analysis to screen risk factors for use in multivariable analysis. J Clin Epidemiol 1996 ; 49 : Bouyer J, Hémon D, Cordier S, et al. Epidémiologie - Principes et méthodes quantitatives. Paris : Les Editions INSERM, 1995 : Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR. A simulation study of the number of events per variable in logistic regression analysis. J Clin Epidemiol 1996 ; 49 : Hosmer DW, Lemeshow S. Applied logistic regression 2 nd ed.new York : Wiley, 2000 : SAS Textbook Examples: Applied Logistic Regression, 2nd, by Hosmer and Lemeshow. UCLA: Academic Technology Services, Statistical Consulting Group. (accessed April 18, 2011). 370 STV, vol. 23, n o 7, septembre 2011

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

Medication management ability assessment: results from a performance based measure in older outpatients with schizophrenia.

Medication management ability assessment: results from a performance based measure in older outpatients with schizophrenia. Medication Management Ability Assessment (MMAA) Patterson TL, Lacro J, McKibbin CL, Moscona S, Hughs T, Jeste DV. (2002) Medication management ability assessment: results from a performance based measure

Plus en détail

Application des courbes ROC à l analyse des facteurs pronostiques binaires

Application des courbes ROC à l analyse des facteurs pronostiques binaires Application des courbes ROC à l analyse des facteurs pronostiques binaires Combescure C (1), Perneger TV (1), Weber DC (2), Daurès J P (3), Foucher Y (4) (1) Service d épidémiologie clinique et Centre

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

L axe 5 du Cancéropole Nord Ouest

L axe 5 du Cancéropole Nord Ouest L axe 5 du Cancéropole Nord Ouest Cancers, Individu id & Société L état des lieux d un pari Le Rapport Cordier 1 Biomarqueurs prédictifs 2 L axe 5 du Cancéropole Nord Ouest Cancers, Individu & Société

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement DIU HTA François Gueyffier Service de pharmacologie clinique UMR CNRS 5558 CIC 201, LYON francois.gueyffier@chu-lyon.fr

Plus en détail

Cancer bronchique primitif: données épidémiologiques récentes

Cancer bronchique primitif: données épidémiologiques récentes Cancer bronchique primitif: données épidémiologiques récentes Pr Jean Trédaniel Service de pneumologie et oncologie thoracique Groupe Hospitalier Paris Saint Joseph Université Paris Descartes Sources Données

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

HENDRICH FALL RISK MODEL (HFRM)

HENDRICH FALL RISK MODEL (HFRM) HENDRICH FALL RISK MODEL (HFRM) Hendrich, A. L., Bender, P. S., & Nyhuis, A. (2003). Validation of the Hendrich II Fall Risk Model: a large concurrent case/control study of hospitalized patients. Appl.Nurs

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

LECTURE CRITIQUE 1 ER PAS

LECTURE CRITIQUE 1 ER PAS 1 LECTURE CRITIQUE D UN ARTICLE SCIENTIFIQUE 1 ER PAS FORUM PCI 20,05,14 MJ Thévenin / Inf. EPIAS/ SMPH BUTS ET ORGANISATION DE LA PRÉSENTATION Utiliser une grille de lecture critique d un article Comprendre

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire Sylvie CHABAUD Direction de la Recherche Clinique et de l Innovation : Centre Léon Bérard - Lyon Unité de Biostatistique

Plus en détail

Un exemple de régression logistique sous

Un exemple de régression logistique sous Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les

Plus en détail

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Plus en détail

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) CIVILITE-SES.doc - 1 - Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) 1 PRÉSENTATION DU DOSSIER CIVILITE On s intéresse

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

Bases de données Outils de gestion

Bases de données Outils de gestion 11/03/2010 Bases de données Outils de gestion Mise en place d outils pour gérer, stocker et utiliser les informations d une recherche biomédicale ent réalisé par L. QUINQUIS d épidémiologie et de biostatistique

Plus en détail

1 Définition de la non stationnarité

1 Définition de la non stationnarité Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+ ERRATA ET AJOUTS Chapitre, p. 64, l équation se lit comme suit : 008, Taux effectif = 1+ 0 0816 =, Chapitre 3, p. 84, l équation se lit comme suit : 0, 075 1 000 C = = 37, 50$ Chapitre 4, p. 108, note

Plus en détail

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris

Plus en détail

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université

Plus en détail

Essais cliniques de phase 0 : état de la littérature 2006-2009

Essais cliniques de phase 0 : état de la littérature 2006-2009 17 èmes Journées des Statisticiens des Centres de Lutte contre le Cancer 4 ème Conférence Francophone d Epidémiologie Clinique Essais cliniques de phase 0 : état de la littérature 2006-2009 Q Picat, N

Plus en détail

Validation clinique des marqueurs prédictifs le point de vue du méthodologiste. Michel Cucherat UMR CNRS 5558 - Lyon

Validation clinique des marqueurs prédictifs le point de vue du méthodologiste. Michel Cucherat UMR CNRS 5558 - Lyon Validation clinique des marqueurs prédictifs le point de vue du méthodologiste Michel Cucherat UMR CNRS 5558 - Lyon Marqueur prédictif - Définition Un marqueur prédictif est un marqueur qui prédit le bénéfice

Plus en détail

Études épidémiologiques analytiques et biais

Études épidémiologiques analytiques et biais Master 1 «Conception, évaluation et gestion des essais thérapeutiques» Études épidémiologiques analytiques et biais Roxane Schaub Médecin de santé publique Octobre 2013 1 Objectifs pédagogiques Connaitre

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

Evaluation des modèles non-linéaires à effets mixtes

Evaluation des modèles non-linéaires à effets mixtes Evaluation des effets mixtes INSERM UMR738 GDR Statistiques et Santé, 20 octobre 2009 Pharmacométrie Définition modélisation des données obtenues lors d essais cliniques sur des médicaments développement

Plus en détail

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 Tests du χ 2 Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 A. Lourme http://alexandrelourme.free.fr Outline

Plus en détail

Économétrie, causalité et analyse des politiques

Économétrie, causalité et analyse des politiques Économétrie, causalité et analyse des politiques Jean-Marie Dufour Université de Montréal October 2006 This work was supported by the Canada Research Chair Program (Chair in Econometrics, Université de

Plus en détail

PROGRAMME (Susceptible de modifications)

PROGRAMME (Susceptible de modifications) Page 1 sur 8 PROGRAMME (Susceptible de modifications) Partie 1 : Méthodes des revues systématiques Mercredi 29 mai 2013 Introduction, présentation du cours et des participants Rappel des principes et des

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011 L approche de régression par discontinuité Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011 Plan de la présentation L approche de régression par discontinuité (RD) Historique

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Mulford C. (1992). The Mother-Baby Assessment(MBA): An Apgar Score for breastfeeding. Journal of Human Lactation, 8(2), 79-82.

Mulford C. (1992). The Mother-Baby Assessment(MBA): An Apgar Score for breastfeeding. Journal of Human Lactation, 8(2), 79-82. MOTHER-BABY ASSESSMENT SCALE Mulford C. (1992). The Mother-Baby Assessment(MBA): An Apgar Score for breastfeeding. Journal of Human Lactation, 8(2), 79-82. Instrument de Mother-Baby Assessment scale mesure

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine Mortalité observée et mortalité attendue au cours de la vague de chaleur de uillet en France métropolitaine FOUILLET A 1, REY G 1, JOUGLA E, HÉMON D 1 1 Inserm, U75, Villeuif, France. Inserm CépiDc, IFR9,

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme TESTS D HYPOTHÈSE FONDÉS SUR LE χ² http://fr.wikipedia.org/wiki/eugénisme Logo du Second International Congress of Eugenics 1921. «Comme un arbre, l eugénisme tire ses constituants de nombreuses sources

Plus en détail

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques

Plus en détail

Équivalence et Non-infériorité

Équivalence et Non-infériorité Équivalence et Non-infériorité Éléments d Introduction Lionel RIOU FRANÇA INSERM U669 Mars 2009 Essais cliniques de supériorité Exemple d Introduction Données tirées de Brinkhaus B et al. Arch Intern Med.

Plus en détail

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES J. sci. pharm. biol., Vol.9, n - 00, pp. 9-0 EDUCI 00 9 VALLEE POLNEAU S.* DIAINE C. COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES Notre étude visait à comparer les résultats obtenus

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Le quizz des stats. Xavier Paoletti. Sce de biostatistiques / Inserm U900 Institut Curie

Le quizz des stats. Xavier Paoletti. Sce de biostatistiques / Inserm U900 Institut Curie Le quizz des stats Xavier Paoletti Sce de biostatistiques / Inserm U900 Institut Curie Qques questions pour entamer les hostilités 1. Description de la population Pourquoi parler d'âge médian et non moyen?

Plus en détail

Modélisation géostatistique des débits le long des cours d eau.

Modélisation géostatistique des débits le long des cours d eau. Modélisation géostatistique des débits le long des cours d eau. C. Bernard-Michel (actuellement à ) & C. de Fouquet MISTIS, INRIA Rhône-Alpes. 655 avenue de l Europe, 38334 SAINT ISMIER Cedex. Ecole des

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Une introduction. Lionel RIOU FRANÇA. Septembre 2008 Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4

Plus en détail

«Quelle information aux patients en recherche biomédicale? Quels enseignements en retirer pour la pratique quotidienne?»

«Quelle information aux patients en recherche biomédicale? Quels enseignements en retirer pour la pratique quotidienne?» «Quelle information aux patients en recherche biomédicale? Quels enseignements en retirer pour la pratique quotidienne?» Dr Adeline Paris Unité de Pharmacologie Clinique Centre d Investigation Clinique

Plus en détail

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont

Plus en détail

Exercices supplémentaires sur l introduction générale à la notion de probabilité 2009-2010

Exercices supplémentaires sur l introduction générale à la notion de probabilité 2009-2010 Exercices supplémentaires sur l introduction générale à la notion de probabilité 2009-2010 Exercices fortement conseillés : 6, 10 et 14 1) Un groupe d étudiants est formé de 20 étudiants de première année

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Le chi carré. Le sommaire. Approche quantitative

Le chi carré. Le sommaire. Approche quantitative Approche quantitative Le chi carré Les objectifs pédagogiques Définir le test du chi carré Déterminer la nature des données propres au chi carré Savoir calculer le chi carré Savoir déterminer les fréquences

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Hospital Anxiety and Depression Scale (HADS)

Hospital Anxiety and Depression Scale (HADS) dmt Risques psychosociaux : out ils d é va lua t ion FRPS 13 CATÉGORIE ATTEINTE À LA SANTÉ PHYSIQUE ET MENTALE Hospital Anxiety and Depression Scale (HADS) LANGEVIN V.*, FRANÇOIS M.**, BOINI S.***, RIOU

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Hedging delta et gamma neutre d un option digitale

Hedging delta et gamma neutre d un option digitale Hedging delta et gamma neutre d un option digitale Daniel Herlemont 1 Introduction L objectif de ce projet est d examiner la couverture delta-gamma neutre d un portefeuille d options digitales Asset-Or-Nothing

Plus en détail

LES DIFFERENTS TYPES DE MESURE

LES DIFFERENTS TYPES DE MESURE LES DIFFERENTS TYPES DE MESURE Licence - Statistiques 2004/2005 REALITE ET DONNEES CHIFFREES Recherche = - mesure. - traduction d une réalité en chiffre - abouti à des tableaux, des calculs 1) Qu est-ce

Plus en détail

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897

Plus en détail

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels Yann-Gaël Guéhéneuc Professeur adjoint guehene@iro.umontreal.ca, local 2345 Département d informatique et de recherche

Plus en détail

Rating et probabilité de défaut des entreprises européennes :

Rating et probabilité de défaut des entreprises européennes : Rating et probabilité de défaut des entreprises européennes : détermination par un modèle de régression logistique ordonné Éric Paget-Blanc Maître de Conférence Université d Evry Val d Essonne Chercheur

Plus en détail

MODELE A CORRECTION D ERREUR ET APPLICATIONS

MODELE A CORRECTION D ERREUR ET APPLICATIONS MODELE A CORRECTION D ERREUR ET APPLICATIONS Hélène HAMISULTANE Bibliographie : Bourbonnais R. (2000), Econométrie, DUNOD. Lardic S. et Mignon V. (2002), Econométrie des Séries Temporelles Macroéconomiques

Plus en détail

Essai Inter-groupe : FFCD UNICANCER FRENCH - GERCOR

Essai Inter-groupe : FFCD UNICANCER FRENCH - GERCOR CLIMAT - PRODIGE 30 Etude de phase III randomisée évaluant l Intérêt de la colectomie première chez les patients porteurs d un cancer colique asymptomatique avec métastases hépatiques synchrones non résécables

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE MICHÈLE PICARD FLIBOTTE EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE Essai-stage présenté à la Faculté des études supérieures de l Université Laval dans le cadre

Plus en détail

La place de SAS dans l'informatique décisionnelle

La place de SAS dans l'informatique décisionnelle La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie

Plus en détail

Evidence-based medicine en français

Evidence-based medicine en français Evidence-based medicine en français MÉDECINE FACTUELLE (Office de la langue française) Médecine fondée sur des faits démontrés Médecine fondée sur des preuves Médecine fondée sur des données probantes

Plus en détail

EVALUATION DES TECHNOLOGIES DE SANTÉ ANALYSE MÉDICO-ÉCONOMIQUE. Efficacité et efficience des hypolipémiants Une analyse centrée sur les statines

EVALUATION DES TECHNOLOGIES DE SANTÉ ANALYSE MÉDICO-ÉCONOMIQUE. Efficacité et efficience des hypolipémiants Une analyse centrée sur les statines EVALUATION DES TECHNOLOGIES DE SANTÉ ANALYSE MÉDICO-ÉCONOMIQUE Efficacité et efficience des hypolipémiants Une analyse centrée sur les statines Juillet 2010 Mise à jour Septembre 2010 1 Le rapport complet

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Imputation du salaire d ego dans TeO

Imputation du salaire d ego dans TeO Imputation du salaire d ego dans TeO Objet de la note : linéariser la réponse en tranche du salaire, et imputer le salaire en cas de non réponse Champ et principe de la méthode Les individus qui se sont

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail