«Cours Statistique et logiciel R»

Documents pareils
TABLE DES MATIERES. C Exercices complémentaires 42

Correction du baccalauréat STMG Polynésie 17 juin 2014

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

TRANSPORT ET LOGISTIQUE :

Coup de Projecteur sur les Réseaux de Neurones

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Chapitre 3. Les distributions à deux variables

IBM SPSS Regression 21

Optimisation des ressources des produits automobile première

Données longitudinales et modèles de survie

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

aux différences est appelé équation aux différences d ordre n en forme normale.

Feuille TD n 1 Exercices d algorithmique éléments de correction

Chapitre 4 : Régression linéaire

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

NON-LINEARITE ET RESEAUX NEURONAUX

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Probabilités sur un univers fini

Introduction à l approche bootstrap

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement

Arbres binaires de décision

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION

Modèles prédictifs belges de l absentéisme pour cause de maladie ou d accident.

Charte d adhésion d un laboratoire au Mésocentre CIMENT

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Nombre dérivé et tangente

Résolution d équations non linéaires

ANTISELECTION ET CHOIX D'ASSURANCE : LE CAS DU VOL EN HABITATION UNE APPROCHE DE LA MESURE DU PHENOMENE

Les Notes de l Institut d émission

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Soutenance de stage Laboratoire des Signaux et Systèmes

4.2 Unités d enseignement du M1

Programmation Linéaire - Cours 1

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Le VIH et votre apparence physique

STATISTIQUES. UE Modélisation pour la biologie

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Optimisation, traitement d image et éclipse de Soleil

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Régression linéaire. Nicolas Turenne INRA

Valeur ajoutée relative basée sur les comparaisons indirectes Giens 2008, TR 5

Les équations différentielles

Probabilités III Introduction à l évaluation d options

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

Correction du baccalauréat ES/L Métropole 20 juin 2014

BTS Groupement A. Mathématiques Session Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Analyse de la variance Comparaison de plusieurs moyennes

Réalisé par : Mlle Rajae TOUZANI. Master 2 Economie de la santé dans. les pays en développement et en

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

STATISTIQUES A DEUX VARIABLES

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Introduction : Essais de phase I

Calculabilité Cours 3 : Problèmes non-calculables.

SSNL126 - Flambement élastoplastique d'une poutre droite. Deux modélisations permettent de tester le critère de flambement en élastoplasticité :

Le modèle de Black et Scholes

L allocataire dans un couple : l homme ou la femme?

Un exemple de régression logistique sous

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Université de Caen Basse-Normandie. Christophe Chesneau.

Chaînes de Markov au lycée

Programmation linéaire

M2 IAD UE MODE Notes de cours (3)

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Études épidémiologiques analytiques et biais

Logiciel XLSTAT version rue Damrémont PARIS

Introduction au Data-Mining

Débouchés professionnels

A. Définition et formalisme

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

données en connaissance et en actions?

Modélisation de la dépendance entre les garanties applicables en assurance automobile

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Continuité et dérivabilité d une fonction

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Outils pour les réseaux de neurones et contenu du CD-Rom

La prise en charge de votre artérite des membres inférieurs

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Docteur José LABARERE

Équations non linéaires

Ressources pour le lycée général et technologique

Les portes logiques. Voici les symboles des trois fonctions de base. Portes AND. Portes OR. Porte NOT

1 Définition de la non stationnarité

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Transcription:

«Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire Jean Kuntzmann, Dép. Modele et Algorithmes Déterministes

Plan de la présentation 1 2

La régression logistique permet de relier une variable qualitative (souvent binaire) à des variables X 1,, X p Exemples En épidémiologie, survenue d une maladie à un groupe de facteurs de risque, avec des poids spécifiques pour chaque facteur de risque En fiabilité : survenu d un accident sur une ligne de production

Exemple Le but est d expliquer une pathologie coronarienne par la présence de deux facteurs de risque bien connus : la consommation de tabac la cholestérolémie. Chaque patient est représenté par 3 variables. La variable pathologie coronarienne est binaire (1 pour oui, 0 pour non), la variable tabagisme et la variable cholestérolémie.

Idée basique Une première idée est de modéliser la probabilité d être atteint d une coronopathie par une régression linéaire avec une équation du type : P(coronopathie = 1) = a 0 + a 1 tabac + a 2 cholesterol Mais ce modèle peut conduire à des probabilités prédites négatives ou supérieures à 1.

La fonction logit On définit la fonction logit sur l intervalle [0, 1] par la relation ( ) p logit(p) = log 1 p log(p/(1 p)) 6 4 2 0 2 4 6 0.0 0.2 0.4 0.6 0.8 1.0 p

On note Y i la variable qui vaut 1 si le patient i est atteint de la maladie et 0 sinon p i = P(Y i = 1) la probabilité du patient i d être atteint d une maladie X 1,, X p des facteurs de risque, Régression logistique logistique ou logit correspond à la relation : logit(p i ) = a 0 + a 1 X 1,i + a 2 X 2,i + + a p X p,i

Exemple ( ) pi log = logit(p i ) = a 0 + a 1 tabac + a 2 cholesterol 1 p i où Y i désigne la présence d une coronopathie pour le patient i.

Estimation des paramètres L estimation des paramètres du modèle de régression logistique se fait par la méthode du maximum de vraisemblance. On maximise la vraisemblance par rapport aux paramètres a 0, a 1,, a p au moyen d un algorithme numérique (par exemple, la méthode du gradient). Dans certains cas, l algorithme ne peut proposer une estimation stable des paramètres. En pratique, il faut s assurer que la procédure numérique a convergé vers des valeurs stables des paramètres.

Tests de significativité des paramètres Pour tester la significativité d un coefficient H 0 : a p = 0 on utilise un test de Wald. Sous H 0, â p χ 2 (1) ˆV (â p ) Une absence d association entre la variable binaire Y et la variable X p se traduit par l hypothèse H 0 : a p = 0.

Odds-Ratio Exemple variable Y qui vaut 1 si le patient est malade et 0 s il est sain variable Sexe codée par 0 pour les femmes et 1 pour les hommes Tableau de contingence Sexe 0 1 Maladie 1 p 0 p 1 0 1 p 0 1 p 1 L Odds-Ratio permet de mesurer l association entre deux variables binaires. OR = p 1 1 p 1 / p 0 1 p 0

de régression logistique est très utilisé à cause de son lien avec l Odds-Ratio. Dans le modèle logit [P(Y = 1 Sexe)] = a 0 + a 1 Sexe, on a OR = exp(a 1 ) Interprétation : Si OR = 1, dans notre exemple, la probabilité d être malade est la même chez les Hommes que chez les Femmes, donc le risque de maladie n est pas associé à la variable Sexe.

Calculer un Odds-Ratio entre les variables binaires Y et X 1 en tenant compte des variables (X j, 2 j p) Estimer un modèle logit [P(Y = 1 X 1, X 2,, X p )] = a 0 + a 1 X 1 + a 2 X 2 + + a p X p Calculer l Odds-Ratio ajusté : OR (Xj,2 j p) = exp(a 1 )

Avec R data=read.table("usi.txt", header=true) res=glm(decede SEXE, data=data, family = "binomial") summary(res) resc=glm(decede AGE+SERV+INF_J0+TAS+SEXE+FC+TYP_AD+PH+BICAR +CONSC+GLASGOW, data=data, family = "binomial") summary(resc) step(resc) resf=glm(decede AGE+TAS+TYP_AD+PH+CONSC, data=data, family = "binomial") summary(resf) boxplot(resf$residuals data$typ_ad); abline(h=0)