MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE Pierre-Louis Gonzalez 1
I INTRODUCTION 1 variable qualitative. Tri à plat. Représentations graphiques. Modélisation : loi binomiale loi multinomiale 2
2 variables qualitatives. Tri croisé. Indépendance?. Khi-deux.... Description du tableau de contingence par analyse des correspondances simples. x x x x x x x x x x x x x x 3
Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables (tableau de Burt). Analyse des correspondances multiples But de l étude?. Modélisation.. Expliquer une variable à l aide d autres variables... 4
Effets de structure Le recours à l utilisation de modèles ( linéaires, logistiques ) est nécessaire pour isoler les effets propres. Séparation des effets Effet d une variable toutes choses égales par ailleurs Effet d une variable conditionnellement aux variables introduites dans le modèle 5
Exemple Vocations spécifiques de deux approches : description modélisation Correspondances multiples (DESCRIPTION) Description des liaisons entre les variables prises deux à deux sous forme essentiellement graphique. Modèle log linéaire (EXPLORATION DE L UNIVERS DES MODÈLES) Description des interactions entre plus de deux variables dans un cadre inférentiel. N impose aucune hypothèse sur les liaisons, mais impose une certaine homogénéité de l ensemble des variables actives. Des hypothèses sur les liaisons doivent être formulées au préalable. N est pas limitée dans le nombre de variables. Est limité à peu de variables (en pratique moins de 5). 6
Correspondances multiples (DESCRIPTION) Met seulement en jeu les faces de l hypercube représentées par le tableau de Burt. i j l i k ij k il Modèle log linéaire (EXPLORATION DE L UNIVERS DES MODELES) Met en jeu toutes les cases d un hypercube de contingence. l j k jl j l k jl i k il k ij k ijl Les individus peuvent jouer un rôle central. L analyse sert à produire des typologies d individus. Les individus n apparaissent pas. 7
II LES MÉTHODES EXPLICATIVES VARIABLE À EXPLIQUER VARIABLES EXPLICATIVES X 1,..., X K Y Numériques Nominales Mixte Numérique Régression multiple Analyse de la variance Analyse de la covariance REG GLM GLM ANOVA GLM Qualitative Analyse discriminante CANDISC STEPDISC DISCRIM DISQUAL Analyse discriminante sur variables qualitatives 8
VARIABLE À EXPLIQUER VARIABLES EXPLICATIVES X 1,..., X K Y Numériques Nominales Mixte Nominale à deux modalités RÉGRESSION LOGISTIQUE LOGISTIC GENMOD Nominale MODÈLE LINÉAIRE GÉNÉRALISÉ LOGISTIC CATMOD GENMOD Ordinale RÉGRESSION LOGISTIQUE ou MODÈLE LINÉAIRE GÉNÉRALISÉ LOGISTIC CATMOD 9
III VARIABLE QUALITATIVE À EXPLIQUER 1 Variable dichotomique : Y { 01, } Exemple 1 Soit P la population des ménages : Y i = 1 0 si le ménage i P, possède un bien durable sinon X i = ( AGE, CSP, SALAIRE, HABITAT,...) régresseurs 10
Exemple 2 Soit P la population des clients potentiels d une banque : «CREDIT SCORING» Y i = 1 0 si un crédit est accordé au client i sinon X i = ( AGE, REVENU, PRODUIT BANCAIRE, LIEU DE NAISSANCE,...) 11
Exemple 3 Soit P la population des sujets testés à une dose «DOSAGE LEVEL» Y i = 1 0 si le sujet P réagit au stimulus sinon i X i = ( NIVEAU DE LA DOSE, POIDS, AGE,...) La variable réponse à expliquer Y est une variable de Bernoulli de paramètre p i. ( ) ( ) p = Pr Y = 1 X = E Y X i i i i i ( ) Y X B 1, p i i i OBJECTIF Exprimer p i en fonction de X i 12
2 Variable polytomique Polytomique ordonnée Exemple 1 Soit P la population d étudiants : si l'étudiant 1 i P Yi = 2 si l'étudiant i P 3 si l'étudiant i P pratique du sport tous les jours pratique du sport une ou plusieurs fois par semaine pratique du sport plus rarement La variable réponse Y : «pratique du sport» est codée X i = ( AGE, SEXE, TYPE D' ETUDES,...) 13
Exemple 2 Soit P la population de chômeurs à la date t : Y i = 1 2 3 4 i si l individu i P est en formation (stage) si l individu i P a un contrat CDD si l individu P est toujours au chômage à la date si l individu i P a un contrat CDI t + δ X i = ( AGE, SEXE, DIPLOME, QUALIFICATION...) 14
Polytomique non ordonnée Y i «distraction du samedi soir» Y i = 1 = 2 = 3 = 4 = télévision théatre cinéma visite amis X i = ( AGE, SEXE, CSP, HABITAT,...) OBJECTIF Exprimer pij = P( Yi = j Xi ) en fonction de Xi pour j= 1, 2, 3... 15
IV POURQUOI DES MODÈLES PARTICULIERS? 1 Cas de la régression linéaire classique Y = x β + i i i ε 1 variable aléatoire quantitative prédicteur linéaire (élément déterminé) variable aléatoire 16
( i i i) E ε X = x = 0 Par la suite, on notera les espérances sans conditionnement X i = x i ce qui revient à considérer X i est non aléatoire. On notera indifféremment X i ou x i. V ( ε ) i = σ 2 ε i Si de plus est supposée gaussienne, l estimateur des moindres carrés ordinaire : β = 1 Xy ( XX) est l estimateur du maximum de vraisemblance. 17
2 Cas de la régression d une variable dichotomique Si on modélise par 1, on obtient un résidu qui est une v.a.r. discrète prenant deux valeurs : 1 ε ε ( ) = 1 x β avec la probalilité p = P Y = 1 = x β avec la probalilité 1 p i i i i i i i Si on modélise par 1 l estimateur β n est plus efficace. 1 EY ( ) = i x i β Or Y B 1,p E Y = p ( ) ( ) i i i i Le modèle 1 est donc inapproprié! pi = xiβ une valeur qui n est pas forcément entre 0 et 1 18
V NIVEAU D UTILITÉ, VARIABLE LATENTE 1 Cas de variable latente Z i «intensité du désir de posséder le bien» Z i non observable pour le ménage i caractérisé par x i Yi = 0 Zi < s Yi = 1 Zi s ( seuil thérorique) Y = 1 I c est-à-dire i ( Z s) i 19
2 Fonction d utilité Soit u u ( ) 1, le niveau d utilité procuré par la possession du bien x i ( ) 0, le niveau d utilité procuré par la non possession du bien x i (, ) (, ) (, ) (, ) Y = 0 u 0 x > u 1 x Y = 1 u 1 x u 0 x i i i i i i c est-à-dire : ( 1, ) ( 0, ) Z = u x u x i i i Yi = 1I ( 0 ) Z i 20
Dans ces deux cas, on peut exprimer la probabilité ( ) p = P Y = 1 x comme : i i i ( ) p = P Z s i i 21
VI MODÈLE THÉORIQUE 1 Données statistiques ( 1 p Y x x ) i, i,, i i = 1 à n variable dichotomique { 01, } p variables explicatives quantitatives ou qualitatives taille de l échantillon X i vecteur de R p (On supposera ( x= 1 i 1 i ) de façon à définir un modèle avec constante) 22
En introduisant Z variable latente non observable telle que : Z Y = X β + i i i i = 1I > 0 Z i ε ( 1) ( ε β) p = P Y = = P < X i i i i = FX ( i β) fonction de répartition de ε i 23
2 Modèle stochastique général ( Y X ), =1 i.i.d tel que : i i i n H:Y X ( ) ( ) H : p = P Y = X = F X β 2 i i 1 i i où : B(1,p) 1 i i i [, ] F R 01 fonction de répartition Le paramètre, vecteur de R p formé des coefficients de régression est inconnu. β 24
3 Modèles PROBIT, LOGIT,... L hypothèse H 2 dépend du choix de la fonction F. Les modèles paramétriques usuels sont : 3.1 Le modèle probit 2 ω 1 t F ( ω ) = Φ( ω ) = exp dt ω R 2Π 2 Fonction de répartition de la loi normale centrée réduite N(0;1) F 1 = 1 Φ probit 25
3.2 Le modèle logit F ω e 1 ω = = ω ω ω 1+ e 1+ e ( ) Fonction de répartition de la loi logistique de moyenne 0 et de variance Π 2 3 F 1 ( t) = ln t 1 t logit 26
3.3 Le modèle complémentaire log-log (ou modèle Gompit) ( ) exp ( ω ) F ω = 1 e ω Fonction de répartition de la loi de Gompertz de moyenne 0,577 (constante d Euler) et de variance Π 2 6 ( ) ( ) = ln ln( 1 ) 1 F t t Remarque Cette loi est dissymétrique. 27
4 Comparaison des modèles LOGIT et PROBIT DENSITÉS f = F -------- 0,3 0,2 0,1-3 -2-1 0 1 2 3 1 04 2Π, ω f 0 ( ω) f( ω) f 1 ( ω) Modèle PROBIT Φ( ω) ω = 1 2Π e 2 2 t / dt ( ω) f = 0 1 2Π e ω 2 / 2 1 = = + ω 1 e 1 Modèle LOGIT F( ω) f ( ω) e ω ( ω + e ) 1 Π = = 1 + Πω/ e 3 1 Modèle LOGIT réduit F ( ω) f ( ω) 1 3 1 2 e Πω / 3 ( Πω / + e ) 3 2 28
Sur les extrêmes la loi logistique s approche un peu plus lentement de 0 ou de 1. 29
Comparaison des fonctions de répartition 30
DIFFÉRENCE ( F 1 Φ ) ( ω) 0.02 0.01 0 1,8 1 2 ω CONCLUSION. Les lois F 1 et Φ sont proches modèles équivalents... La précédure de SAS, «LOGISTIC» utilise F ou Φ. Les estimateurs obtenus avec F (logit) seront Π / 3 fois Φ plus grands qu avec (probit).... Le modèle LOGIT est préférable car les calculs sont plus simples. 31
Dans la plupart des cas pratiques, on peut donc choisir indifféremment l un ou l autre modèle. Le modèle LOGIT a l avantage d une plus grande simplicité numérique. Le modèle PROBIT est en revanche plus proche du modèle habituel de régression par les moindres carrés. Avantages du modèle LOGIT Les coefficients du modèle LOGIT sont interprétables en termes d odds-ratio. Un échantillonnage ne respectant pas les proportions réelles dans la population des deux modalités de la variable à expliquer Y ne change que la constante dans le modèle. 32
VII PRINCIPES GÉNÉRAUX : ESTIMATION DU VECTEUR β 1 La méthode du maximum de vraisemblance Échantillon x 1... x n Loi de probabilité de x i (, θ) θ ( θ,, θ ) f x i où = Ω 1 k Vraisemblance n L( θ) = f( xi, θ) dépend des xi et des θ i= 1 Estimation du maximum de vraisemblance ( ) = MAX L( ) θ L θ θ θ Ω Log L θ ( θ) On obtient en général en annulant les dérivées premières θ i 33
Scores u i ( θ) = Log L θ i ( θ) ( ) ( θ) ( θ) ( θ) u = u u 1,, k = vecteur score ( ) On a : u θ = 0 Matrice d information de Fisher I ( θ) = E ( ) estimée par : I θ 2 Log θ 2 L = ( θ) 2 Log θ 2 L ( θ) θ= θ 34
Résultats θ=vecteur des paramètres θ =estimation du maximum de vraisemblance 1. ˆ θ N θ; I θ 1 2. u ( θ) N 0 ; I ( θ) ( ) 3. ( θ θ) ( θ) ( θ θ) I χ( 2 k ) 4. u ( θ) 1 I( θ) u( θ) 5. = 2 Log L L ( θ) ( θˆ ) 2 χ( k ) Λ χ( 2 k ) 35
2 Test global H 0 : θ= θ 0 Statistiques 1. Statistique de Wald ( θ θ ) ( θ ) ( θ θ ) 0 0 0 2. Statistique du score I 2 sous H 0 χ (k) 1 ( ) ( ) ( ) u θ I θ u θ sous H 0 Avantage : pas de calcul de θ 0 0 0 2 χ (k) 3. Statistique des vraisemblances Λ= 2 Log L L ( θ ) 2 0 θ ( ) χ (k) sous H 0 36
3 Test partiel ( ) θ θ, θ θ a p coordonnées = 1 2 1 (, ) θ = θ θ = 1 2 estimation du M.V. Test H 0 : θ 1 = θ 10 ( ) On calcule θ = θ, θ ~ avec θ H L H 0 10 2 ( θ ) 10, θ ~ 2 = max L( θ10, θ2) θ = estimation de sous θ 2 H 0 0 37
Statistiques utilisées Var 1. Wald ( ) ( ) 1 θˆ ( ) 1 θ ˆ 10 θ1 θ1 θ10 ( θ ) ( θ ) ( θ ) 1 est extrait de = Var Var I 2 χ (p) 1 sous H 0 2. Score 1 ( θ ) ( ) ( ) H θ H θh u I u 0 0 0 2 χ sous H (p) 0 3. Rapport de vraisemblance Λ= 2 Log L L ( θ ) 10 θ2 ( θ ) 1, θ 2, ~ 2 χ (p) sous H 0 38