MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE



Documents pareils
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

TABLE DES MATIERES. C Exercices complémentaires 42

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

PROBABILITES ET STATISTIQUE I&II

Données longitudinales et modèles de survie

Relation entre deux variables : estimation de la corrélation linéaire

Simulation de variables aléatoires

Exercice : la frontière des portefeuilles optimaux sans actif certain

Modèles pour données répétées

Chapitre 3. Les distributions à deux variables

Probabilités III Introduction à l évaluation d options

FORMULAIRE DE STATISTIQUES

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

«Cours Statistique et logiciel R»

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

1 Complément sur la projection du nuage des individus

Probabilités sur un univers fini

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Lois de probabilité. Anita Burgun

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Logiciel XLSTAT version rue Damrémont PARIS

Méthodes de Simulation

STATISTIQUES. UE Modélisation pour la biologie

Probabilités sur un univers fini

Que faire lorsqu on considère plusieurs variables en même temps?

Un exemple de régression logistique sous

Traitement des données avec Microsoft EXCEL 2010

Analyse de la variance Comparaison de plusieurs moyennes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Arbres binaires de décision

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Cours de méthodes de scoring

Imputation du salaire d ego dans TeO

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

ESSEC Cours Wealth management

23. Interprétation clinique des mesures de l effet traitement

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

VI. Tests non paramétriques sur un échantillon

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

IBM SPSS Statistics Base 20

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Statistique Descriptive Élémentaire

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Classification non supervisée

Probabilités Loi binomiale Exercices corrigés

Introduction aux Statistiques et à l utilisation du logiciel R

données en connaissance et en actions?

Modélisation de la dépendance entre les garanties applicables en assurance automobile

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Introduction à la Statistique Inférentielle

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

FONCTION DE DEMANDE : REVENU ET PRIX

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

MÉTHODE DE MONTE CARLO.

Localisation des fonctions

Modèles et Méthodes de Réservation

IBM SPSS Regression 21

Scénario: Score d appétence de la carte visa premier

Valorisation d es des options Novembre 2007

Analyse en Composantes Principales

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

Modélisation des risques

PROJET MODELE DE TAUX

MATHS FINANCIERES. Projet OMEGA

Correction de l examen de la première session

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Statistique Descriptive Multidimensionnelle. (pour les nuls)

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

LES DIFFERENTS TYPES DE MESURE

Le modèle de régression linéaire

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

CNAM léments de cours Bonus-malus et Crédibilité

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Biostatistiques : Petits effectifs

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

L allocataire dans un couple : l homme ou la femme?

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Modélisation aléatoire en fiabilité des logiciels

Chapitre 1: Introduction à la théorie de l équilibre à prix fixes

Travaux dirigés d introduction aux Probabilités

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Couples de variables aléatoires discrètes

Exemples d application

Cours de Tests paramétriques

Statistiques Descriptives à une dimension

Modèle GARCH Application à la prévision de la volatilité

Enjeux mathématiques et Statistiques du Big Data

Processus aléatoires avec application en finance

Théorie de l estimation et de la décision statistique

de calibration Master 2: Calibration de modèles: présentation et simulation d

Le modèle de Black et Scholes

Transcription:

MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE Pierre-Louis Gonzalez 1

I INTRODUCTION 1 variable qualitative. Tri à plat. Représentations graphiques. Modélisation : loi binomiale loi multinomiale 2

2 variables qualitatives. Tri croisé. Indépendance?. Khi-deux.... Description du tableau de contingence par analyse des correspondances simples. x x x x x x x x x x x x x x 3

Plus de deux variables qualitatives. Tris croisés pour tous les couples de variables (tableau de Burt). Analyse des correspondances multiples But de l étude?. Modélisation.. Expliquer une variable à l aide d autres variables... 4

Effets de structure Le recours à l utilisation de modèles ( linéaires, logistiques ) est nécessaire pour isoler les effets propres. Séparation des effets Effet d une variable toutes choses égales par ailleurs Effet d une variable conditionnellement aux variables introduites dans le modèle 5

Exemple Vocations spécifiques de deux approches : description modélisation Correspondances multiples (DESCRIPTION) Description des liaisons entre les variables prises deux à deux sous forme essentiellement graphique. Modèle log linéaire (EXPLORATION DE L UNIVERS DES MODÈLES) Description des interactions entre plus de deux variables dans un cadre inférentiel. N impose aucune hypothèse sur les liaisons, mais impose une certaine homogénéité de l ensemble des variables actives. Des hypothèses sur les liaisons doivent être formulées au préalable. N est pas limitée dans le nombre de variables. Est limité à peu de variables (en pratique moins de 5). 6

Correspondances multiples (DESCRIPTION) Met seulement en jeu les faces de l hypercube représentées par le tableau de Burt. i j l i k ij k il Modèle log linéaire (EXPLORATION DE L UNIVERS DES MODELES) Met en jeu toutes les cases d un hypercube de contingence. l j k jl j l k jl i k il k ij k ijl Les individus peuvent jouer un rôle central. L analyse sert à produire des typologies d individus. Les individus n apparaissent pas. 7

II LES MÉTHODES EXPLICATIVES VARIABLE À EXPLIQUER VARIABLES EXPLICATIVES X 1,..., X K Y Numériques Nominales Mixte Numérique Régression multiple Analyse de la variance Analyse de la covariance REG GLM GLM ANOVA GLM Qualitative Analyse discriminante CANDISC STEPDISC DISCRIM DISQUAL Analyse discriminante sur variables qualitatives 8

VARIABLE À EXPLIQUER VARIABLES EXPLICATIVES X 1,..., X K Y Numériques Nominales Mixte Nominale à deux modalités RÉGRESSION LOGISTIQUE LOGISTIC GENMOD Nominale MODÈLE LINÉAIRE GÉNÉRALISÉ LOGISTIC CATMOD GENMOD Ordinale RÉGRESSION LOGISTIQUE ou MODÈLE LINÉAIRE GÉNÉRALISÉ LOGISTIC CATMOD 9

III VARIABLE QUALITATIVE À EXPLIQUER 1 Variable dichotomique : Y { 01, } Exemple 1 Soit P la population des ménages : Y i = 1 0 si le ménage i P, possède un bien durable sinon X i = ( AGE, CSP, SALAIRE, HABITAT,...) régresseurs 10

Exemple 2 Soit P la population des clients potentiels d une banque : «CREDIT SCORING» Y i = 1 0 si un crédit est accordé au client i sinon X i = ( AGE, REVENU, PRODUIT BANCAIRE, LIEU DE NAISSANCE,...) 11

Exemple 3 Soit P la population des sujets testés à une dose «DOSAGE LEVEL» Y i = 1 0 si le sujet P réagit au stimulus sinon i X i = ( NIVEAU DE LA DOSE, POIDS, AGE,...) La variable réponse à expliquer Y est une variable de Bernoulli de paramètre p i. ( ) ( ) p = Pr Y = 1 X = E Y X i i i i i ( ) Y X B 1, p i i i OBJECTIF Exprimer p i en fonction de X i 12

2 Variable polytomique Polytomique ordonnée Exemple 1 Soit P la population d étudiants : si l'étudiant 1 i P Yi = 2 si l'étudiant i P 3 si l'étudiant i P pratique du sport tous les jours pratique du sport une ou plusieurs fois par semaine pratique du sport plus rarement La variable réponse Y : «pratique du sport» est codée X i = ( AGE, SEXE, TYPE D' ETUDES,...) 13

Exemple 2 Soit P la population de chômeurs à la date t : Y i = 1 2 3 4 i si l individu i P est en formation (stage) si l individu i P a un contrat CDD si l individu P est toujours au chômage à la date si l individu i P a un contrat CDI t + δ X i = ( AGE, SEXE, DIPLOME, QUALIFICATION...) 14

Polytomique non ordonnée Y i «distraction du samedi soir» Y i = 1 = 2 = 3 = 4 = télévision théatre cinéma visite amis X i = ( AGE, SEXE, CSP, HABITAT,...) OBJECTIF Exprimer pij = P( Yi = j Xi ) en fonction de Xi pour j= 1, 2, 3... 15

IV POURQUOI DES MODÈLES PARTICULIERS? 1 Cas de la régression linéaire classique Y = x β + i i i ε 1 variable aléatoire quantitative prédicteur linéaire (élément déterminé) variable aléatoire 16

( i i i) E ε X = x = 0 Par la suite, on notera les espérances sans conditionnement X i = x i ce qui revient à considérer X i est non aléatoire. On notera indifféremment X i ou x i. V ( ε ) i = σ 2 ε i Si de plus est supposée gaussienne, l estimateur des moindres carrés ordinaire : β = 1 Xy ( XX) est l estimateur du maximum de vraisemblance. 17

2 Cas de la régression d une variable dichotomique Si on modélise par 1, on obtient un résidu qui est une v.a.r. discrète prenant deux valeurs : 1 ε ε ( ) = 1 x β avec la probalilité p = P Y = 1 = x β avec la probalilité 1 p i i i i i i i Si on modélise par 1 l estimateur β n est plus efficace. 1 EY ( ) = i x i β Or Y B 1,p E Y = p ( ) ( ) i i i i Le modèle 1 est donc inapproprié! pi = xiβ une valeur qui n est pas forcément entre 0 et 1 18

V NIVEAU D UTILITÉ, VARIABLE LATENTE 1 Cas de variable latente Z i «intensité du désir de posséder le bien» Z i non observable pour le ménage i caractérisé par x i Yi = 0 Zi < s Yi = 1 Zi s ( seuil thérorique) Y = 1 I c est-à-dire i ( Z s) i 19

2 Fonction d utilité Soit u u ( ) 1, le niveau d utilité procuré par la possession du bien x i ( ) 0, le niveau d utilité procuré par la non possession du bien x i (, ) (, ) (, ) (, ) Y = 0 u 0 x > u 1 x Y = 1 u 1 x u 0 x i i i i i i c est-à-dire : ( 1, ) ( 0, ) Z = u x u x i i i Yi = 1I ( 0 ) Z i 20

Dans ces deux cas, on peut exprimer la probabilité ( ) p = P Y = 1 x comme : i i i ( ) p = P Z s i i 21

VI MODÈLE THÉORIQUE 1 Données statistiques ( 1 p Y x x ) i, i,, i i = 1 à n variable dichotomique { 01, } p variables explicatives quantitatives ou qualitatives taille de l échantillon X i vecteur de R p (On supposera ( x= 1 i 1 i ) de façon à définir un modèle avec constante) 22

En introduisant Z variable latente non observable telle que : Z Y = X β + i i i i = 1I > 0 Z i ε ( 1) ( ε β) p = P Y = = P < X i i i i = FX ( i β) fonction de répartition de ε i 23

2 Modèle stochastique général ( Y X ), =1 i.i.d tel que : i i i n H:Y X ( ) ( ) H : p = P Y = X = F X β 2 i i 1 i i où : B(1,p) 1 i i i [, ] F R 01 fonction de répartition Le paramètre, vecteur de R p formé des coefficients de régression est inconnu. β 24

3 Modèles PROBIT, LOGIT,... L hypothèse H 2 dépend du choix de la fonction F. Les modèles paramétriques usuels sont : 3.1 Le modèle probit 2 ω 1 t F ( ω ) = Φ( ω ) = exp dt ω R 2Π 2 Fonction de répartition de la loi normale centrée réduite N(0;1) F 1 = 1 Φ probit 25

3.2 Le modèle logit F ω e 1 ω = = ω ω ω 1+ e 1+ e ( ) Fonction de répartition de la loi logistique de moyenne 0 et de variance Π 2 3 F 1 ( t) = ln t 1 t logit 26

3.3 Le modèle complémentaire log-log (ou modèle Gompit) ( ) exp ( ω ) F ω = 1 e ω Fonction de répartition de la loi de Gompertz de moyenne 0,577 (constante d Euler) et de variance Π 2 6 ( ) ( ) = ln ln( 1 ) 1 F t t Remarque Cette loi est dissymétrique. 27

4 Comparaison des modèles LOGIT et PROBIT DENSITÉS f = F -------- 0,3 0,2 0,1-3 -2-1 0 1 2 3 1 04 2Π, ω f 0 ( ω) f( ω) f 1 ( ω) Modèle PROBIT Φ( ω) ω = 1 2Π e 2 2 t / dt ( ω) f = 0 1 2Π e ω 2 / 2 1 = = + ω 1 e 1 Modèle LOGIT F( ω) f ( ω) e ω ( ω + e ) 1 Π = = 1 + Πω/ e 3 1 Modèle LOGIT réduit F ( ω) f ( ω) 1 3 1 2 e Πω / 3 ( Πω / + e ) 3 2 28

Sur les extrêmes la loi logistique s approche un peu plus lentement de 0 ou de 1. 29

Comparaison des fonctions de répartition 30

DIFFÉRENCE ( F 1 Φ ) ( ω) 0.02 0.01 0 1,8 1 2 ω CONCLUSION. Les lois F 1 et Φ sont proches modèles équivalents... La précédure de SAS, «LOGISTIC» utilise F ou Φ. Les estimateurs obtenus avec F (logit) seront Π / 3 fois Φ plus grands qu avec (probit).... Le modèle LOGIT est préférable car les calculs sont plus simples. 31

Dans la plupart des cas pratiques, on peut donc choisir indifféremment l un ou l autre modèle. Le modèle LOGIT a l avantage d une plus grande simplicité numérique. Le modèle PROBIT est en revanche plus proche du modèle habituel de régression par les moindres carrés. Avantages du modèle LOGIT Les coefficients du modèle LOGIT sont interprétables en termes d odds-ratio. Un échantillonnage ne respectant pas les proportions réelles dans la population des deux modalités de la variable à expliquer Y ne change que la constante dans le modèle. 32

VII PRINCIPES GÉNÉRAUX : ESTIMATION DU VECTEUR β 1 La méthode du maximum de vraisemblance Échantillon x 1... x n Loi de probabilité de x i (, θ) θ ( θ,, θ ) f x i où = Ω 1 k Vraisemblance n L( θ) = f( xi, θ) dépend des xi et des θ i= 1 Estimation du maximum de vraisemblance ( ) = MAX L( ) θ L θ θ θ Ω Log L θ ( θ) On obtient en général en annulant les dérivées premières θ i 33

Scores u i ( θ) = Log L θ i ( θ) ( ) ( θ) ( θ) ( θ) u = u u 1,, k = vecteur score ( ) On a : u θ = 0 Matrice d information de Fisher I ( θ) = E ( ) estimée par : I θ 2 Log θ 2 L = ( θ) 2 Log θ 2 L ( θ) θ= θ 34

Résultats θ=vecteur des paramètres θ =estimation du maximum de vraisemblance 1. ˆ θ N θ; I θ 1 2. u ( θ) N 0 ; I ( θ) ( ) 3. ( θ θ) ( θ) ( θ θ) I χ( 2 k ) 4. u ( θ) 1 I( θ) u( θ) 5. = 2 Log L L ( θ) ( θˆ ) 2 χ( k ) Λ χ( 2 k ) 35

2 Test global H 0 : θ= θ 0 Statistiques 1. Statistique de Wald ( θ θ ) ( θ ) ( θ θ ) 0 0 0 2. Statistique du score I 2 sous H 0 χ (k) 1 ( ) ( ) ( ) u θ I θ u θ sous H 0 Avantage : pas de calcul de θ 0 0 0 2 χ (k) 3. Statistique des vraisemblances Λ= 2 Log L L ( θ ) 2 0 θ ( ) χ (k) sous H 0 36

3 Test partiel ( ) θ θ, θ θ a p coordonnées = 1 2 1 (, ) θ = θ θ = 1 2 estimation du M.V. Test H 0 : θ 1 = θ 10 ( ) On calcule θ = θ, θ ~ avec θ H L H 0 10 2 ( θ ) 10, θ ~ 2 = max L( θ10, θ2) θ = estimation de sous θ 2 H 0 0 37

Statistiques utilisées Var 1. Wald ( ) ( ) 1 θˆ ( ) 1 θ ˆ 10 θ1 θ1 θ10 ( θ ) ( θ ) ( θ ) 1 est extrait de = Var Var I 2 χ (p) 1 sous H 0 2. Score 1 ( θ ) ( ) ( ) H θ H θh u I u 0 0 0 2 χ sous H (p) 0 3. Rapport de vraisemblance Λ= 2 Log L L ( θ ) 10 θ2 ( θ ) 1, θ 2, ~ 2 χ (p) sous H 0 38