Application à la base de données du TITANIC. Bérangère BERTHO & Laura SEBILLE

Documents pareils
Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Un exemple de régression logistique sous

IBM SPSS Regression 21

TRANSPORT ET LOGISTIQUE :

«Cours Statistique et logiciel R»

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Données longitudinales et modèles de survie

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

TESTS D'HYPOTHESES Etude d'un exemple

La baisse tendancielle des rentes réduitelle la demande d épargne retraite? Leçons tirées d une réforme des tables de mortalité

Coup de Projecteur sur les Réseaux de Neurones

Optimisation des ressources des produits automobile première

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse de la variance Comparaison de plusieurs moyennes

Evaluation générale de la qualité des données par âge et sexe

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

STATISTIQUES. UE Modélisation pour la biologie

Chapitre 3. Les distributions à deux variables

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Principe d un test statistique

TABLE DES MATIERES. C Exercices complémentaires 42

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Fiche d animation n 1 : Pêle-mêle

Résultats techniques de la mortalité au Canada

QU EST-CE QUI VOUS MÈNE: LA TÊTE OU LE COEUR?

ANNEXE VII EFFETS MACROECONOMIQUES DE LA REFORME PIECE JOINTE N 2 SIMULATIONS REALISEES A PARTIR DU MODELE MACROECONOMETRIQUE MESANGE

Méthodes de simulation des décès. appliquées au régime de retraite de la. fonction publique d État

Statistiques Descriptives à une dimension

Processus de validation des coûts à l appui de l attestation par l DPF

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Introduction à l approche bootstrap

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

EssentIA. REER collectif. Rencontre d adhésion

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Introduction à la statistique non paramétrique

1 Définition de la non stationnarité

Associations Dossiers pratiques

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Logiciel XLSTAT version rue Damrémont PARIS

Imputation du salaire d ego dans TeO

Arbres binaires de décision

Pratique de la Régression Logistique

Diplômes professionnels pour adultes

Chapitre 4 : Régression linéaire

MATHS FINANCIERES. Projet OMEGA

Cours de méthodes de scoring

Ratios sectoriels. Dossier exemple. Dossier exemple-caroline. Références du dossier : Date : 24/09/2012 Auteur : Caroline

Burkina Faso Profil pays EPT 2014

ITIL Gestion de la capacité

COMMISSION DE L ÉQUITÉ SALARIALE

Statistique : Résumé de cours et méthodes

VI. Tests non paramétriques sur un échantillon

ENQUETE SUR LA SITUATION DES GRANDES VILLES ET AGGLOMERATIONS EN MATIERE D ASSURANCES DOMMAGES

(Customer Relationship Management, «Gestion de la Relation Client»)

Théorie des Jeux Et ses Applications

QUELS ÉCRANS UTILISENT LES ANS ET POUR QUELS USAGES?

Relation entre deux variables : estimation de la corrélation linéaire

Introduction aux Statistiques et à l utilisation du logiciel R

LES MODELES DE SCORE

IBM SPSS Statistics Base 20

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Etude des propriétés empiriques du lasso par simulations

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Veille Opérationnelle Chapitre 5 Mesure de l efficacité des moyens de communication

ANNEXES...16 Notation...16 Rente financière certaine Mémo d Actuariat - Sophie /16

Table des matières. I Mise à niveau 11. Préface


Études épidémiologiques analytiques et biais

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

MODÈLE C MANUEL D UTILISATION ET D ENTRETIEN

BULLETIN QUESTIONS-RÉPONSES PROGRAMME D ÉQUITÉ SALARIALE


NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Scénario: Score d appétence de la carte visa premier

ANALYSE DU BESOIN. L ANALYSE FONCTIONNELLE par Jean-Marie VIRELY & all (ENS Cachan) Cette présentation décrit l outil «Analyse du Besoin».

compaction ventriculaire gauche sur la fonction ventriculaire chez l adulte

données en connaissance et en actions?

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Historique du coaching en entreprise

Cours de Tests paramétriques

Transcription:

Application à la base de données du TITANIC Bérangère BERTHO & Laura SEBILLE

Partie 1 : Généralités Partie 2 : Interprétations Partie 3 : Pour un meilleur modèle 2

1. Principe et estimation 2. Bonne ou mauvaise régression? 3. Significativité des coefficients 3

4

Objectif : Prédire les valeurs prises par Y définie dans {y 1, y 2,, y K } Y prend deux modalités : {+,-} ou {1,0} Echantillon Ω de taille n La valeur prise par Y pour un individu w est notée Y(w) 5

J descripteurs {X 1, X 2,, X J } Le vecteur de valeurs pour un individu w s écrit (X 1 (w), X 2 (w),, X J (w)) P[Y(w) = 1] = p(w) Probabilité a posteriori : P[Y(w) = 1 X(w)] = π(w) LOGIT d un individu w 6

Données 2201 observations 3 variables prédictives Objectif : prédire la survie (ou le décès) d un passager du Titanic Y = 1 si survie, 0 sinon Classe : 0 à 3 Age : 0 (enfant) ou 1 (adulte) Sexe : 0 (femme) ou 1 (homme) 7

8

Y = f(x, α) α est le vecteur des paramètres de la fonction Comment évaluer la qualité de la modélisation? Mesurer la qualité de prédiction dans la population Ω pop Erreur théorique 9

P[Y(w) = y k X(w)] Y k * = arg max k P[Y(w) = y k X(w)] Application : Titanic Survie = f(classe) CLASSE SURV 0 1 2 3 Total 0 76% 38% 59% 75% 68% 1 24% 62% 41% 25% 32% Total 100% 100% 100% 100% 100% 29 % de chance de se tromper 10

Problèmes : Lourdeur des calculs si nombreuses variables Impossible à exploiter si faibles effectifs Impossible à utiliser tels quels les descripteurs continus 11

La régression logistique produit un séparateur linéaire P(Y = y k X) Régression logistique est une méthode semi-paramétrique 12

Fonction logistique P(Y = 1 X) + P(Y = 0 X) = 1 13

Vraisemblance Log-vraisemblance Déviance Optimisation Application : Titanic Occurrence de la survie : logit = 2,05 + 0,2*1 Classe=0 + 1,06*1 Classe=1 + 0,04*1 Classe=2-0,72*1 Classe=3-1,06*1 age=adulte -2,42*1 sexe=homme 14

Modèle trivial M 0 Vérifier que le modèle fait mieux que le modèle trivial R² de Mac-Fadden : R² MF = 1 LL M / LL 0 = 0,20 15

16

a sont les vrais positifs : individus qui ont été classés positifs et qui le sont réellement c sont les faux positifs : classés positifs alors qu ils sont négatifs 17

Taux d erreur : nombre de mauvais classement rapporté à l effectif total Taux de succès : probabilité de bon classement du modèle Sensibilité : capacité du modèle à retrouver les positifs Précision : proportion de vrais positifs parmi les individus classés positifs Spécificité : proportion de négatifs détectés 18

Le taux de faux positifs (TFP) : proportion de négatifs qui ont été classés positifs La F-Mesure: moyenne harmonique entre la sensibilité et la précision 19

Survie = f(age, sexe, classe) Prédiction SURV Décès Survie Total général Décès 1364 126 1490 Survie 362 349 711 Total général 1726 475 2201 Indicateurs Vrais positifs 349 Faux positifs 126 Taux d'erreur 22% Taux de succès 78% Sensibilité 92% Précision 79% Spécificité 49% F-Mesure 0,85 Rapp. Vraisemblance 1,80 R² e = 0,31 Ce modèle est meilleur que le modèle trivial 20

Attention lors de son utilisation : Se repose sur les prédictions sans tenir compte des probabilités Probabilité estimée 0.495 Probabilité estimée 0.505 0 1 Le classement dans le groupe le plus important est toujours favorisé 21

Pourcentage de «survivants» Confronter les probabilités estimées et celles observées Diagramme de fiabilité 1,00 0,80 0,60 0,40 0,20 0,00 0,00 0,20 0,40 0,60 0,80 1,00 Moyenne des scores Ici, les points sont proches de la droite, ainsi les scores sont bien calibrés 22

Repose sur la même logique que le diagramme de fiabilité H0 : Le modèle n apporte rien H1 : Le modèle logistique apporte de l information Statistique de test C ~ Khi² (G-2) 1592 > Khi² (0,95 ; G-2) = 0,35 On rejette H0 : Le modèle est validé 23

H0 : Les scores des survivants ne sont pas significativement différents des scores des décédés Statistique de test Z ~ N(0;1) -13,43 > U(95)=1,96 24

25

26

Différentes hypothèses à tester pour valider le modèle : H 0 : a j = 0 H 0 : a j = a j+1 = = a j+q = 0 H 0 : a 1 = a 2 = = a J = 0 2 approches pour les tests : Rapport de vraisemblance Test de Wald 27

2 modèles M r : Y = a 0 +a 1 X 1 + +a s X s +a s+1 X s+1 + +a r X r M s : Y = a 0 +a 1 X 1 + +a s X s Comparaison des vraisemblances des modèles emboités H 0 : a s+1 = =a r = 0 Statistique de test LR ~Khi² (r-s) 28

Repose sur des propriétés asymptotiques de l estimateur H 0 : a 1 = =a j =0 Statistique de test W j ~Khi² (j) On privilégie le test du rapport de vraisemblance pour les petites bases de données car il est plus puissant. Pour les grosses bases de données, on privilégie le test de Wald qui est moins gourmand en ressources. 29

1. Interprétation des coefficients 2. Les interactions 30

31

Risque relatif : surcroit de chance d être positif du groupe exposé par rapport au groupe témoin Odds : rapport de probabilités dans un groupe Odds-ratio : rapport entre l odds du groupe exposé et l odds du groupe témoin 32

Survie = f(age) Odds = 0,45 Les adultes avaient 2,2 fois plus de risque de décéder que de rester en vie. Odds-ratio = 0,41 On a 2,4 fois plus de chance de survivre en étant enfant qu en étant adulte. Intervalle de confiance de l OR : [0,28 ; 0.61] Lien significatif entre l âge et la survie 33

Survie = f(classe) Estimation par l analyse du maximum de vraisemblance Estimation des odds-ratio 34

Survie = f(sexe, age) Estimation par l analyse du maximum de vraisemblance Estimation des odds-ratio 35

36

Exemple : X 1 = adulte et X 2 = sexe masculin Z = X 1 *X 2 = 1 si adulte ET sexe masculin Z = 0 Si adulte et de sexe féminin Si enfant et de sexe masculin Si enfant et de sexe féminin Application aux données du Titanic Estimation par l analyse du maximum de vraisemblance 37

Logit = 0,5 + 0,57 x Adulte 0,69 x Homme - 1,75 x Homme * Adulte Δ logit (sexe) = 0,69-1,75 x 1 = -2,44 e -2,44 = 0.09 Un homme adulte a 11 fois plus de risque de se noyer qu une femme adulte Un garçon a 3 fois plus de chance de survivre qu un homme 38

1. Sélection de variables 2. Analyse des résidus 39

40

Moins il y aura de variables, plus facile sera l interprétation Le déploiement sera facilité Plus de chance que le modèle soit robuste Principe du Rasoir d Occam La sélection manuelle est à préférer (à condition d être expert dans le domaine) 41

Procédures pas-à-pas : Sélection FORWARD Sélection BACKWARD Méthode STEPWISE 42

Objectif : minimiser un des 2 critères : AIC = -2LL + 2 x (J+1) BIC = -2LL + ln(n) x (J+1) Avec -2LL la déviance J+1 le nombre de paramètres à estimer J le nombre de variables explicatives 43

Survie = f(classe, sexe, age) Estimation par l analyse du maximum de vraisemblance Estimation des odds-ratio 44

Survie = f(classe, sexe, age) Avec interaction Estimation par l analyse du maximum de vraisemblance Proportion de survivants CLASSE SEXE Equipage 1 ère classe 2 e classe 3 e classe Femme 87% 97% 88% 46% Homme 22% 34% 14% 17% 45

46

Deux tests principaux : Résidus de déviance (Ecart) Résidus de Pearson H0 : Bon ajustement du modèle aux données H1 : Qualité du modèle insuffisante 47