Erich FERRAGUTI Teddy HENNART Projet Statistiques - Rapport - A l attention de Julien JACQUES Le vendredi 15 mai 2009
Sommaire 1. Introduction... 4 1.1. But... 4 1.2. Cadre... 4 1.3. Contenu... 4 2. Sujet... 5 2.1. Enoncé... 5 2.2. Objectifs... 5 2.3. Contraintes... 5 3. Description des variables... 6 3.1. Année d adhésion... 6 3.2. Département de résidence... 6 3.3. Age... 6 3.4. Profession... 6 3.5. Situation familiale... 6 3.6. Sexe... 7 3.7. Fractionnement du paiement... 7 3.8. Nombre de voitures... 7 3.9. Nombre de sinistres corporels... 7 3.10. Nombre de sinistres matériels... 7 4. Notre démarche... 8 4.1. Préparation... 8 4.1.1. Importation des données... 8 4.1.2. Attribution d un identifiant... 8 4.1.3. Discrétisation des variables... 8 4.1.3.1. Année d adhésion... 9 4.1.3.2. Age... 9 4.1.3.3. Nombre de sinistres corporels... 9 4.1.3.4. Nombre de sinistres matériels... 9 4.2. Analyse Factorielle... 10 4.2.1. Création d un tableau disjonctif complet... 10 4.2.2. Analyse en composantes multiples (ACM)... 10 4.2.3. Projection dans le plan... 11 4.3. Typologie... 11 4.3.1. Classification ascendante hiérarchique (CAH)... 11 2
4.3.1.1. Proc FASTCLUS... 11 4.3.1.2. Proc CLUSTER... 12 4.3.2. Affichage du dendogramme... 13 4.3.3. Coupure de l arbre... 13 4.3.4. Jointure des tables... 15 4.3.5. Description des classes... 15 4.3.5.1. Groupe 1 (23100 individus) :... 15 4.3.5.2. Groupe 2 (121962 individus) :... 16 4.3.5.3. Groupe 3 (67268 individus)... 16 4.3.5.4. Groupe 4 (7556 individus)... 16 4.3.5.5. Groupe 5 (55872 individus)... 16 4.3.5.6. Groupe 6 (88086 individus)... 17 4.3.6. Analyse discriminante... 17 4.4. Prédiction des sinistres corporels... 18 4.4.1. Régression logistique... 18 5. Conclusion... 21 6. Bibliographie... 22 7. Annexes... 23 7.1. Projection des individus sur les axes.... 23 7.2. Table permettant de construire l arbre (extrait)... 26 7.3. Table des individus ayant plus de 50% de risque d avoir un sinistre corporel (extrait) 27 7.4. Tableau descriptif des classes... 28 3
1. Introduction 1.1. But Le but de ce document est de répondre de manière la plus précise et la plus claire possible au sujet qui nous a été posé. Il a également pour but d illustrer les différents résultats et interprétations que nous avons pu avoir. 1.2. Cadre Ce document est rédigé dans le cadre du projet de statistiques qui nous est demandé en 4 ème année de Génie Informatique et Statistiques à Polytech Lille. 1.3. Contenu Vous trouverez dans ce document un bref rappel du sujet auquel nous devions répondre. Nous allons ensuite expliquer le raisonnement que nous avons eu afin de répondre aux objectifs du sujet et le détailler. A la suite de ce travail, vous retrouverez quelques résultats en annexe. 4
2. Sujet 2.1. Enoncé Etant donné un jeu de données représentant les clients d une société d assurance, il nous est demandé de créer une typologie des clients de cette société puis de prédire le risque d accidents corporels des clients. 2.2. Objectifs Les objectifs de ce sujet sont variés. En effet, il a non seulement pour but de nous permettre de mettre en applications les différentes techniques statistiques qui nous ont été enseignées au cours de notre cursus à Polytech Lille, mais il demande également beaucoup de temps de recherche dans des ouvrages ou sur internet. Nous avons comme objectif à atteindre pour ce sujet : Créer une typologie des clients (attribution dans des classes). Prédire le risque d accidents corporels. Les techniques que nous avons mises en œuvre pour répondre au sujet sont détaillées dans la suite de ce document. 2.3. Contraintes Le projet doit être réalisé, au choix, sous SAS ou sous R. La date de rendu des projets est fixée au dimanche 17 mai 2009. 5
3. Description des variables Le jeu de données qui nous a été fourni présentait plus de 363 000 individus caractérisés par les variables décrites ci-dessous. 3.1. Année d adhésion 2005. L année d adhésion est une variable continue. Les données sont comprises entre 1961 et 3.2. Département de résidence et 95. Le département de résidence est une variable continue. Les données sont comprises entre 01 3.3. Age L âge est une variable continue. Les clients ont entre 18 et 99 ans. La moyenne d âge est de 46 ans. 3.4. Profession La profession est représentée par un codage que voici : 50,10, 20, 30, 95, 40, 60, 70, 80, 83 : artisans, commerçants, chefs d entreprise. 997, 996, 93, 90, 06, 07 : cadres, professions intellectuelles supérieures. 08, 995 : professions intermédiaires. 992, 993, 02, 03 : employés. 04, 05, 01 : ouvriers. 990, 09, 99 : retraités. 991, 00, 999, 998, 994 : autres sans activité professionnelle. -2 : indéterminé. Il s agit d une variable discrète, qualitative. 3.5. Situation familiale Les situations familiales sont représentées par le codage suivant : C 0 : célibataire M -1 : marié V 1 : veuf I -2 : indéterminé D 2 : divorcé 6
3.6. Sexe Les sexes sont représentés par -1 pour les hommes et 0 pour les femmes. 3.7. Fractionnement du paiement Le fractionnement du paiement est représenté par le codage suivant : 2 : semestriel 1 : annuel -1 : mensuel -2 : indéterminé 3.8. Nombre de voitures Le nombre de voiture est une variable continue. On remarquera que pour tous les individus, ce nombre est à 1. 3.9. Nombre de sinistres corporels Le nombre de sinistres corporels est une variable continue. 3.10. Nombre de sinistres matériels Le nombre de sinistres matériels est une variable continue. 7
4. Notre démarche Pour répondre au sujet, nous allons réaliser les étapes suivantes : Importer les données. Attribuer un identifiant à chaque individu. Discrétisation des variables. Création d un tableau disjonctif complet. Analyse en composantes multiples. Projection des individus dans le plan. Classification Ascendante Hiérarchique. Affichage du dendogramme. Décision du niveau de coupure de l arbre. Jointure des tables. Description des classes. Analyse discriminante. Régression logistique. Nous avons décidé d utiliser le logiciel SAS du fait de sa plus grande présence au sein des entreprises. Cela nous servira certainement plus facilement dans une entreprise de savoir utiliser SAS plutôt que R. Nous allons maintenant expliquer les différentes étapes de notre démarche. Etant donné le nombre important d individus, les exécutions ont pu être très longues. Nous donnerons la durée d exécution des étapes qui ont été les plus longues. 4.1. Préparation 4.1.1. Importation des données L importation des données ne nous a pas posé de problème sous SAS. Nous avons juste importé les données du fichier texte dans SAS. Pour cela nous avons du donner des noms à nos variables. 4.1.2. Attribution d un identifiant Après avoir importé les données dans SAS, nous avons attribué à chaque individu un identifiant. Ceci n a pour le moment aucun intérêt mais il sera utile lors de la jointure des tables (voir plus bas dans le document). 4.1.3. Discrétisation des variables A l importation, nous avons à la fois des variables qualitatives et des variables quantitatives. Dans un souci d homogénéité (nécessaire pour les prochaines étapes), nous allons discrétiser les variables continues (quantitatives) en variables qualitatives. 8
4.1.3.1. Année d adhésion Pour les variables comprises entre [x;y] On affecte la valeur [1961;1969] 60 [1970;1979] 70 [1980;1989] 80 [1990;1999] 90 [2000;2009] 100 4.1.3.2. Age Pour les variables comprises entre [x;y] On affecte la valeur [18;25] 18 [26;35] 26 [36;45] 36 [46;55] 46 [56;65] 56 [66;75] 66 [76;85] 76 [86;95] 86 [96;105] 96 4.1.3.3. Nombre de sinistres corporels Pour les variables : On affecte la valeur =1 1 =2 2 =3 3 >=4 4 4.1.3.4. Nombre de sinistres matériels Pour les variables comprises entre [x;y] On affecte la valeur =0 0 [1;2] 1 [3;4] 2 [5;6] 3 [7;8] 4 [9;10] 5 >10 6 9
4.2. Analyse Factorielle 4.2.1. Création d un tableau disjonctif complet Cette étape va nous permettre de créer un tableau disjonctif complet (TDC) afin de pouvoir effectuer, par la suite, notre ACM. Ce TDC a été créé grâce à la proc TRANSREG suivante : PROC transreg data=proj_lib.origine design noprint; model class (cl_annee depart_residence cl_age code_prof situ_fami sexe frac_paiemen nb_voiture cl_corpo cl_mat/ zero=none); output out=proj_lib.tdc; run; En fait, cette proc TRANSREG crée une variable par modalité. Dans notre cas, nous nous retrouvons avec 176 variables. Prenons, par exemple, la variable DEPARTEMENT. Il y a déjà 90 modalités rien que pour cette variable. L exécution de cette proc TRANSREG nous a demandé 47 minutes. 4.2.2. Analyse en composantes multiples (ACM) Pour notre typologie, nous allons effectuer une CAH. Nous aurons donc besoin d avoir effectué au préalable, une ACM car la CAH se fait sur des données continues. Etant donné que nous n avions que des variables qualitatives (après discrétisation), nous faisons une ACM pour calculer des coordonnées factorielles des modalités (données continues) qui nous permettront de faire notre CAH. L ACM a été effectuée grâce à la proc CORRESP suivante : PROC corresp data=proj_lib.tdc outc=proj_lib.corresp (WHERE = (_TYPE_='OBS')) noprint DIMENS=5; VAR &_trgind; run; Dans ce code, nous pouvons voir que nous effectuons l ACM sur les données de sorties de la proc TRANSREG (notre tableau disjonctif complet). Nous ne voulons en sortie que les lignes de type observation (par défaut, la proc CORRESP crée une ligne en début de fichier pour décrire les variables et créé une ligne par modalité, soit 176). Nous choisissons de garder 5 axes pour cette ACM. La dernière instruction (VAR &_trgind;) indique à SAS qu il doit effectuer l ACM sur les variables de la proc TRANSREG effectuée juste avant. A la suite de cette ACM, nous attribuons un identifiant à chacune des lignes de notre sortie (table corresp), ceci toujours en vue de la jointure future des tables. L exécution de cette proc CORRESP nous a demandé 5 heures 05. 10
4.2.3. Projection dans le plan Cette étape ne servira pas dans la typologie, mais elle nous permet d illustrer l ACM que nous venons d effectuer. Vous trouverez la projection des individus sur les 3 premiers axes en annexe de ce document. 4.3. Typologie 4.3.1. Classification ascendante hiérarchique (CAH) La CAH est effectuée sur les coordonnées factorielles continues issues de l ACM (proc CORRESP). Etant donné le nombre important d individus dans notre base, il est judicieux de tenter de réduire un maximum ce nombre avant de faire la CAH. C est pourquoi nous avons décidé de mettre en œuvre une CAH mixte. Le principe des méthodes mixtes est de combiner les points forts des méthodes hiérarchiques et des méthodes de partionnement (nous utiliserons ici la méthode des centres mobiles), à savoir la précision et l absence d a priori des premières (méthodes hiérarchiques) et la rapidité des secondes (méthodes de partitionnement). Les méthodes mixtes de classifications consistent à effectuer une première classification sur les n observations (centres mobiles), en fixant le nombre de classes entre 10 et 100 (ou la limite de Wong : n 0,3 ). Dans notre cas, la valeur de Wong est de 47 classes. Cette valeur est choisie suffisamment grande pour limiter le risque de fusion de classes naturelles et pour avoir fortement augmenté l inertie interclasse. Nous utiliserons ici la proc FASTCLUS de SAS. Suite à cette étape, nous effectuons une CAH (proc CLUSTER) sur les centres des classes créées par la proc FASTCLUS, et non sur les observations initiales 4.3.1.1. Proc FASTCLUS La première étape de cette CAH mixte est donc la méthode des centres mobiles. Nous avons donc mis en place cette méthode grâce à la proc FASTCLUS de SAS. proc fastclus data=proj_lib.corresp summary maxc=47 maxiter=50 converge=0.02 mean=proj_lib.centres out=proj_lib.partition cluster=presegmentation; id ide; run; Nous obtenons deux résultats en sortie : la table centres qui contient les données factorielles de chacun des 47 groupes, ainsi que la fréquence des individus dans ces groupes et la table partition 11
qui contient la classification des individus dans les 47 groupes et précise la distance des individus par rapport à la donnée Distance to cluster Seed. Il est judicieux, suite à cette étape de vérifier la qualité des indicateurs : Pseudo F statistic 107258,70 Approximate Expected Over-All R-Squared 0,69847 Clubic Clustering Criterion 2373,725 Ici, les indicateurs sont plutôt bons, ce qui nous permet de dire que la première classification est suffisamment bonne pour continuer. En effet, même le R² est plutôt bon, malgré sa valeur (0,69847), mais il faut rappeler que l on a 363844 individus. Nous pourrions chercher à maximiser ces indicateurs en testant d autres valeurs pour le nombre de classes, mais nous nous tiendrons à la méthode de Wong étant donné que nous allons, par la suite, effectuer une coupure plus fine grâce à l étude de graphiques comme le R², le semi-partiel R² et la pseudo statistique F. 4.3.1.2. Proc CLUSTER Une fois cette étape de partionnement par les centres mobiles réalisée, nous passons à la CAH. La méthode la plus utilisée pour faire une CAH est la méthode de Ward de plus, il s agit de la méthode que nous avons vue en cours. C est donc cette méthode que nous mettons en œuvre ici par la proc CLUSTER. proc cluster data=proj_lib.centres outtree=proj_lib.tabledendogramme method=ward ccc pseudo print=47; copy presegmentation; var DIM1-DIM3; run; Cette proc CLUSTER nous donne en sortie les données nécessaires pour construire le dendogramme : pour chacun des 47 groupes créés précédemment, il donne, entre autres, le groupe père. Ainsi, il construit le dendogramme à partir de la base pour remonter vers le sommet. Nous faisons, ici notre proc CLUSTER avec les trois premiers axes. 12
4.3.2. Affichage du dendogramme Voici le dendogramme obtenu grâce à la proc CLUSTER précédente. 4.3.3. Coupure de l arbre Nous devons maintenant décider du niveau de coupure de cet arbre. Pour cela, nous trions la table dendogramme puis nous affichons quelques courbes grâce au code suivant : symbol1 color=black interpol=join value=dot height=1; proc gplot data=proj_lib.tabledendogramme2; plot _sprsq_*_ncl rsq_*_ncl PST2_*_ncl PSF_*_ncl_; run; Cela nous permet d afficher les courbes suivantes : Semi-Partial R-Squared : 13
R-Squared : Pseudo T-Squared Statistic : Pour décider du niveau de coupure de l arbre, il faut tout d abord étudier les courbes Semi- Partial R-Squared et Pseudo T-Squared Statistic. Nous nous apercevons alors que le niveau de coupure doit être de 6 groupes. Pour cela, il faut regarder à quel niveau commence le «plat» des courbes. Après avoir fait cette sélection, nous observons la courbe R-Squared qui nous informe de la qualité de notre coupure. Nous nous apercevons alors que, si on prend 6 groupes, nous avons un R- carré de 0,65 ce qui est relativement bon du fait du grand nombre d individus que nous étudions. 14
Nous obtenons alors le dendogramme suivant avec la coupure : Cette coupure semble bonne. En effet, avec plus de 6 classes on aurait une forte perte de l inertie inter-classe. 4.3.4. Jointure des tables Maintenant que nous avons décidé de répartir nos individus dans 6 groupes, nous les affectons définitivement dans leur groupe respectif. C est ici que devient utile le fait d avoir créé des identifiants sur la table origine ainsi que sur la table de la CAH car la jointure peut maintenant se faire sur ces identifiants. 4.3.5. Description des classes On constate que dans les 6 groupes les individus sont principalement originaires de la région parisienne, et plus précisément des départements 78, 92, 93, 94 et 75. Seul l ordre d influence de ces 5 départements varie en fonction des groupes. On remarque, de plus, que dans l'ensemble des 6 groupes, plus de 97% des membres n'on eu aucun sinistre corporel, et qu'en moyenne 20% des membres ont déjà eu un sinistre matériel. 4.3.5.1. Groupe 1 (23100 individus) : Ce groupe est principalement caractérisé par des ouvriers, puis, dans une moindre mesure, par des employés et des personnes sans emploi. Les membres de ce groupe sont majoritairement veufs ( 91%). Cependant les membres de ce groupe ont majoritairement moins de 25 ans ( 63%), mais globalement les individus ont moins de 35 ans ( 87%). C est un groupe relativement mixte, mais avec une légère majorité pour les femmes. 15
Ces individus ont tendance à payer leur cotisation de façon mensuelle, même si certains décident de payer annuellement. Enfin, 80% ont souscrit entre 2000 et 2009 ( 95% entre 1990 et 2009). 4.3.5.2. Groupe 2 (121962 individus) : Ce groupe est principalement caractérisé par des ouvriers, puis, dans une moindre mesure, par des employés. Les personnes de ce groupe sont soit marié ( 40%), soit célibataire ( 59%). De plus, plus de 2/3 des personnes de ce groupe sont des hommes. Les paiements sont à part égale entre le paiement mensuel et annuel. Les souscriptions aux assurances ont majoritairement eu lieu entre 1990 et 2000 ( 47%), mais également entre 2000 et 2009 ( 28%). Ce groupe est relativement homogène concernant les classes d âge des individus (entre 26 et 65 ans), mais avec un peu plus de personne dans le groupe 26-35 ans. 4.3.5.3. Groupe 3 (67268 individus) Ce groupe est principalement caractérisé par les ouvriers, mais également dans une moindre mesure par des cadres. De plus, la majorité des membres de ce groupe sont mariés (88%), et sont des hommes (89%). Près d'un membre sur 2 choisi le paiement semestriel, et environ 25% le paiement mensuel. De même, environ 82% des membres de ce groupe ont souscrit à une assurance entre 1980 et 1999 et ont entre 36 et 55ans. 4.3.5.4. Groupe 4 (7556 individus) Ce groupe est principalement caractérisé par des personnes sans emploi (85%) et célibataire (95%). Cependant ce groupe est caractérisé par environ autan d'hommes que de femme, ave une légère majorité envers les hommes (54%). Près d'un personne sur 2 de ce groupe, paye sont assurance mensuellement, tandis qu'un tiers des membres de ce groupe la paie annuellement. Enfin, 95% des personnes appartenant à ce groupe ont souscrit à une assurance entre 2000 et 2009, et 99% ont entre 18 et 25 ans. 4.3.5.5. Groupe 5 (55872 individus) Près de 40% des individus de ce groupe sont des employés, et 35% des ouvriers. De plus, les membres de ce groupe sont soit mariés, soit célibataires, avec une plus grande proportion pour les célibataires (55%). Près d'un personne sur 2 de ce groupe, paye sont assurance mensuellement, tandis que 25% des membres de ce groupe la paie annuellement. 16
Ensuite, on constate qu'environ 1 personne sur 2 a souscrit à l'assurance entre 1990 et 1999, tandis que 20% ont souscrit entre 1980 et 1989, et 20% également entre 2000 et 2009. Enfin, c'est un groupe relativement hétérogène au niveau des âges. En effet, on constate que les âges sont répartis dans des proportions similaires entre 26 et 65 ans, mais avec une plus forte proportion tout de même pour les 36-45 ans. 4.3.5.6. Groupe 6 (88086 individus) Ce groupe est majoritairement représenté par les retraités (58%), même si le nombre d'ouvriers n'est pas négligeable (25%). De plus, 56% de ses membres sont mariés, tandis que près de un tiers sont célibataires. Ensuite, on constate que 37% paie annuellement leur assurance contre 31% mensuellement. De plus, on remarque que les personnes de ce groupe ont souscrit entre 1970 et 2009 pour une proportion quasi égale dans les quatre groupes correspondant (22%). Enfin, ce groupe est le plus hétérogène de tous au niveau des âges, avec ceux qui varient dans des proportions non négligeables entre 26 ans et 85 ans, avec tout de même, une légère majorité d'individus ayant entre 66 et 75ans. Vous trouverez le tableau récapitulatif des statistiques sur les groupes en annexe de ce document. 4.3.6. Analyse discriminante Avant de faire l analyse discriminante en elle-même, nous allons essayer d affiner notre fichier. Pour cela, nous mettons en place la proc STEPDISC. En effet, celle-ci permet d éliminer les variables inutiles. Etape par étape, le logiciel va tenter d ajouter chaque fois une nouvelle variable et tester si elle est significative ou non, le cas échéant, il la retire de la table. C est le cas de la variable représentant le nombre de voitures (variables constante dans notre cas). L analyse discriminante permet de tester la qualité de la typologie que nous avons effectuée au-dessus. Elle permet de répondre à la question suivante : Dans le groupe, combien d individus ont été correctement affectés? Voici le code de notre proc DISCRIM : proc discrim data=proj_lib.origine2 method=normal pool=yes crossvalidate canonical out=proj_lib.discrim outstat=proj_lib.discrim_stat; class cluster; var cl_annee depart_residence cl_age code_prof situ_fami sexe frac_paiemen cl_corpo cl_mat; run; 17
Sortie SAS : Number of observations and percent classified into cluster. From 1 2 3 4 5 6 Total Cluster 1 Frequence 14165 978 329 3672 2155 1801 23100 Pourcentage 61,32 4,23 1,42 15,9 9,33 7,8 100 2 Frequence 9036 36606 20624 6101 34062 15533 121962 Pourcentage 7,41 30,01 16,91 5 27,93 12,74 100 3 Frequence 2485 3750 50119 986 5976 3952 67268 Pourcentage 3,69 5,57 74,51 1,47 8,88 5,88 100 4 Frequence 471 1 0 7076 1 7 7556 Pourcentage 6,23 0,01 0 93,65 0,01 0,09 100 5 Frequence 1549 2925 8591 2331 35864 4612 55872 Pourcentage 2,77 5,24 15,38 4,17 64,19 8,25 100 6 Frequence 8354 7145 10283 996 10569 50739 88086 Pourcentage 9,48 8,11 11,67 1,13 12 57,6 100 Total Frequence 36060 51405 89946 21162 88627 76644 363844 Pourcentage 9,91 14,13 24,72 5,82 24,36 21,07 100 Les valeurs surlignées en vert correspondent aux pourcentages d individus correctement affectés pour chaque classe. Sortie SAS : Error count estimate for cluster. 1 2 3 4 5 6 Total Rate 0.3868 0.6999 0.2549 0.0635 0.3586 0.4240 0.3646 Priors 0.1667 0.1667 0.1667 0.1667 0.1667 0.1667 Nous voyons sur ce tableau que nous avons un taux d erreur de 36,46%. Ceci est certainement du au fait qu on répartie plus de 363 000 individus en seulement 6 classes. La dernière ligne (priors) nous donne le pourcentage d individus qui ont été affectés dans la classe aléatoirement (soit ils n entraient dans aucun groupe, soit dans plusieurs groupes à la fois). 4.4. Prédiction des sinistres corporels 4.4.1. Régression logistique Voici le programme SAS que nous avons mis en œuvre : proc logistic data=proj_lib.origine2 descending; model cl_corpo = depart_residence cl_age code_prof situ_fami sexe nb_voiture frac_paiemen cl_mat /link=logit lackfit ctable pprob = (0 to 1 by 0.025) rsquare risklimits outroc=proj_lib.roc1; output out=proj_lib.logistic p=prob xbeta=xbeta; run; 18
Sortie SAS : Table of _LEVEL_ by cl_corpo. _LEVEL_ Cl_CORPO (Response Value) Frequency Percen Row Pct Col Pct 0 1 Total 359690 4154 1 98,86 1,14 98,86 1,14 100,00 100,00 Total 359690 98,86 4154 1,14 363844 100,00 363844 100,00 Cette sortie SAS nous montre que toutes les valeurs de réponses sont à 1. Ceci provient très certainement du fonctionnement de la proc LOGISTIC. En effet, nous voyons ci-dessous que certains sujets ont de très fortes chances d avoir un sinistre corporel. En fait, si on calcule le rapport n1/nt où n1 représente le nombre d individus ayant eu un sinistre corporel (en vert) 1 et nt le nombre d individus total (en rouge), on obtient 1,14%, ce qui est très faible. De ce fait, le logiciel peut se permettre de mettre toutes les valeurs de réponse à 1, il n aura un taux d erreur que très faible. Sortie SAS : Extreme Observations. Lowest Highest Value Obs (identifiant) Value Obs (identifiant) 0,00175169 30556 0,888077 338211 0,00175505 24005 0,891721 267750 0,00175505 5936 0,891946 335898 0,00175533 106446 0,993749 53162 0,00175533 12273 0,996116 342662 Les sorties SAS nous montrent également (proc univariate) que 174 individus ont plus de 50% de risques d avoir un sinistre corporel, ceci est certainement dû au fait que, plus on a eu de sinistres matériels, plus on a de risques d avoir un sinistre corporel. Nous pouvons également observer un phénomène plutôt étrange : une personne ayant eu 4 sinistres matériels a plus de risque d avoir un sinistre corporel qu une personne qui a eu 3 sinistres matériels et 1 sinistre corporel. Nous n arrivons pas à expliquer ce phénomène. Suite à cette régression logistique, nous avons affiché la courbe ROC afin de tester la qualité de notre régression (aire sous la courbe). Cette courbe nous donne d autres informations : par exemple la spécificité (1-spécificité : axe des abscisses) et la sensibilité (axe des ordonnées). Ces informations correspondent respectivement à la capacité à prédire un événement positif (avoir un sinistre corporel) et la capacité à prédire un événement négatif (ne pas avoir de sinistre corporel). Indirectement, il est également possible de connaître le risque de prédire un sinistre corporel à une personne alors qu elle n en aura pas (1-spécificité). Il faudrait, dans le meilleur des cas trouver un compromis acceptable entre forte spécificité et forte sensibilité. Les points de la courbe correspondent aux seuils des meilleurs compromis entre sensibilité et 1-spécificité. 19
Voici notre courbe ROC : Dans notre cas, la qualité de notre régression est de 0,855. On peut affirmer, aux vues du nombre d individus que nous avons, que la qualité de notre régression est plus que correcte tant elle se rapproche de 1. 20
5. Conclusion Ce projet a pu être mené à bien grâce au travail que nous avons fourni pendant la période de vacances. Si nous n avions pas travaillé durant cette période, le projet n aurait pas pu être terminé. Nous avons énormément d informations en sorties SAS que nous pourrions expliquer mais nous avons dû les trier de façon à répondre au plus près au sujet. Nous avons rencontré quelques soucis, notamment au début du projet. En effet, étant donnée la taille du fichier de données (quelques 363 000 individus), l exécution de SAS saturait notre session à cause de la création des différentes librairies. Nous avons alors pris l initiative de demander une solution au service informatique et X. Redon a alors augmenté le quota de disque pour l ensemble de la classe. Une fois ce petit soucis résolu, nous avons dû faire de multiples recherches aussi bien sur la méthodologie à utiliser que sur la façon de la mettre en œuvre. Ce projet nous a permis de mettre en application les différentes méthodes qui nous ont été enseignées dans un cas bien plus réel que les cas de TP sur lesquels nous avons déjà pu travaillé où nous nous retrouvions avec une trentaine de lignes au plus, où tout se passait comme on le souhaitait et où tout ce que nous avions à faire était de répondre aux questions les unes après les autres. 21
6. Bibliographie Voici la liste des sources qui nous ont permis de répondre au mieux au sujet. Type Titre/adresse Auteur Livre Data Mining et statistique décisionnelle Stéphane TUFFERY Diaporama https://studies2.hec.fr/.../regression_logistique.ppt Michel TENENHAUS PDF L analyse des données avec SAS v6 Olivier SAUTORY A ces différentes sources s ajoutent plusieurs sites internet pour lesquels nous n avons plus les adresses et d autres documents que nous avons pu trouver, sans titre. 22
7. Annexes 7.1. Projection des individus sur les axes. 23
24
25
7.2. Table permettant de construire l arbre (extrait) 26
7.3. Table des individus ayant plus de 50% de risque d avoir un sinistre corporel (extrait) 27
7.4. Tableau descriptif des classes 28