SOMMAIRE SOMMAIRE... 1 LISTE DES TABLEAUX ET GRAPHIQUES.....3 DEDICACES......4 REMERCIEMENTS... 5 AVANT-PROPOS......6 RESUME... 7 ABSTRACT......7 PRESENTATION DE CHANAS ASSURANCES SA....8 INTRODUCTION....9 GENERALITES SUR L ANALYSE DES COMPOSANTES MULTIPLES ET LA REGRESSION LOGISTIQUE I Aalyse des corresodaces multiles.....11 A- Aalyse géérale.....11 B- Aalyse des corresodaces....13 C- Aalyse des corresodaces multiles....15 II Régressio logistique...18 A Itroductio....18 B Le modèle Logit.....19 C Estimatios et tests 19 DESCRIPTION DES VARIABLES ET CODAGE I Pricie de foctioemet de l assurace automobile......21 II Méthodologie de collecte de doées......22 A Défiitio de «haut siistré».....22 B Descritio et codage des variables... 23 DESCRIPTION MULTIDIMENSIONNELLE DES DONNEES I Aalyse des corresodaces multiles.....26 A Coditios d utilisatio de la méthode...26 B Recodage de variables...28 C Pricie de l aalyse...29 D Iterrétatios...30 II Coclusio.....37
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 2 MODELISATION I Pourquoi le modèle de régressio logistique?...38 A Exigece du modèle...38 B Méthodologie de l aalyse...39 C Estimatio du modèle...40 D Validatio du modèle...43 - Evaluatio du ouvoir rédictif du modèle...44 - Choix de la robabilité seuil (S0)...45 - Erreur de rédictio...47 - Règle de décisio fiale...48 - Programme R de classificatio automatique.....48 II Coclusio... 49 CONCLUSION GENERALE...50 PERSPECTIVES ET RECOMMANDATIONS...51 ANNEXES...52 - Priciaux rogrammes R utilisés - Listigs des résultats D ACM (Logiciel SPAD 4.01) BIBLIOGRAPHIE...55
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 3 Tableaux LISTE DES TABLEAUX ET GRAPHIQUES Tableau 0-1 : Elémets de base de l aalyse des corresodaces...14 Tableau 0-2 : Elémets de costructio de l aalyse des corresodaces...14 Tableau 2-1 : Statistiques élémetaires des doées brutes...27 Tableau 2-2 : Histogramme des valeurs rores...31 Tableau 2-3 : Coordoées, Cotributios et Cosius carrés...32 Tableau 2-4: Récaitulatif des modalités bie rerésetées et à boe cotributio...32 Tableau 2-5 : Valeurs-tests des modalités sigificatives de variables illustratives...33 Tableau 3-1 : Aalyse bivariables...39 Tableau 3-2 : Aalyse de coliéarité...41 Tableau 3-3 : Fréquece des robabilités estimées ar le modèle sous (H0)...46 Tableau 3-4: Fréquece des robabilités estimées ar le modèle sous (H1)...47 Grahiques Grahique 2-1 : Carte des modalités (axes 2 et 3)...34 Grahique 2-2 : Carte des modalités (axes 1 et 3)...34 Grahique 2-3 : Carte des modalités (axes 3 et 4)...35 Grahique 2-4 : Carte des modalités (axes 3 et 6)...35 Grahique 2-5 : Carte des modalités (axes 3 et 5)...36 Grahique 3-1 : Grahes de diagostique du modèle 1...42 Grahique 3-2 : Courbe ROC...45 Grahique 3-3 : Histogramme des robabilités estimées...45
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 4 DEDICACES Qu il me soit ermis de dédier ce modeste travail à : Mes Parets : M. TCHATCHUENG FOKOUO Emile Mme TCHATCHUENG ée KOM Paulie Mme NEM ée NOUMSI Ae Mes Frères et Sœurs
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 5 REMERCIEMENTS La réalisatio de ce travail a été ossible grâce au cocours de ombreuses ersoes auxquelles ous témoigos ici otre gratitude. Nous esos ici : A Mosieur Alai VEILLE, Directeur de CHANAS ASSURANCES S.A, agece de Yaoudé qui a bie voulu ous doer l oortuité de mettre à rofit certaies théories étudiées durat otre formatio. A Mosieur Jea-Grattie ZANOUVI, Directeur Gééral de l Istitut Iteratioal des Assuraces A tout le ersoel de la Comagie CHANAS, e articulier : Messieurs : BELINGA Alai, MBIDA Léo, NSOE Fausti, NOUMEMEN Isaac, BANGWEN Jea-Yves, EYILI Hervé Pour l accueil chaleureux, leur soutie iébralable et leur boe voloté à m eseiger le ricie de foctioemet du ortefeuille automobile. A tout ceux qui de rès ou de loi ot cotribué au bo déroulemet du Master de statistique ; ous esos aisi aux eseigats qui ot méagé aucu effort our la réussite de cette formatio ar leurs eseigemets de qualité excetioelle. Il s agit ricialemet du : Pr. Didier DACUNHA CASTELLE Pr. Jea COURSOL Pr. Jea CHRISTOPHE THALABARD Pr. Jea LOUIS GOLMARD Pr. Bertra AUVERT Pr. Xavier GUYON Pr. Elisabeth GASSIAT Pr. Daielle FLORENS Pr. Heri GWET Dr. Eugèe NDONG NGUEMA Dr. Michel NDOUMBE NKENG Dr. Maxime KIKI A toute ma famille, qui d ue maière ou d ue autre a aorté sa cotributio à la réalisatio de ce travail. Nous esos ici aux familles : KAMARA Abdoulaye, OMOKOLO Deis, NEM Joseh, KAMTCHUENG Célesti, TAFFE Polycare, MOGO Amos, KOM Pierre, KAMSU Jea-Paul, TAGNE Jea-Paul, KAMSU Duclos, KOMGUEM Deeskido, NZIETCHUENG Samuel, TACHOM Erest, BOGNE Patrice, FOWA, NOUMSI, DIPEUH Alai, DJOUM Alai, NZIETCHUENG Berti, SIGNE Pierre, KAMKUI Patrice et aux grades familles Bù TATCHUENLIEU, KAMKUI Egelbert, MATAGNE et WABO TAMETCHA A mes frères et amis : Fracis SIKADI, Cédric NOUMSI, Guillaume NZUKAM, Olivier MBIELEU, Justi SIEPEING, Christia FOTSING, Godwi FOMEN, Martial NEMPE, Doatie WAKAM, Egelie TCHOUOBIAP, Iréée DOMKAM, Roli SILA, Herbert NGOWA, Rostad DOUANLA, Cyrille CHENKEM, Hervé-lys KWADJO, Hervé MOMEYA.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 6 AVANT PROPOS Le Master de Statistique Aliquée est ue formatio de troisième cycle ouverte et aimée à l uiversité de Yaoudé I. Il s agit d ue formatio rofessioalisate et d iitiatio à la recherche bééficiat de la collaboratio et du soutiet des Uiversités : Paris Orsay, Paris- Dauhie, Paris5, Versailles, Istitut Natioal Polytechique-HB(côte d Ivoire), INSERM (Frace). L objectif gééral de cette formatio est de doer aux étudiats, cadres suérieurs d etrerises et d admiistratios, et tout utilisateur de la statistique, ue formatio de haut iveau très cocrète, classique quat aux techiques mathématiques utilisées, aussi modere que ossible quat à l iformatique et aux logiciels sécialisés utilisés. Ce Master aorte aux étudiats ayat les acquis fodametaux e Mathématiques et e Statistiques, ue formatio rofessioelle comlémetaire das le domaie du traitemet de l iformatio et de so exloitatio. Pour le bo foctioemet de ce Master, u stage e etrerise est vivemet recommadé das le but de mettre e œuvre les différetes théories statistiques étudiées. C est das ce cadre que s iscrit le réset stage que ous avos effectué das la Comagie d Assurace CHANAS ASSURANCES S.A, agece de Yaoudé. A l issue de ce stage, ous résetos otre mémoire, résultat d u travail de recherche effectué sous la suervisio du Professeur Heri GWET, sur le thème : «ANALYSE STATISTIQUE DU PROFIL DES CLIENTS A HAUT RISQUE DU PORTEFEUILLE AUTOMOBILE D UNE COMPAGNIE D ASSURANCE» Ue telle étude s avère écessaire our l assureur afi de revoir sa tarificatio et surtout d assurer la stabilité de ses rovisios mathématiques. Nous avos as la rétetio d avoir ceré les cotours du sujet, bie au cotraire ous esos que lusieurs études doivet ecore être faites. Les doées utilisées rovieet des services roductio et siistre de la comagie.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 7 Résumé U réalable à la tarificatio des différets risques à assurer, est la coaissace a riori de ces risques qui costituet d ailleurs la matière remière das l idustrie d assurace. La résete étude roose ue méthode de détermiatio du rofil de cliets que l o ourrait das ue certaie mesure qualifier de «cliet à risque» du ortefeuille automobile de la Comagie d Assurace CHANAS ASSURANCES S.A, agece de Yaoudé. Elle utilise our ce faire l aalyse des corresodaces multiles our la descritio multidimesioelle des doées observées et le modèle de régressio logistique our la détermiatio des facteurs les lus ertiets et les lus discrimiats exliquat de faço sigificative la siistralité. Outre les résultats d aalyse descritive faite sur les doées observées, il ressort ricialemet de cette étude que les cotrats temoraires rerésetet u grad risque our la comagie ; et que les véhicules de uissaces fiscales comrises etre 11 et 14 chevaux(essece) ou etre 8 et 10 chevaux (Diesel) sot les lus exosés au risque. Comme outil de classificatio automatique, u rogramme R a été roosé à l assureur our lui ermettre d affecter les ouveaux cliets das l ue des deux classes sas grad risque de se tromer. Abstract Before goig to the tarificatio of the differet risks assured, a kowledge rior to these risks, which costitute moreover the raw materials i the isurace idustry aears ecessary for romoters. This study sets out to roose a determiatio method of cliet s rofile, which to a certai extet could be described as the cliet at risk of the serf-roellig ortfolio of the Isurace Comay CHANAS ASSURANCES S.A, Yaoudé Brach. It uses i this case a multile corresodece aalysis for the multidimesioal descritio of the data observed ad the logistic regressio method for the determiatio of most ertiet ad discrimiet factors, which ca sigificatly exlai the damage. Besides the results of the descritive aalysis made o the observed data, this study reveals that temorary cotracts rereset a large risk for the comay, ad vehicles with fiscal ower betwee 11 ad 14 horseower (Petrol) or 8 ad 10 horseower (Diesel) are the most exosed to risks. As a tool for automatic classificatio, a rogram R has bee roosed to the isurer to eable him to ut ew customers ito oe of the two categories without large risk of beig deceived.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 8 Chaas assuraces s.a. PRESENTATION DE CHANAS ASSURANCES S.A CHANAS ASSURANCES S.A est ue comagie d assuraces IARDT (icedie, accidet, risques divers, trasort) régie ar le code des assuraces et résete au Camerou deuis 1953 comme assureur et surtout comme facilitateur tat atioal qu iteratioal das le rarochemet des oérateurs cous de l assurace que sot les assurés, les itermédiaires et les réassureurs. So siège social à Douala comorte lusieurs ageces : Bafoussam, Yaoudé, Nkogsamba et ue filiale e Guiée Equatorial (Malabo et Bata) L agece de Yaoudé qui ous a servi de structure d accueil est située au boulevard Moseigeur Vogt, e face de la BICEC cetrale. Autrefois cou sous le om de la SARL CHANAS & PRIVAT ASSURANCES, la comagie est coue aujourd hui sous la déomiatio de CHANAS ASSURANCES S.A avec l agrémet miistériel du 24 Mars 2000. Sa rogressio et sa lace de leader affirmé du marché camerouais des assuraces est as due au hasard mais reflète so sérieux et so rofessioalisme. Aisi, CHANAS se distigue articulièremet ar : So caital social, etièremet libéré de 2,3 milliards de FCFA rerésetat le lus imortat caital social des comagies d assuraces des ays fracohoes de la sousrégio, lus de quatre fois le miimum requis. Sa réassurace de remier ordre aéritée ar l u des leaders modiaux, la MUNICH- RE So chiffre d affaire de lus de 16 milliards de FCFA e 2005 ; le lus élevé au Camerou CHANAS ASSURANCES S.A c est aussi ue grade exériece e matière de couverture des grads risques. Nous ouvos citer comme référeces : Das le domaie de l aviatio : CAMAIR Das l offshore : la société atioale des hydrocarbures (SNH), TEXACO Camerou, MOBIL OIL, COTCO Das les grades uités de roductio : les Brasseries du Camerou, le Chatier Naval et Idustriel du Camerou (CNIC), CRTV, AES-SONEL, les sociétés du groue FOTSO (SAFCA, UNALOR, PILCAM, etc.) Das le tertiaire : Crédit lyoais, CBC, les Ambassades (Frace, Russie, Esage, Caada, Libye, Chie, Egyte) Les orgaismes iteratioaux : HCR, UNICEF, OHADA, Cetre Pasteur. Das les grads chatiers : EDOK-ETER, KETCH SCEMAR. Pour ce qui est du domaie sécifique de l assurace liée aux ersoes, CHANAS ASSURANCES S.A a deuis logtems déveloé u ortefeuille MALADIE, qui lui cofère aujourd hui ue exériece et ue maîtrise otammet das le remboursemet des frais médicaux. Cette maîtrise lui ermet aujourd hui, d offrir des garaties eu courates das tout le marché de l assurace Camerouais. A titre d exemle, o eut citer la couverture ar les olices CHANAS ASSURANCES S.A de la adémie du siècle, ce qui marque la détermiatio de la comagie de articier avec l état, à la lutte cotre le SIDA.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 9 INTRODUCTION L isécurité, itacte sur le fod et chageat das sa forme ayat ris ue amleur, le déveloemet des moyes de sécurisatio humaie et matériel doit suivre le as. E effet, le besoi de sécurité aît aturellemet de la rise de cosciece des Hommes de se rotéger cotre les maladies, les accidets divers, et de faço géérale cotre l aléa. Ceci a ouvert u segmet à l écoomie et à la gestio du risque où rosèret rioritairemet les comagies d assurace. Les comagies d assurace sot des idustries du secteur fiacier ayat our but de soulager l Homme das la gestio des multiles risques liés à l eviroemet das lequel il évolue. L assureur a doc our tâche essetielle de trasformer le risque qui costitue la matière remière das l idustrie d assurace e las d assurace. Aisi o ourrait voir les idustries d assurace comme état des istitutios de trasformatio de «l icertitude» e «certitude». Dès lors, l assureur doit redre des disositios our hoorer ses romesses. C est la raiso our laquelle il est écessaire our lui de faire des aticiatios sur le deveir des différets risques assurés, et surtout de s etourer d u certai ombre d idicateurs devat lui ermettre de mieux jauger le risque avat toute tarificatio. La résete étude s iscrit das le cadre de articiatio à la solutio de ce derier. Le thème soumis à otre attetio est ititulé : «Aalyse statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace» Etude que ous avos meée à la comagie d assurace CHANAS ASSURANCES S.A, agece de Yaoudé. L harmoisatio et la sécurisatio des différets risques routiers ot ameé les gouveremets à imoser aux usagers la souscritio d ue olice d assurace automobile. Ceci faisat de l assurace automobile l u des secteurs rioritaires du marché de l assurace. Das l idustrie d assurace, la tarificatio du risque fait l objet des grades théories du modèle stochastique de l assurace. Das la luart des cas, o mèe ue étude arofodie des risques liés à chaque roduit avat de faire ue quelcoque tarificatio. La questio que l assureur se ose est de savoir quelles sot les caractéristiques des cliets que l o ourrait qualifier de «haut siistré». L objectif de otre étude etre das le cadre de réose aux réoccuatios des assureurs, uisqu elle vise à idetifier les facteurs exliquat de faço sigificative la siistralité ; ceci e vue de révoir le statut («haut risque» ou o) du ouveau cliet de la comagie. Pour atteidre cet objectif, ous avos structuré ce documet e deux grades arties : La remière fait u codesé des différetes théories Mathématiques et Statistiques mises e œuvre ; La deuxième quat à elle est cosacrée à la résolutio du roblème osé. Elle est costituée de trois chaitres : Le remier chaitre décrit, code les variables étudiées et ous doe u bref aerçu sur le ricie de foctioemet du ortefeuille automobile de la comagie, de la souscritio au règlemet de siistre. Le secod chaitre fait ue descritio multidimesioelle des doées recueillies, à travers ue aalyse des corresodaces multiles.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 10 Le troisième chaitre quat à lui est cosacré à la modélisatio. Elle vise à costruire le modèle s ajustat le mieux aux doées et ayat ue boe caacité de rédictio. Celui ci ous ermettra o seulemet de détermier les variables les lus ertietes et les lus discrimiates ouvat exliquer le risque automobile, mais aussi de rooser à l assureur u algorithme ermettat de dire au vu de ses caractéristiques si le ouveau cliet est à «haut risque» ou o. Les doées que ous aalysos ici rovieet des services roductio et siistre de la comagie ; qui ous les a aimablemet commuiquées.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 11 Chaitre Zéro GENERALITES SUR L ANALYSE DES CORRESPONDANCES MULTIPLES ET LA REGRESSION LOGISTIQUE I - Aalyse des corresodaces multiles A - Aalyse géérale Cosidéros u tableau de valeurs umériques X ayat liges et coloes, corresodat à variables recueillies sur idividus. O suose ; et état doée ue matrice M, M désige sa trasosée. O se roose de résoudre ici le roblème de comressio de doées, c est à dire de trouver les sous-esaces s ajustat au mieux aux deux uages de oits (idividus et variables). Pour exoser cette techique de réductio factorielle, ous ous laços successivemet das les esaces vectoriels R (des variables) et R (des idividus) a) Ajustemets des uages des idividus et des variables L ajustemet du uage des idividus se fait das l esace des variables et celui du uage des variables das l esace des idividus. Chacue des liges du tableau X est cosidérée comme u oit de R. De même chacue des coloes de X est cosidérée comme u oit de R Proositio 0-1 Le sous esace à q dimesios ( q ) qui ajuste au mieux (au ses des moidres carrées) le uage des oits-idividus das R est egedré ar les q remiers vecteurs rores de la matrice symétrique d ordre (,) X X corresodat aux q lus grades valeurs rores. Le sous-esace à q dimesios qui ajuste au mieux le uage des oits-variables das R est egedré ar les q remiers vecteurs rores de la matrice symétrique d ordre (, ) XX corresodat aux q lus grades valeurs rores. Toutes les valeurs rores o ulles des deux matrices X X et XX sot égales. Preuve [1] Soit u le vecteur rore uitaire de vecteur rore uitaire de X X corresodat à la valeur rore ; et v le XX corresodat à la même valeur rore. Pour 0, o a les formules de trasitio etre les deux esaces R et 1 v Xu (1) 1 u X v ième Das R, u est le axe factoriel et l o calcule le vecteur des coordoées sur cet axe ar : Xu R :
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 12 ième De même das R, v est le axe factoriel et l o costruit les coordoées ar : X v Comte teu de (1), les facteurs euvet se calculer ar : v u b) Diversificatio de l aalyse géérale Aalyse géérale avec des métriques et des critères quelcoques La métrique (la formule de distace) et le critère d ajustemet (odératio des oits) variet suivat le roblème et doc suivat la ature des variables. Jusqu'à réset ous avos cosidéré les esaces muit de la matrice I (matrice idetité) et ous avos suosé que tous les oits du uages avaiet la même imortace. Ceedat il arrive que l o ait à travailler avec ue métrique lus géérale et avec des idividus dot les masses sot différetes. Gééralisos le ricie d aalyse factorielle réseté à des métriques et critères quelcoques. Plaços-ous das l esace R et cosidéros le uage de oits-liges esats. Soit X la matrice d ordre (, ) rerésetat le tableau des doées, M la matrice symétrique défiie ositive d ordre (,) défiissat la métrique das R, et N la matrice diagoale d ordre (, ) doc les élémets diagoaux sot les masses m i des oits. Désigos ar U la matrice d ordre (, ) ayat e coloe les vecteurs rores u (orthogoaux et uitaires) de X X. Soit u u vecteur uitaire de R ( u Mu 1) ; l esemble F des coordoées des rojectios sur l axe u des oits-liges s exrime ar : F XMU L équatio de l axe factoriel u das R s écrit : X NXMu u ; et les coordoées factorielles des oits sot doées ar la relatio : XMu Remarque 0-1 Si les masses et les métriques das R ( N et M ) et das R (P, matrice des masses des oits-coloes et Q métrique das R ) ot as de relatio rivilégiées etre elles, o erd les relatios de trasitio. E aalyse des corresodaces, o verra que la matrice des masses das u esace est liée à la métrique de l autre esace, ce qui ermettra de coserver les relatios de trasitio.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 13 B - Aalyse des corresodaces O cosidère ici deux variables qualitatives observées simultaémet sur des idividus. O suose que la remière variable otée X, ossède modalités otées x 1,..., x l,... x et que la secode, otée Y ossède modalités otées y 1,..., y h,... y Soit K le tableau de cotigece à liges et coloes associé à ces observatios. A l itersectio d ue lige i et d ue coloe j ous avos le ombre k ij d idividus ayat simultaémet les modalités x i et y. Les totaux margiaux k. et j i k. j rerésetet resectivemet les ombres d idividus ayat la modalité x i et y j. O a les relatios suivates : k i. k ij ; k. j k ij ; k k ij j i i, j Qui e terme de fréqueces relatives doet, lieu aux relatios : k ij fij ; f i. f ij ; f. j f ij ; f ij 1 k j i i, j Pour aalyser u tableau de cotigece, o s itéresse au tableau des rofils-liges et celui des rofils-coloes. Aisi le k j k 1,..., k. j k. j j 2 ième i rofil-lige est : k 1 k i,..., ki. k i i. et le ième j rofil-coloe est : Distace du Etat doés deux rofils-liges i et i o mesure leur écart à l aide d ue métrique dite du défiie ar : 2 2 1 fij fi j d ( i, i) j1 f. j fi. fi. O défiit de la même maière la distace etre les rofils-coloes. a) Schéma gééral de l aalyse des corresodaces L aalyse des corresodaces reviet à effectuer l aalyse géérale d u uage de oits odérés das u esace mui de la métrique du 2. O fera doc référece à l aalyse géérale avec des métriques et des critères quelcoques. E aalyse des corresodaces, le tableau de doées subit deux trasformatios, l ue e rofils-liges, l autre e rofils-coloes, à artir desquelles vot être costruits les uages de oits das R et R. Pour faire le lie avec l aalyse géérale, ous coserveros les otatios matricielles. Les trasformatios oérées sur le tableau des doées euvet s écrire à artir des trois matrices F, D et D qui défiisset les élémets de base de l aalyse. F d ordre (, ) désige le tableau des fréqueces relatives ; D d ordre (, ) est la matrice diagoale dot les élémets diagoaux sot les marges e liges f i. ; 2
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 14 D est la matrice diagoale d ordre (, ) des marges e coloes f. j Les deux uages de oits (das l esace des coloes et das l esace des liges) sot costruits de maière aalogue. Nous récaitulos ici les élémets de base de l aalyse qui vot ermettre la costructio des facteurs. Tableau 0-1 : élémets de base de l aalyse des corresodaces Nuage de oits-liges Das l esace R 1 X D F coordoées (oit-lige i ) fij, our j 1,2,..., f d i. ( i, i) M j1 2 1 f D. j 1 f f ij i. f f ij i. N D masse du oit i : f i. b) Axes factoriels et facteurs 2 Elémets de base Aalyse du tableau X Avec la métrique M et le critère N d Nuage de oits-coloes das l esace R 1 X D F coordoées (oitcoloe j ) fij, our i 1,2,..., f. j M D 1 2 1 ij ij ( j, j) i1 fi. f. j f. j N D masse du oit f : f j f. j 2 Nous suosos ici que corresod à la lus etite dimesio du tableau de doées. Arès avoir écarté la valeur rore triviale égale à 1 et le vecteur rore associé, ous reteos, de la diagoalisatio de la matrice, les 1 valeurs rores et les vecteurs rores associés. Nous obteos aisi au lus 1 axes factoriels. Tableau 0-2 : Elémets de costructio de l aalyse des corresodaces Das R Elémets de costructio Das R 1 1 S FD FD Matrice à diagoaliser 1 1 T FD FD i S u u Axe factoriel v v D 1 1 FD f f ij f j1 i.. j u u j Coordoées factorielles T D j FD 1 1 v f f ij f i1 i.. j v i
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 15 C - Aalyse des corresodaces multiles L aalyse des corresodaces multiles (ACM) est ue gééralisatio de l aalyse des corresodaces, ermettat de décrire les relatios etre s (s >2) variables qualitatives simultaémet observées sur idividus. O disose aisi d u tableau de doées R ayat liges et s coloes mis sous forme de codage codesé. Le terme gééral r iq désige la modalité de la variable q choisie ar le sujeti. E otat q le ombre de modalités de la variable q, o a riq q.mais u tel tableau est as exloitable : les sommes e lige et e coloes ot as de ses. Il faut doc recoder les variables. a) Tableau disjoctif comlet Désigos ar I l esemble des idividus et ar le ombre total des modalités des s variables. O a : s q q1 O costruit, à artir du tableau de doées R, le tableau Z à liges et coloes décrivat les s variables our les idividus ar u codage biaire. Le tableau Z est la juxtaositio de s sous-tableaux : Z Z1, Z2,..., Z q,..., Z s ième Le sous-tableau Z q à liges et q coloes, est tel que sa i lige cotiet q 1 fois la valeur 0 et ue fois la valeur 1 das la coloe corresodat à la modalité de la variable q choisie ar le sujet i. Autremet dit le tableau Z q décrit la artitio des idividus iduite ar les modalités de la variable q. Le tableau Z est aelé tableau disjoctif comlet dot le terme gééral s écrit : z ij 1 ou z ij 0 selo que le sujet i a choisi la modalité j de la variable q ou o. Les marges e lige du tableau disjoctif comlet sot costates et égales au ombre s de variables : z i. j1 z ij s Les marges e coloes j z ij i1 z. corresodet au ombre de sujets ayat choisi la modalité j de la variable q. O vérifie que, our chaque sous-tableau Z, l effectif total est bie : La somme des marges doe l effectif total z du tableau Z soit : z i1 j1 z ij s b) Pricies de l aalyse des corresodaces multiles q Z q z. j jq L aalyse des corresodaces multiles est l aalyse des corresodaces d u tableau disjoctif comlet. Ses ricies sot doc ceux de l aalyse des corresodaces à savoir : Même trasformatio du tableau de doées e rofils-liges et e rofils-coloes ; même critère d ajustemet avec odératio des oits ar leurs rofils margiaux ; même distace, 2 celle du
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 16 c) Axes factoriels et facteurs E reat les résultats de l aalyse des corresodaces et les otatios adotées, o ose : 1 zij 1 z. j F Z de terme gééral fij ; D D de terme géérale f. j ij s s s s 1 ij D I de terme géérale fi. où D est la matrice diagoale, d ordre (, ) d effectif corresodat à chacue des modalités 1 si i j des s variables ; I est la matrice idetité d ordre (, ) et ij tel que : ij 0 si o 1 1 1 1 Pour trouver les axes factoriels u o diagoalise la matrice : S FD FD Z ZD s d) Iertie du uage des modalités et coséqueces ratiques 2 O raelle que la distace du das R est la métrique D 1. La distace etre la modalité j et le cetre de gravité du uage G, dot toutes les coordoés valet 1, s écrit : d 2 ( j, G) z z ij i1. j 1 2 z. j 1 2 L iertie I ( j) de la modalité j vaut : I( j) m d ( j, G) ; avec 1 z. j I( j) 1 s j m j z. j ; d où : s O remarque que la art d iertie due à ue modalité de variable est d autat lus grade que l effectif das cette modalité est lus faible. E coséquece, o évite, au momet du codage, les modalités à faibles effectifs suscetibles de erturber les directios des remiers axes factoriels. L iertie de la variable q, otée (q) 1 I, vaut : I ( q) I( j) 1 j1 s Aisi la art d iertie due à ue variable est foctio croissate du ombre de modalités de la variable. D où l itérêt d équilibrer le système des variables, c est à dire le découage des variables e modalités, si o veut faire jouer le même rôle à toutes les variables. q O e déduit que l iertie totale du uage des modalités vaut : I I( q) 1 q s e) Règle d iterrétatio Comte teu des distaces etre les élémets du tableau disjoctif comlet et des relatios barycetriques articulières, o exrime : La roximité etre modalités de variables différetes e terme d associatio ; La roximité etre deux modalités d ue même variable e terme de ressemblace q
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 17 Deux séries de coefficiets aortet ue iformatio sulémetaire ar raort aux coordoées factorielles : - Les cotributios, arfois aelées cotributio absolues, qui exrime la art rise ar ue modalité de la variable das l iertie (ou variace) «exliquée» ar u facteur ; - Les cosius carrés, arfois aelés cotributios relatives ou qualité de rerésetatio, qui exrimet la art rise ar u facteur das la disersio d ue modalité de la variable. C est arès l exame de ces coefficiets que l o ourra iterréter les grahiques factoriels e teat comte des relatios de trasitio. - Cotributios O cherche à coaître les élémets resosables de la costructio de l axe. f 2. j j O défiit la cotributio de l élémet j à l axe ar : Cr ( j) Ce quotiet ermet de savoir das quelle roortio u oit j cotribue à l iertie du uage rojeté sur l axe. Pour trouver ue évetuelle sigificatio à u axe, o s itéresse d abord aux oits ayat ue forte cotributio. Ce sot eux qui fixet la ositio de l axe (das R our les oits i, et das R our les oits j) - Cosius carrés O cherche à arécier si u oit est bie reréseté sur u sous-esace factoriel. U oit j das R est lus ou mois roche de l axe. La roximité etre deux oits rojetés sur l axe corresod d autat mieux à leur distace réelle que les oits sot lus roches de l axe. La «qualité» de la rerésetatio du oit j sur l axe eut être évaluée ar le cosius de l agle etre l axe joigat le cetre de gravité du uage au oit j : 2 2 j Cos ( j) 2 d ( j, G) Plus le cosius carré est roche de 1, lus la ositio du oit observé e rojectio est roche de la ositio réelle du oit das l esace. O arécie la qualité de la rerésetatio d u oit das u la e faisat la somme des cosius carrés sur les axes étudiés. Pour aalyser les roximités etre oits, o s itéresse surtout aux oits ayat u cosius carré élevé. Les roximités etre ces oits observés das le sous-esace factoriel doet ue boe image de leurs roximités réelles. Remarque 0-2 Pour les cotributios aisi que our les cosius carrés, il y a as de valeurs «seuils» à artir desquelles o eut dire que telle ou telle valeur est «forte» ou «faible». Les aréciatios se fot emiriquemet, e foctio de l esemble des valeurs calculées et variet d u jeu de doées à u autre. Ceedat u critère de sélectio des cotributios sigificatives cosiste à reteir les modalités de cotributio suérieure au oids [3] - Nombre d axes à reteir O récoise gééralemet de détecter sur le diagramme des valeurs rores l existece d u coude, ce qui est as toujours aisé e ratique. Le scree-test de Cattel [3] e est la versio aalytique. O calcule les différeces remières (des valeurs rores décroissates) :... 1 2 1 ; 2 3 2
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 18 Puis les différeces secodes : 1 2 1 ; 2 3 2... O retiet alors les valeurs rores 1, 2,... k, k 1 telles que 1, 2,..., k soiet tous ositifs. f) Variables sulémetaires L utilisatio des variables sulémetaires e aalyse des corresodaces multiles ermet d erichir l iterrétatio des axes ar des variables ayat as articié à leur costructio. L.Lebart et A. Morieau [1] ot itroduit la otio de valeur-test our chaque modalité d ue variable afi de juger si le oit rerésetatif de la modalité est sigificativemet différet de la moyee géérale. Le ricie e est le suivat. Pour évaluer l'amleur des différeces etre roortios ou etre moyees, o réalise des tests statistiques que l'o exrime fialemet e ombre d'écarts tyes d'ue loi ormale. La valeur-test est égale à ce ombre d'écarts tyes. Aisi lorsque la valeur-test est suérieure à 2 e valeur absolue, u écart est sigificatif au seuil usuel (5%). II Régressio Logistique A Itroductio O étudie la modélisatio de doées edogèes biaires Y à artir de coditios exogèes x. L edogèe Y est ar exemle l état de saté d u idividu (sai ou malade), le statut d u siistré («haut siistré» ou o). Nous ous itéresseros ici au cas où la variable exogèe x à état das E est qualitative. Codos ar 0 et 1 les deux états de l edogèey. Y sous la coditio x est ue variable de Beroulli В( (x)) caractérisée ar la robabilité : Pr( Y 1/ x) ( x) O a : y E( Y / x) ε, avec E( Y / x) Pr ( Y 1/ x) ; E (.) état l esérace mathématique et ε le résidu associé à y Pour fixer les idées, suosos que l esace d état de x est E = R. Soit F : R[0,1] ue foctio cotiue. Ue faço de modéliser (.) est d écrire : (x) = F ( t x ) où R est u aramètre icou. Gééralemet o choisi our F ue foctio de réartitio (oté fdr). Le modèle est liéaire e à travers F, ue foctio o liéaire. F est la foctio de lie du modèle (lik fuctio). Codage d ue variable exogèe qualitative Si ue comosate z de x est qualitative, z a 1, a2,..., a k, z eut être codé das idetifiat al au l ième k 1 vecteur de la base caoique de R, l 1, k 1, et a k égal à 0. k 1 R e
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 19 B - Le modèle logit u e La distributio logistique est associée à la fdr (u ) =. u 1 e La foctio Logit : [0,1] R est la foctio réciroque de, y Logit (y) = log 1 y Le modèle Logit est défii ar : ( x) Pr( Y 1/ x) = ( t x ) ou Logit( ( x)) t x C Estimatios et tests a) Estimatio du modèle Logit Pour l estimatio des coefficiets d u modèle de régressio logistique, la méthode gééralemet utilisée est celle du maximum de vraisemblace (M.V). O eut décrire sommairemet cette méthode comme suit : Soit Y ue variable qui obéit à ue loi de distributio de aramètre : f ( Y; ). A artir d u certai ombre d observatios sury, ( Y 1, Y2,..., Y ), o essaie de détermier la valeur icoue du aramètre. La méthode du maximum de vraisemblace ostule que cette valeur de devrait être celle qui maximise la robabilité d obteir les valeurs observées sur Y. Lorsque les observatios idividuelles y i, i 1,.. sot suosées idéedates, cette vraisemblace s écrit comme le roduit des robabilités : L ( ) i i1 y (1 y ) ( x, ) i 1 ( x, ) Esuite, o maximise cette vraisemblace ar raort au aramètre au moye d u Algorithme umérique (ar exemle ue méthode de gradiet). b) Test de sous-modèle Le test de sous-modèle est basé sur le test du raort de vraisemblace [2] Si M1 M 2 sot deux modèles emboîtés de dimesios 1 2 ; Si L est la log-vraisemblace calculée à la valeur ˆ ( M ), l estimateur du maximum de vraisemblace de sous M, alors, sous M 1 : loi 2 L ( M ) L ( M ) ( ) 2 2 1 2 1 (Chi deux à 2 1 degré(s) de liberté) c) Critère de choix de modèle de tye AIC E régressio logistique, l u des critères de choix du modèle à reteir est l AIC (Akaike Iformatio Criterium) : Le modèle état d autat lus itéressat que so AIC est faible. Pour u modèle M doé, o a : AIC( M ) = 2(log ( M ) d( M )) ; d (M ) état la dimesio de M. L 2 Test du Chi deux ( ) d idéedace Le test de 2 d idéedace s alique à l étude de la liaiso etre deux variables qualitatives X et Y. O teste les hyothèses : Hyothèse ulle (H0) : les deux variables sot idéedates
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 20 Cotre Hyothèse alterative (H1) : les deux variables sot liées Pricie du test O observe u -échatillo du coule (, Y ) Y à valeurs1,...,l. ij : 1 i k, 1 j l la loi de ( X, Y ). Soit X de variables aléatoires X à valeurs,..., k 1 et Si N ij est le ombre d observatio de ( i, j) das le -échatillo, l estimateur emirique est défii ar : Nij ( i, j) Si les caractères X et Y sot idéedats, est das l esemble des lois roduits : our 1 i k, 1 j l (le oit rerésete la sommatio sur l idice) : ij i.. j O estime alors i. ar l estimateur emirique Doc Ni. N. j ij ar ˆ ( i, j) 2 N i. et. j ar N. j ; Si H0 est vraie, ˆ et doivet être voisis ; le 2 2 d idéedace Nij N N i.. j 2 ( ˆ, ) N i, j Ni.. j e doit as être très grad. O motre [10] que 2 ( ˆ, ) coverge e loi vers 2 (( k 1)( l 1)) (loi du Chi deux à ( k 1)( l 1) degrés de libertés) U test coveable our tester l idéedace de X et Y avec u iveau voisi de est le test de régio de rejet (de l hyothèse ulle) 2 2 ( ˆ, ) (( k 1)( l 1), ) R NB : Pour u test d hyothèses H0 (hyothèse ulle) cotre H1(hyothèse alterative), o aelle -value la robabilité sous l hyothèse ulle, que la statistique observée soit suérieure à la statistique théorique. Das le cas du test du Chi deux ci dessus, o a : 2 -value = Pr ˆ H ( ( P, P ) R ) 0 Si -value, o dit que le test est sigificatif à %.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 21 CHAPITRE PREMIER DESCRIPTION DES VARIABLES ET CODAGE Les doées dot ous disosos das cette étude rovieet des services roductio et siistre de la comagie CHANAS ASSURANCES S.A, agece de Yaoudé. Où ous avios comme oulatio d étude les siistrés du ortefeuille automobile edat ue ériode doée (remier Javier 2005 au 13 jui 2005). Avat de réseter les doées de faço exlicite, ous doeros u bref aerçu sur le ricie de foctioemet de l assurace automobile de la comagie. I - Pricie de foctioemet de l assurace automobile : de la souscritio au règlemet de siistre Lors de la souscritio d u cotrat d assurace automobile au service roductio de la comagie, u documet décrivat les différetes clauses ossibles du cotrat est remis au souscriteur. Puis, il lui est remis u questioaire à remlir ; comortat les reseigemets sur le véhicule à assurer, le coducteur du véhicule, les différetes garaties à souscrire et la durée du cotrat. - Véhicule à assurer Au moye de la carte grise du véhicule, o extrait les iformatios telles que : la marque, le gere, la uissace fiscale, so âge (à artir de sa date de remière mise e circulatio), et le souscriteur doe l usage qu il fera du véhicule. - Différetes garaties Etre autres, ous avos les garaties : resosabilité civile, bris de glace, dommages au véhicule, vols total et artiel, hooraires d exert, recours défese, recours tiers icedie, icedie, idividuelle ersoes trasortées, braquage, etc. - Coducteur du véhicule Ici o a les iformatios telles que : so adresse, sa rofessio, so âge, so coefficiet de boificatio. Toutes ces iformatios coduiset à la fixatio d ue rime (rime émise) à ayer ar le souscriteur de cotrat afi d être couvert e cas de siistre durat la ériode de garatie. Raelos aussi que les olices d assurace automobile sot classées e deux grades catégories : Les olices moo, costituées d u seul véhicule. Les olices flottes, costituées de lusieurs véhicules aarteat le lus souvet à u groue de ersoes exerçat la même activité, ou à u articulier. Pour satisfaire ses cliets, la comagie octroie des bous aux olices flottes, ceci e foctio du ombre de véhicule de la flotte. Il est ceedat imortat de oter que la boificatio accordée aux olices flottes a rie à voir avec le coefficiet de boificatio idividuelle qui tiet comte de la resosabilité civile et de l acieeté du cliet das la comagie. Aisi, avec ue attestatio de o siistre, le cliet qu il soit ouveau ou acie eut se retrouver avec u bous our o siistre (BNS) allat jusqu'à 25 % de la rime émise.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 22 Das otre étude, afi de comarer les cliets sur des bases commues, ous avos as jugé utile de cosidérer la boificatio liée aux olices flottes. Ceci état, ous e cosidéros ici que le bous idividuel (lié à chaque coducteur), qui eut ous servir comme outil de mesure de resosabilité civile du cliet. A riori o ourra doc qualifier de bo coducteur celui dot le coefficiet de boificatio est maximal. Ue fois la souscritio faite, arès la surveace d u siistre, l assuré se résete au service siistre où il remlit ue fiche de déclaratio de siistre das laquelle o retrouve les caractéristiques du véhicule siistré et du coducteur du véhicule au momet du siistre. O eut avoir recours à u exert qui examie le siistre et arrête so coût fiacier qui est foctio des différetes garaties souscrites. II -Méthodologie de collecte de doées La collecte des doées a été la hase la lus difficile de ce travail ; ceci à cause du fait qu elle soit effectuée mauellemet. A artir du rogiciel EXTEL géré sous l AS400, ous avos extrait les uméros de olice automobile ayat eu la réalisatio d au mois u siistre, du remier javier 2005 au 13 jui, date de début de otre étude. Arès avoir reéré les uméros de olice comortat les véhicules siistrés, ous avos eu recours au service roductio où il était questio our ous, comte teu du fait que otre uité statistique soit le véhicule siistré, d idetifier exactemet le(s) véhicule(s) siistré(s) das le cas des olices flottes. L idetificatio se faisat à artir de la marque du véhicule siistré et de so uméro d immatriculatio, recueillis au service siistre de la comagie. Ue fois l idetificatio faite, outre les différets coûts de siistres, o est assé au recueil des différetes iformatios fouries lors de la souscritio du cotrat. Comte teu de l objectif de otre sujet, il coviet de metioer que ous ous itéresseros articulièremet aux différets coûts de siistres. Peu imorte leurs ombres. Aisi our u véhicule voyat lus d ue fois la surveace d u siistre edat la même ériode de garatie, o s itéressera uiquemet à la somme de leurs différets coûts. Les doées recueillies ot été saisies das l éditeur du logiciel statistique SPSS, our leur auremet. Auremet qui cosistait ricialemet à surimer les doublos et aberratios dues au recueil mauel de doées. Arès l auremet ar SPSS de la base de doées, ous avos obteu ue ouvelle base comortat 229 eregistremets corresodat à otre oulatio de siistrés, armi lesquels ous retrouveros 90 que ous qualifieros de «hauts siistrés».cette otio sera défiie das la suite. A) Défiitio de «haut siistré» Habituellemet, u siistre est déclaré «haut siistre» lorsque so coût rerésete au mois 70 % de la rime émise. Mais il se trouve que das otre échatillo, la quasi totalité des siistrés vérifiet ce critère. Ce qui redrait eu itéressate la variable siistralité. Pour remédier à cette situatio, ous avos défii ue ouvelle règle de classificatio à savoir :
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 23 - Pour les cotrats arrivés à échéace avat le début de l étude : Si le coût du siistre est suérieur ou égal à quatre fois la rime émise, le siistré sera déclaré «haut siistré». - Pour les cotrats e cours au momet de l étude : O calcule ue ouvelle durée de cotrat ; qui est le tems e mois séarat la souscritio du dit cotrat et le début de l étude (13 jui 2005).Das ce cas le critère de discrimiatio tiet comte des deux durées de cotrat ; état doé que la rime émise a été fixée e foctio de la durée iitiale du cotrat. Aisi, si : Le coût du siistre est suérieur ou égal à quatre fois la ouvelle durée du cotrat multilié ar la rime émise divisé ar la durée iitiale du cotrat, le siistré sera qualifié «haut siistré». B ) Descritio et codage des variables Les différetes variables utilisées das cette étude euvet être scidées e deux groues, à savoir : la variable à exliquer ou variable edogèe, et les variables exlicatives ou variables exogèes. a) Variable à exliquer Nous avos ici la variable réose corresodate a l objectif visé ar otre étude. SINISTRALITE : variable dichotomique reat la valeur : 1 si le siistre est qualifié de «haut siistre» tel que défii ci haut 0 sio b) Variables exlicatives Ce sot our la luart les variables décrivat le risque automobile. Elles euvet être classées e trois sous groues : les variables rerésetat les garaties souscrites, les variables décrivat les caractéristiques du véhicule et les variables rerésetat le iveau de rime, durée de cotrat et coût de siistre. - Variables rerésetat les garaties souscrites Ce sot des variables booléees reat les valeurs 0 et 1. 1 si la garatie a été souscrite et 0 sio. Les riciales sot les suivates : BG : bris de glace DOM : dommage véhicule VOLX : vol artiel du véhicule VOL : vol total du véhicule HE : hooraire d exert INC : icedie totale
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 24 INCX : icedie artiel IPT : idividuelle ersoe trasortée RD : recours défese RTI : recours tiers icedie MI : matière iflammable BRAQ : braquage Raelos ici que la garatie VOL est icluse das la garatie VOLX, et comte teu de l effectif très réduit de souscritio de garatie VOLX ar raort à la garatie VOL, ous avos réuit les deux our e faire la garatie VOL. Il e est de même our les garaties INC et INCX. Les garaties MI et RTI e sot as rises e comte das cette étude. Ceci our éviter le roblème de sous disersio des modalités 1 ; car la quasi totalité des véhicules de otre échatillo ot as souscrit à ces garaties. Elles rerésetet resectivemet 1,17 % et 1,95 % de l échatillo global. - Variable rerésetat les caractéristiques du véhicule MARQUE : Variable qualitative, rerésetat la marque du véhicule. Nous avos regroué les différetes marques e quatre iveaux, les trois remiers rerésetat les ays d origie des véhicules. Nous avos : Jao : Rerésetat les véhicules de marque Toyota, Mitsubishi, Suzuki, Isuzu, Mazda, Subaru, Yamaha, Hoda, issa. Frace : Rerésetat les véhicules de marque Peugeot, Reault, Citroë. Allemage : Rerésetat les véhicules de marque Golf, BMW, Volkswage, Audi, mercedes. Autres : Pour les autres marques de véhicules. GENRE : Variable qualitative rerésetat le gere de véhicule. Cojoitemet avec le service roductio de la comagie, ous avos classé les valeurs de cette variable e trois catégories, suivat la cofiguratio des différets véhicules. Aisi, o a : Gere1 : Vélo, cyclomoteur, moto, solo, berlie, ajero, sw (court chassie), v (voiture ersoelle), ci Gere2 : Fourgo, u (ick-u), ctte (camioette), bâchée, bus, autocar Gere3 : Semi remorque, camio, caterillar, tracteur USAGE : Variable qualitative, rerésetat l usage que le souscriteur fera de so véhicule. Pour ce qui est des défiitios de différets usages de véhicules, il coviet de se référer au titre1 «Déclaratios relatives à l usage du véhicule assuré» de la omeclature des clauses de l assurace automobile.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 25 PUISS : Variable qualitative ordiale à six iveaux, rerésetat la uissace fiscale du véhicule. Nous avos das otre échatillo des véhicules à moteur diesel et des véhicules à essece. Malgré ces différetes sources d éergie, raelos ici qu il e s est as osé le roblème d équivalece de uissace. Ceci à l aide du documet d équivalece de uissace fiscale, fouri ar la société camerouaise d assurace ; documet que ous redros le soi de joidre e aexe. Aisi la variable PUISS aura six iveaux : PUISS1,, PUISS6, suivat les valeurs croissates de uissaces fiscales. - Variables rerésetat les iveaux de rimes, durée de cotrat et coût de siistre. PRIME : Variable quatitative discrète rerésetat la rime émise ar le souscriteur our être couvert ar l assureur e cas de siistre edat la validité du cotrat. COEFB : Variable qualitative ordiale à ciq iveaux : 0%, 10%, 15%, 20%, 25% rerésetat le coefficiet de boificatio du souscriteur. Comte teu des critères d attributio de bous défiis lus haut, o ourra à riori l utiliser comme outil de mesure de resosabilité civile chez les coducteurs. Dès lors, le bo coducteur aura le lus grad coefficiet de boificatio. DURC : Variable quatitative discrète, rerésetat la durée de cotrat e mois. Celle ci état comrise etre 1 et 12 mois. Le cotrat sera dit temoraire si sa durée est iférieure à 12 mois. COUTSIN : Variable quatitative discrète rerésetat le coût du siistre, c est à dire le motat déboursé ar la comagie our couvrir le siistre. x 1,..., x l,... x
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 26 CHAPITRE DEUX DESCRIPTION MULTIDIMENSIONNELLE DES DONNEES Das ce chaitre, ous avos our souci de décrire les rarochemets ouvat exister etre les différetes modalités de otre base de doées et de sécifier celles qui se rarochet le lus de la caractéristique «haute siistralité» (SIN=1). Pour cela ous utiliseros ue méthode classique de descritio multidimesioelle de doées qualitatives : L aalyse des corresodaces multiles (ACM). I - Aalyse des corresodaces multiles Défiitio L aalyse des corresodaces multiles est ue méthode d aalyse de doées qui cosiste à décrire les roximités etre les modalités de variables qualitatives simultaémet observées sur des idividus. Elle est aussi utilisée our la costructio de scores comme réalable à ue méthode de classificatio écessitat les doées qualitatives. A - Coditio d utilisatio de la méthode Comme toute méthode d aalyse de doées, l ACM s alique arès vérificatio d u certai ombre de critères coduisat à sa robustesse. Nous etedos ar là : - Le resect de la o disarité tro grade etre les ombres de catégories des variables. - Le resect de l écart as tro grad etre les fréqueces des modalités d ue même variable. Nous utilisos our ce chaitre le logiciel statistique SPAD versio 4.01. Avat de asser à l aalyse, il coviet our ous de vérifier si la base de doées brutes resecte les critères d utilisatio de l ACM metioés ci-dessus. Pour cela, le tableau 2-1 cidessous ous doe les statistiques élémetaires des différetes variables étudiées.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 27 Tableau 2-1 : Statistiques élémetaires des doées brutes ------ EFFECTIFS ------- ABSOLU %/TOTAL HISTOGRAMME DES POIDS SIN 0 139 60.70 **************************** 1 90 39.30 ******************* 229 100.00 BG 0 214 93.45 ******************************************* 1 15 6.55 **** 229 100.00 DOM 0 206 89.96 ****************************************** 1 23 10.04 ***** 229 100.00 VOL 0 106 46.29 ********************** 1 123 53.71 ************************* 229 100.00 HE 0 144 62.88 ***************************** 1 85 37.12 ****************** 229 100.00 INC 0 108 47.16 ********************** 1 121 52.84 ************************* 229 100.00 IPT 0 16 6.99 **** 1 213 93.01 ******************************************* 229 100.00 RD 0 40 17.47 ********* 1 189 82.53 ************************************** 229 100.00 BRAQ 0 178 77.73 ************************************ 1 51 22.27 *********** 229 100.00 MARQUE all 37 16.16 ******** autre 26 11.35 ****** frace 42 18.34 ********* jao 124 54.15 ************************* 229 100.00 GENRE 1 164 71.62 ********************************* 2 31 13.54 ******* 3 34 14.85 ******* 229 100.00 USAGE 1 156 68.12 ******************************** 10 1 0.44 * 2 45 19.65 ********** 3 16 6.99 **** 4 6 2.62 ** 5 3 1.31 * 8 1 0.44 * 9 1 0.44 * 229 100.00
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 28 ----------------------------------------------------------------------------------- COEFB 0 123 53.71 ************************* 10 24 10.48 ***** 15 10 4.37 *** 20 18 7.86 **** 25 54 23.58 *********** 229 100.00 PUISS 1 3 1.31 * 2 1 0.44 * 3 75 32.75 **************** 4 77 33.62 **************** 5 37 16.16 ******** 6 36 15.72 ******** 229 100.00 DURC 10 8 3.49 ** 12 177 77.29 ************************************ 2 12 5.24 *** 3 11 4.80 *** 4 3 1.31 * 5 1 0.44 * 6 8 3.49 ** 7 2 0.87 * 8 3 1.31 * 9 4 1.75 * 229 100.00 ----------------------------------------------------------------------------------- Commetaire 2-1 L histogramme des oids de modalités réseté das le tableau ci-dessus ous ermet de lire d ue art u grad déséquilibre etre les oids des modalités de certaies variables, d autre art ue grade disarité de ombre de modalités des différetes variables. Ce roblème de déséquilibre de ombre de modalité se voit aisémet lorsqu o cosidère ar exemle les variables GENRE (trois iveaux) et DURC (dix iveaux). O costate doc que our aliquer la méthode d aalyse des corresodaces multiles, otre base de doées a besoi d être recodée, ceci e vue d être le lus roche ossible des critères d alicatio de la méthode. B - Recodage de variables Il se fait das le souci de satisfactio des coditios d alicatio de la méthode d aalyse des corresodaces multiles. Nous recodos aisi ue boe artie de os variables, otammet : COEFB : Variable qualitative ordiale à 3 modalités, rerésetat le coefficiet de boificatio du cliet. Les différetes modalités sot : 0 our les cliets ayat as de bous 1 our les cliets ayat u bous de 10 % ou 15 % 2 our les cliets ayat u bous de 20 % ou 25 % PUISS : Variable qualitative ordiale à 3 modalités, rerésetat la uissace fiscale du véhicule. Ses modalités sot : 1 our les véhicules à essece de uissace iférieure ou égale à 10 chevaux, ou les véhicules diesel de uissace iférieure ou égale à 7 chevaux. 2 our les véhicules à essece de uissaces comrises etre 11 et 14 chevaux, ou les véhicules diesel de uissaces comrises etre 8 et 10 chevaux. 3 our les véhicules à essece de uissaces suérieures à 15 chevaux, ou les véhicules diesel de uissaces suérieures à 11 chevaux.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 29 USAGE : Variable qualitative à 4 modalités, rerésetat l usage du véhicule. Ses modalités sot : 1 : Véhicules utilisés our l exercice d ue rofessio et our la romeade. 2 : Véhicules utilisés our le trasort des roduits ou marchadises aarteat à l assuré 3 : Véhicules utilisés à des trasorts à titre oéreux de roduits ou marchadises aarteat à des tiers 4 : 50 % (Autobus, autocar et véhicules our le trasort voyageur à titre ayat.) ; 25 % (Véhicule motorisés à deux roues) ; 8,33 % (Véhicules destiés à la locatio sas chauffeur) ; 8,33 % (Véhicules utilisés ar des etrerises idustrielles our l exécutio des travaux de chatier) ; 8,33 % (Ambulaces, corbillards, Fourgo fuéraires). DURC : Variable qualitative dichotomique rerésetat le tye de cotrat. Ses modalités sot : a : our les cotrats auels, c est à dire de durée égale à 12 mois ; t : our les cotrats temoraires, c est à dire de durée iférieure à 12 mois. Arès avoir recodé les variables, ous obteos ue ouvelle base de doées o loi des exigeces que relève l aalyse des corresodaces multiles. Cette ouvelle base est à ouveau trasférée das le logiciel our l aalyse. C - Pricie de l aalyse Raelos ue fois de lus que l aalyse des corresodaces multiles utilisée ici a our ricial objectif de détermier les rarochemets existat etre les différetes modalités de la base de doées ; rarochemet ouvat s iterréter comme ue associatio etre ces modalités. Dès lors ous ouvos formuler les hyothèses de corrélatio etre les variables corresodates aux modalités associées. Das cette aalyse, les variables décrivat les différetes garaties souscrites serot rises comme sulémetaires, c est à dire e articierot as à la costructio des axes factoriels. Ceci se fait ricialemet das le but d erichir l iterrétatio des axes ar des variables ayat as articié à leurs détermiatios. L iterrétatio des listigs d ue ACM est ricialemet basée sur l exame : Du cosius carrés de l agle etre l axe factoriel et la droite reliat u oit-modalité au cetre de gravité du uage de oits ; Des cotributios des modalités à la costructio des axes factoriels ; Des coordoées des modalités das les différets axes factoriels Nous commeços ar regarder les modalités bie rerésetées sur les axes, c est à dire celles ayat u bo cosius carré. Esuite, o admettra ue modalité comme sigificativemet cotributive à la costructio d u axe factoriel si sa cotributio est suérieure à so oids [3]. Efi ous ous serviros des coordoées des modalités our mieux orieter celles qui serot reteues our u axe doé. Pour ce qui est des variables sulémetaires, ous utilisos la otio des valeurs-tests [1]. Ue modalité de variable sulémetaire sera attachée à u axe si sa valeur-test associée à l axe est e valeur absolue suérieure à 2. Pour mieux cocrétiser les iterrétatios que ous feros, ous rooseros les grahiques rerésetat les rojectios du uage des modalités das les las riciaux. Ceedat ous ous garderos des illusios de roximités our les modalités qui e sot as bie rerésetées das u la doé.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 30 D - Iterrétatios Le scree-test de Cattell [3] ous recommade le choix des trois axes corresodat aux trois remières valeurs rores. Ceedat au vu de l histogramme des valeurs rores réseté au tableau 2-2, ous ouvos comte teu du décrochemet[4] cosidérable etre la quatrième et la ciquième valeur rore, faire ue descritio du uage avec les quatre remiers axes. L étalemet figurat sur ces quatre axes rerésete 50,77% de l iertie iitiale du uage des modalités. Comme ous l avos dit lus haut, l iterrétatio des axes ar les variables actives se fait essetiellemet à l aide des trois etités : cosius carrés, cotributios et coordoées. Aisi le tableau 2-3 ous doe les cosius carrés, les cotributios et les coordoées des différetes modalités das les axes factoriels. Nous avos mis e gras les valeurs corresodates aux modalités bie rerésetées (bo cosius carré) et celles corresodates aux modalités de boe cotributio à l iertie de l axe (cotributio suérieure au oids). Le tableau 2-4 ous doe u récaitulatif des modalités bie rerésetées et de boes cotributios our chacu des quatre axes reteus. L iterrétatio des axes ar les variables sulémetaires est doée ar le tableau 2-5. a) Iterrétatio des axes factoriels L axe 1 oose : D ue art les véhicules de gere 3 (camio, semi remorque, caterillar, tracteur), d usage 3 (utilisés our des trasorts à titre oéreux des roduits ou marchadises aarteat à des tiers), et de uissace 3 (uissace fiscale suérieure à 15 chevaux our essece et 11 chevaux our diesel) ; D autre art les véhicules de gere1 (etits véhicules) et d usage 1 (utilisés our l exercice d ue rofessio et our la romeade) qui sot articulièremet caractérisés ar la souscritio aux garaties vol, braquage et icedie L axe 2 oose : D ue art les véhicules de gere 2 (Fourgos, bachées, bus, autocars ), de uissace 2 (uissaces fiscales comrises etre 11 et 14 chevaux our essece et etre 8 et 10 chevaux our diesel), d usage 2 ou 4 (utilisés our le trasort de roduits ou marchadises aarteat à l assuré ou d usage 4(cf recodage des variables)) et la modalité «haute siistralité»; D autre art les véhicules d usage 3, caractérisés ar la souscritio à la garatie icedie et la modalité «o haute siistralité» L axe 3 oose : D ue art les cotrats temoraires, caractérisés ar la o souscritio aux garaties vol et icedie et ricialemet ar la metio «haute siistralité» ; D autre art les cotrats auels réalisés our des véhicules d usage 2 L axe 4 oose : Les véhicules d origie allemade, de uissaces 2 aux véhicules d origie «autres»(i fraçaise, i jaoaise), essetiellemet souscriteurs aux garaties vol et icedie.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 31 Tableau 2-2 :Histogramme des valeurs rores +--------+------------+----------+----------+----------------------------------------------------------------------------------+ NUMERO VALEUR POURCENT. POURCENT. HISTOGRAMME DES 14 PREMIERES VALEURS PROPRES PROPRE CUMULE +--------+------------+----------+----------+----------------------------------------------------------------------------------+ 1 0.3552 17.76 17.76 ******************************************************************************** 2 0.2711 13.55 31.31 ************************************************************** 3 0.1995 9.98 41.29 ********************************************* 4 0.1897 9.48 50.77 ******************************************* 5 0.1543 7.72 58.49 *********************************** 6 0.1404 7.02 65.51 ******************************** 7 0.1320 6.60 72.11 ****************************** 8 0.1276 6.38 78.49 ***************************** 9 0.1094 5.47 83.96 ************************* 10 0.1004 5.02 88.98 *********************** 11 0.0964 4.82 93.80 ********************** 12 0.0687 3.44 97.24 **************** 13 0.0466 2.33 99.57 *********** 14 0.0087 0.43 100.00 ** +--------+------------+----------+----------+----------------------------------------------------------------------------------+
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 32 Tableau 2-3 : Coordoées, Cotributios et cosius carrés des modalités actives sur les axes 1 à 4 +------------------------------------------+-------------------------------+--------------------------+--+ MODALITES COORDONNEES CONTRIBUTIONS COSINUS CARRES ------------------------------------------+-------------------------------+--------------------------+-- LIBELLE P.REL DISTO 1 2 3 4 1 2 3 4 1 2 3 4 +------------------------------------------+-------------------------------+--------------------------+--+ SIN 0 8.67 0.65-0.05 0.31-0.47-0.10 0.1 3.1 9.4 0.4 0.00 0.15 0.33 0.01 1 5.61 1.54 0.07-0.48 0.72 0.15 0.1 4.7 14.5 0.6 0.00 0.15 0.33 0.01 +--------------------------------------CONTRIBUTION CUMULEE = 0.1 7.8 23.9 1.1 +---------------------+ MARQUE all 2.31 5.19 0.51 0.03 0.40-1.52 1.7 0.0 1.8 28.3 0.05 0.00 0.03 0.45 autre 1.62 7.81 0.92 0.03 0.80 1.29 3.9 0.0 5.2 14.1 0.11 0.00 0.08 0.21 frace 2.62 4.45-0.41 0.76-0.53 0.57 1.3 5.6 3.7 4.5 0.04 0.13 0.06 0.07 jao 7.74 0.85-0.20-0.27-0.11-0.01 0.9 2.1 0.4 0.0 0.05 0.09 0.01 0.00 +-------------------------------------CONTRIBUTION CUMULEE = 7.7 7.7 11.1 46.9 +----------------------+ GENRE 1 10.23 0.40-0.51 0.21 0.20-0.10 7.6 1.7 2.2 0.6 0.66 0.11 0.11 0.03 2 1.93 6.39 0.46-2.02-0.87 0.47 1.1 29.2 7.4 2.3 0.03 0.64 0.12 0.03 3 2.12 5.74 2.06 0.82-0.19 0.07 25.3 5.3 0.4 0.1 0.74 0.12 0.01 0.00 +-------------------------------------CONTRIBUTION CUMULEE = 34.0 36.2 9.9 2.9 +----------------------+ USAGE 1 9.73 0.47-0.53 0.27 0.21-0.14 7.8 2.7 2.1 1.1 0.61 0.16 0.09 0.04 2 2.81 4.09 0.93-1.01-1.05-0.12 6.9 10.7 15.5 0.2 0.21 0.25 0.27 0.00 3 1.00 13.31 2.37 1.46 0.58 0.57 15.8 7.8 1.7 1.7 0.42 0.16 0.03 0.02 4 0.75 18.08 0.28-1.69 0.45 1.55 0.2 7.9 0.8 9.5 0.00 0.16 0.01 0.13 +-------------------------------------CONTRIBUTION CUMULEE = 30.6 29.1 20.0 12.5 +----------------------+ COEFB 0 7.67 0.86 0.36-0.20 0.13-0.10 2.8 1.1 0.7 0.4 0.15 0.05 0.02 0.01 1 2.12 5.74-0.25 0.35-0.27-0.59 0.4 1.0 0.8 3.8 0.01 0.02 0.01 0.06 2 4.49 2.18-0.49 0.17-0.10 0.44 3.0 0.5 0.2 4.7 0.11 0.01 0.00 0.09 +------------------------------------ CONTRIBUTION CUMULEE = 6.2 2.6 1.6 8.9 +----------------------+ PUISS 1 4.93 1.90-0.70 0.19-0.12 0.76 6.8 0.6 0.4 14.9 0.02 0.01 0.30 0.00 2 4.80 1.97-0.22-0.71 0.20-0.69 0.7 8.9 1.0 12.1 0.03 0.25 0.02 0.24 3 4.55 2.14 1.00 0.54-0.08-0.09 12.7 4.9 0.2 0.2 0.46 0.14 0.00 0.00 +-------------------------------------CONTRIBUTION CUMULEE = 20.2 14.5 1.5 27.3 +----------------------+ DURC a 11.04 0.29-0.09 0.11-0.36-0.04 0.3 0.5 7.2 0.1 0.03 0.04 0.45 0.01 t 3.24 3.40 0.31-0.37 1.23 0.14 0.9 1.6 24.6 0.4 0.03 0.04 0.45 0.01 +------------------------------------ CONTRIBUTION CUMULEE = 1.2 2.1 31.9 0.5 +----------------------+ Tableau 2-4 : récaitulatif des modalités bie rerésetées et à boes cotributios Modalités bie rerésetées (bos cosius carrés) Modalités bie rerésetées et à cotributio sigificative Coordoées ositives Coordoées égatives Axe 1 Axe 2 Axe 3 Axe 4 SIN 0,1 SIN 0, 1 GENRE 2 USAGE 2 USAGE 2, 3, 4 PUISS 1 PUISS 2 DURC t, a GENRE 1, 3 USAGE 1, 3 PUISS 3 GENRE 3, 1 USAGE 3, 1 PUISS 3 GENRE 3 USAGE 3 PUISS 3 GENRE 1 USAGE 1 GENRE 2 USAGE 2, 3, 4 PUISS 2 USAGE 3 USAGE 2, 4 GENRE 2 PUISS 2 USAGE 2 DURC t, a DURC t DURC a USAGE 2 MARQUE all, autre PUISS 2 MARQUE all, autre PUISS 2 MARQUE autre MARQUE all PUISS 2
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 33 Tableau 2-5 : Valeurs-tests des modalités sigificatives (au seuil 5%) de Variables illustratives Axe1 Axe2 Axe3 Axe4 Modalités Valeurs-tests VOL 0 4,49 BRAQ 0 3,38 VOL 1-4,49 BRAQ 1-3,38 INC 1-3,37 INC 0-2,29 INC 1 VOL 0 INC 0 VOL 1 INC 1 BRAQ 1 INC 0 VOL 0 INC 1 VOL 1 2,29 3,11 3,19-3,11-3,19-2,10-3,13-2,78 3,13 2,78 Remarque 2-1 O costate que seuls les axes 2 et 3 ous ermettet de dégager certaies caractéristiques de cliets à risque. Ceedat ous ourros exloiter les autres axes de faço imlicite. Pour mieux visualiser les iterrétatios doées à os axes factoriels et les associatios ou réulsios ouvat exister etre les différetes modalités, les cartes de modalités das différets las factoriels ot été doées ar les grahiques 2-1 ; 2-2 ; 2-3 ; 2-4 ; et 2-5
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 34 Grahique 2-1 : carte des modalités (axes 2 et 3) Grahique 2-2 : carte des modalités (axes 1 et 3)
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 35 Grahique 2-3 : carte des modalités (axes 3 et 4) Grahique 2-4 : carte des modalités (axes 3 et 6)
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 36 Grahique 2-5 : carte des modalités (axes 3 et 5) b) Iterrétatio des grahiques Raelos ici que la roximité etre deux modalités s iterrète e terme d associatio etre les modalités. Le grahique 2-1 rerésete le la factoriel exliquat le mieux la siistralité. O eut y extraire lusieurs iformatios, otammet : Les cotrats temoraires sot à risque ; Les véhicules de uissace 2 sot lus à risque que ceux de uissace 1 ; De lus, le rarochemet des modalités GENRE 2 et USAGE 2 ous doe ue boe raiso de eser que les variables associées sot corrélées. Le grahique 2-2 quat à lui ous motre que : Les véhicules de uissace1 sot lus à risque que ceux de uissace 3 ; et ue évetuelle corrélatio etre les variables GENRE et PUISS De faço aalogue, le grahique 2-3 motre que : Les véhicules d origies «autres» sot lus à risque que ceux d origies allemades. Les véhicules d origies fraçaises et jaoaises corresodet à des modalités bie rerésetées sur le sixième axe factoriel (cf. aexe).aisi le grahique 2-4 motre que : Les véhicules d origies jaoaises sot lus à risque que ceux d origies fraçaises. Le grahique 2-5 ous motre que : Les véhicules d origies allemades sot lus à risque que ceux d origies jaoaises.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 37 II - Coclusio Arès iterrétatio des axes et grahiques, o eut tirer les coclusios suivates : Les cotrats temoraires sot à risque ; Les véhicules de uissace 2 (uissaces fiscales comrises etre 11 et 14 chevaux our essece ou etre 8 et 10 chevaux our diesel) sot les lus à risque, suivis de ceux de uissace 1(uissace fiscale iférieure ou égale à 10 chevaux our essece ou à 7 chevaux our diesel), ceux de uissace 3 état les mois à risque ; Pour ce qui est du risque lié à la marque du véhicule, ous ouvos dire que les véhicules de ays d origies «autres»(i Frace, i Allemage, i Jao) sot les lus à risque, esuite vieet les véhicules d origie allemade, suivis de ceux d origie jaoaise. O costate doc que les véhicules d origie Fraçaise sot les mois à risque ; Les véhicules d usage 2 sot lus à risque que ceux d usage 3 ; ce qui ourrait traduire ue resosabilité civile lus élevée de la art du coducteur lorsqu il s agit d u trasort à titre oéreux de marchades aarteat à u tiers. L iformatio géérale que ous reteos des variables sulémetaires est le fait que la «haute siistralité» e soit as essetiellemet surveue à l issue d u vol, i d u icedie, i d u braquage. Ceedat ous avos détermié les otetiels souscriteurs à cette garatie ; ce qui rerésete ue étude rélimiaire à ue aalyse des risques essetiellemet liés au vol, braquage ou icedie. Le réset chaitre ous a ermis de déceler les modalités se rarochat le lus de la caractéristique «haute siistralité». Ceedat la questio que l o ourrait se oser est celle de savoir si le rarochemet etre deux modalités e serait as dû à l ifluece des autres. Ceci est l objet du rochai chaitre qui a our ricial objectif de séarer les «effets modalités» e reteat celles qui serot les lus ertietes et les lus discrimiates ouvat exliquer de faço sigificative la siistralité.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 38 CHAPITRE TROIS MODELISATION Itroductio Nous etedos ar modèle u résumé global des relatios etre variables, ermettat de comredre des héomèes, et d émettre des révisios. Raelos que das ce chaitre otre but est de rooser le modèle qui s ajustera le mieux aux doées observées ; ceci das l itetio de mettre e exergue les facteurs décrivat de faço sigificative la siistralité. Le but fial état de dire au moye de ses caractéristiques si le ouveau cliet est à risque ou o. Das toute la suite, ous utilisos our os différetes aalyses le Logiciel Statistique R, versio 2.1.0 qui date d avril 2005. O adotera le seuil de 10 % comme risque de remière esèce our os différets tests. I - Pourquoi le modèle de régressio logistique? Notre base de doées comorte 229 uités statistiques sur lesquelles 15 variables qualitatives ot été eregistrées. La variable à exliquer est la siistralité, qualitative biaire reat les iveaux 1 our «haute siistralité» et 0 sio. O est doc e résece d u évéemet obéissat à ue loi de Beroulli. Les deux attributs de la variable siistralité e ouvat as être quatifiés de faço aturelle, ue idée ituitive de modélisatio serait la régressio logistique, qui cosiste à modéliser la robabilité our la siistralité de redre l u de ses attributs suivat le vecteur de co-variables observé. D où le choix judicieux du modèle de régressio logistique. A - Exigeces du modèle Comme tout modèle de régressio, le modèle de régressio logistique s alique arès vérificatio de certais critères assurat sa robustesse. O eut etre autre citer les roblèmes de sur-disersio, de sous-disersio, de coliéarités etre variables exlicatives, de liaiso etre co-variables et variable réose. a) Sur-disersio et sous-disersio Das le cotexte de la régressio logistique, si ue modalité est le résultat d u regrouemet de lusieurs graes d idividus, alors il y a vraisemblablemet roblème de sur-disersio. De maière aalogue o défiit la sous-disersio. Ces deux otios ous fot eser aux variables BG, DOM et IPT de otre base de doées. b) Liaiso etre co-variables et variable réose Avat d itroduire ue variable das le modèle, il faut d abord s assurer de la liaiso sigificative qui existe etre celle-ci et la variable réose ; au risque de erdre la robustesse du modèle. Nous utiliseros ici le test d idéedace du khi-deux our s assurer des différetes liaisos etre les co-variables et la variable réose qui est ici la siistralité. c) Coliéarités etre les variables exlicatives La coliéarité (ou corrélatio) etre deux ou lusieurs variables idéedates eut affecter la stabilité de leurs coefficiets das le modèle. Plus forte est la corrélatio, lus grade est
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 39 l istabilité des coefficiets. Pour réveir ces roblèmes d istabilité, il est recommadé d isecter les corrélatios qui uisset exister etre les variables idéedates. B - Méthodologie de l aalyse O rocède d abord aux aalyses bivariables qui cosistet à tester la sigificativité d ue liaiso évetuelle etre la siistralité (variable à exliquer) et les différetes co-variables décrivat le risque, ceci à l aide d u test d idéedace du Chi deux. E secod lieu o fait ue aalyse multivariable où o redra e comte les co-variables reteues aux différetes aalyses bivariables. Cette aalyse multivariable se fera à l aide du modèle de régressio logistique qui ous ermettra de faire ue étude collective des facteurs décrivat la siistralité e modélisat la robabilité d être «haut siistré» coaissat les caractéristiques du cliet. Ceci ous ermettra de faire des révisios de statut («haut siistré» ou o) our le ouveau cliet de la comagie a) Aalyses bivariables Avat d aalyser os doées au moye d u modèle de régressio logistique multivariables, il est d usage de rocéder à des aalyses bivariées qui ous ermettrot d aréheder les facteurs de risque otetiellemet associés avec l outcome. Sur la base de ces résultats, o rocédera à u tri réalable de ces facteurs selo leur degré d évidece (-value) et os coaissaces théoriques, afi de e as tous les itroduire das le modèle (risque de multi coliéarité, difficulté d iterrétatio des résultats, overfittig, etc.). L aalyse se fera ici à l aide du test d idéedace du Chi deux dot les riciaux résultats sot résetés das le tableau ci arès : Tableau 3-1 : Aalyses Bivariables des facteurs otetiels associés à la siistralité covariables BG DOM VOL HE INC IPT RD BRAQ MARQUE GENRE USAGE COEFB PUISS DURC -value 1.623744e-02 *** 1.265465e-02 * 5.651699e-05 *** 9.790238e-01 NS 4.028560e-04 *** 9.105032e-01 NS 4.287924e-01 NS 4.522924e-05 *** 4.622353e-02 * 1.367512e-01 NS 7.616820e-01 NS 4.199642e-01 NS 3.587180e-02 * 9.785189e-05 *** Sigificatio des codes :NS : o sigificatif ; * : sigificatif à 5% ; *** : très sigificatif Commetaire 3-1 Le tableau 3-1 ci-dessus met e exergue les facteurs otetiels associés à la siistralité. Le symbole «*» sigifie que la variable est associée à la siistralité ; aisi les aalyses bivariables retieet les variables :
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 40 BG ; DOM ; VOL ; INC ; BRAQ ; MARQUE ; PUISS et DURC comme cadidates à l aalyse multivariables. b) Aalyse multivariables Das le aragrahe récédet ous avos détermié les facteurs décrivat de faço sigificative la siistralité. Cette fois ous allos cosidérer u modèle multivariables afi d étudier l effet cojoit de lusieurs co-variables sur la robabilité d être «haut siistré» ; e essayat d estimer la cotributio our chaque facteur à l exlicatio de celle ci. Nous utiliseros our cela la rocédure de sélectio as à as (imlémetée das le logiciel R) du modèle de régressio logistique. C - Estimatio du modèle a) U modèle obteu as à as O commece ar le modèle qui cotiet toutes les co-variables ; O élimie à chaque étae la co-variable qui a la lus grade -value (robabilité sous l hyothèse ulle de rejeter l hyothèse ulle), jusqu'à ce que les co-variables restates aiet ue -value iférieure à ue limite doée. Ici o la red égale à 0,1 (test au seuil 10 %) O obtiet le remier résultat : Call: glm(formula = SIN ~ BG + DOM + VOL + INC + BRAQ + MARQUE + PUISS + DURC, family = biomial(lik = "logit"), data = doees) Deviace Residuals: Mi 1Q Media 3Q Max -2.0137-0.9068-0.3809 0.9783 2.0801 Coefficiets: Estimate Std. Error z value -value (Itercet) -0.3513 0.5414-0.649 0.516451 BG1-2.2555 1.2616-1.788 0.073806. DOM1-0.2878 0.8588-0.335 0.737504 VOL1-0.9033 0.6041-1.495 0.134818 INC1 0.2998 0.5937 0.505 0.613594 BRAQ1-1.3075 0.5710-2.290 0.022036 * MARQUEautre 1.5832 0.6266 2.527 0.011509 * MARQUEfrace -0.3248 0.5679-0.572 0.567361 MARQUEjao 0.5087 0.4526 1.124 0.260999 PUISS2 0.3307 0.4011 0.825 0.409597 PUISS3-0.9680 0.4293-2.255 0.024130 * DURCt 1.2580 0.3784 3.324 0.000886 *** O surime das u remier tems la variable DOM qui a la lus grade -value et o rered le rocédé. O obtiet alors le modèle comreat les variables : BG ; VOL ; BRAQ ; MARQUE ; PUISS et DURC Ue aalyse de coliéarité etre ces variables est doée ar le tableau ci-dessous :
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 41 Tableau 3-2 : Aalyse de coliéarité ar le test du Chi deux variables -value VOL BRAQ 1.835e-13 *** BRAQ BG 7.684e-05 *** BG VOL 0.003548 *** DURC BRAQ 0.05408 : sigificatif à 10% *** : très sigificatif Remarque 3-1 O remarque à l aide du tableau ci-dessus que les variables décrivat les garaties vol, bris de glace et braquage sot très corrélées deux à deux. Il serait doc redodat de les cosidérer toutes das u même modèle, car ue corrélatio etre deux variables sigifie que les deux variables aortet resque la même iformatio. Aisi our chaque aire, le choix de la variable à reteir se fera e foctio du degré de liaiso avec la siistralité. De ce fait ous reteos das u remier tems la variable BRAQ comme rerésetative des garaties souscrites. Ceedat o costate que celle-ci est corrélée à la variable idiquat le tye de cotrat souscrit (DURC). Das la suite ous reteos la variable DURC our sa ertiece. O retiet doc au fial le modèle 1 : Call: glm(formula = SIN ~ PUISS + DURC, family = biomial(lik = "logit"), data = doees) Deviace Residuals: Mi 1Q Media 3Q Max -1.6142-0.9032-0.6947 1.1578 1.7550 Coefficiets: Estimate Std. Error z value Pr(> z ) (Itercet) -0.6858 0.2458-2.790 0.00526 ** PUISS2 0.3266 0.3366 0.970 0.33191 PUISS3-0.6128 0.3632-1.687 0.09156. DURCt 1.3449 0.3393 3.964 7.36e-05 *** Null deviace: 306.90 o 228 degrees of freedom Residual deviace: 283.58 o 225 degrees of freedom AIC: 291.58 Le modèle 1 ci-dessus est admissible car les variables sot toutes sigificatives au seuil idiqué (10%). Ceedat il est imortat our ous d isecter so grahique de diagostic.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 42 Grahique 3-1 : Quelques grahes de diagostic du modèle 1 Residuals -2 0 2 Residuals vs Fitted 10 43-1.0 0.0 1.0 Std. deviace resid. -1.5 0.0 1.5 Normal Q-Q lot 10 43 3-3 -1 1 2 3 Predicted values Theoretical Quatiles Std. deviace resid. 0.0 0.6 1.2 Scale-Locatio lot 10 43-1.0 0.0 1.0 Cook's distace 0.000 0.015 Cook's distace lot 18 20 166 0 50 150 Predicted values Obs. umber Remarque 3-2 Le grahe des coefficiets de Cook [5] motre que certaies observatios ot des coefficiets de Cook très imortat, otammet les observatios 18, 20 et 166 qui ourraiet être des outliers (valeurs aberrates). Il coviet d ailleurs de raeler que le grahe des distaces de Cook (Cook s distace lot) mesure our u idividu l écart etre la valeur observée et celle rédite ar le modèle. Ue distace tro grade sigifie doc que l ajustemet est as correct e ce oit. Essayos maiteat de surimer les eregistremets 18, 20 et 166 de otre base de doées. Pour le faire ous utiliseros ue rocédure R d extractio automatique de doées. Arès cette suressio, le grahique des distaces de Cook motre à ouveau trois outliers : les eregistremets 17, 18, et 163. Aisi ous surimos au total six eregistremets de la base de doées iitiale. Notre base de doées comorte désormais 223 eregistremets. Le modèle ajusté à cette ouvelle base est doé ci-dessous ; aelos le «modèle 2». glm(formula = SIN ~ PUISS + DURC, family = biomial(lik = "logit"), data = doees) Coefficiets: Estimate Std.Error z value Pr(> z ) (Itercet) -0.6707 0.2497-2.686 0.00722 ** PUISS2 0.3383 0.3432 0.986 0.32433 PUISS3-0.6362 0.3671-1.733 0.08313. DURCt 1.3703 0.3472 3.947 7.93e-05 *** (Disersio arameter for biomial family take to be 1) Null deviace: 299.16 o 222 degrees of freedom Residual deviace: 275.64 o 219 degrees of freedom AIC: 283.64
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 43 Remarque 3-3 O costate que le modèle obteu arès suressio de quelques valeurs aberrates (Modèle 2) s ajuste ettemet mieux aux doées, comaré au modèle 1. O eut le voir e comarat les critères d iformatio d Akaike [2](AIC) associés aux deux modèles ; l ajustemet état d autat lus bo que so AIC est faible. Cet écart cosidérable etre les deux critères d iformatio (291,58 et 283,64) ous ermet de voir l effet éfaste que ourraiet aorter ces valeurs aberrates das otre modélisatio. O s itéressera doc our la suite au modèle 2. b) Iterrétatio des coefficiets du modèle Les coefficiets du modèle s iterrètet bie : Les cotrats temoraires sot corrélés ositivemet avec la siistralité ; c est à dire que les cotrats temoraires sot à risque. De lus le symbole *** ous motre que le degré de sigificativité du test de ullité du coefficiet associé à cette variable est assez élevé ; ce qui sigifierait que la quasi totalité des cotrats temoraires sot à haut risque. Les véhicules de uissaces fiscales suérieures à 15 chevaux (essece) et 11 chevaux (diesel) sot corrélés égativemet avec la siistralité. Ceci sigifie que les véhicules de areilles uissaces fiscales sot les mois à risque, car le sige - sigifie que cette caractéristique dimiue la robabilité d être «haut siistré». Nous reviedros sur l exressio exlicite de cette robabilité. Les aalyses effectuées jusqu ici ous ot ermis d adoter le modèle 2 comme modèle fial.. Il s iterrète comme suit : La robabilité d être «haut siistré» coaissat la uissace fiscale du véhicule et le tye de cotrat souscrit (temoraire ou auel) eut être estimée ar : e Pr( SIN 1/ PUISS, DURC) ; 1 e Avec : 0.6707 (0.6362)1 PUISS (1.3703) 1DURC 1 PUISS = 1 si le véhicule a ue uissace fiscale suérieure à 15 chevaux (our essece) ou 11 chevaux (our diesel) ; 0 sio 1 DURC = 1 si le cotrat est temoraire (as auel) ; 0 sio D - Validatio du modèle Maiteat que ous avos reteu u modèle, il reste à le valider ; c est à dire à mesurer so ajustemet à otre base de doées et sa caacité de rédictio our les ouveaux cliets. U idicateur d ajustemet d u modèle de régressio logistique est basé sur sa déviace résiduelle : our u modèle bie ajusté, la déviace résiduelle divisé ar so degré de liberté doit être aroximativemet égal à 1 [7]. Pour le modèle reteu la déviace résiduelle vaut 275.64 corresodat à 219 degrés de liberté ; ce qui doe u raort égal à 1,25 Il existe e ratique lusieurs méthodes de validatio de modèle, armi lesquelles la validatio croisée qui est vivemet recommadée. Cette méthode de validatio cosiste à faire ue
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 44 réartitio aléatoire des observatios e deux arties et à aliquer à ue artie des observatios le modèle costruit sur l autre artie des observatios. Das le cas réset, comte teu du volume réduit de otre base de doées, ous e ourros as utiliser la méthode de validatio croisée ; mais lutôt la méthode cosistat à tester le modèle sur les doées qui ot servi our so estimatio. Nous y reviedros das le rochai aragrahe. a) Evaluatio du ouvoir rédictif du modèle Nous avos jusque là vu que la régressio logistique ermet d estimer la robabilité d être «haut siistré» (SIN=1) quad o coaît la uissace fiscale du véhicule et le tye de cotrat souscrit. Sur la base de ces robabilités, o eut défiir ue règle de classificatio de la maière suivate : Si la robabilité est suérieure à u seuil S0 fixé, o classe le cliet comme «haut siistré» (SIN=1) Si au cotraire la robabilité est iférieure ou égale à S0, le cliet est as classé comme «haut siistré» (SIN=0) Bie que le seuil S0 = 0.5 araisse à riori ue valeur raisoable, il est as du tout évidet que ce soit exact. Pour chaque valeur de S0 o eut calculer la sesibilité et la sécificité du modèle. La sesibilité est défiie comme la robabilité de classer l idividu das la catégorie SIN = 1 état doé qu il est effectivemet observé das celle-ci : Sesibilité = Pr(«haut siistré» SIN = 1) La sécificité quat à elle est la robabilité de classer l idividu das la catégorie SIN = 0 état doé qu il est effectivemet observé das celle-ci : Sécificité = Pr(«o haut siistré» SIN = 0) La qualité de la méthode de classificatio est gééralemet mesurée ar ces deux idicateurs (sesibilité et sécificité) au moye de la courbe ROC (Receiver Oeratig Characteristic curve) qui est la courbe rerésetative de la sesibilité e foctio de (1- sécificité). Aisi, l aire au dessous de la courbe ROC ous ermet de mesurer globalemet la caacité du modèle à affecter correctemet les sujets à leurs classes resectives. Le grahique 3-2 ci-dessous doe la courbe ROC corresodate au modèle reteu (modèle 2).
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 45 Grahique 3-2 : Courbe ROC Ce grahique rerésete ue aire au dessous de la courbe ROC C 0 = 0.672 Raelos que ce coefficiet C 0 rerésetat l aire au dessous de la courbe ROC our otre modèle est as loi du critère 0.7 C 0.8 corresodat à ue discrimiatio accetable [8]. L aire au dessous de la courbe ROC ous motre que la discrimiatio est as très boe ; ceci ouvat s exliquer ar l existece d u groue imortat d idividus ayat des statuts différets, («hauts siistrés» ou o) mais de rofils semblables. Pour remédier à ue areille situatio, il est recommadé d utiliser ue base de doées de volume imortat (de l ordre des milliers d eregistremets) b) Choix de la robabilité seuil (S 0 ) Avat de choisir le seuil de robabilité S 0 à adoter our les ouveaux cliets de la comagie, le grahique 3-3 ci-dessous ous doe l histogramme des différetes robabilités estimées ar le modèle. Grahique 3-3 : Histogramme des Probabilités estimées Fréqueces 0 20 40 60 80 100 120 0.2 0.3 0.4 0.5 0.6 0.7 Probabilités estimées
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 46 Cet histogramme (grahique3-3) motre qu e reat le seuil S0 = 0.5, ue roortio très faible de siistrés de otre base de doées se retrouverait das la classe des «hauts siistrés». Le modèle rédira exactemet 50 «hauts siistrés» au lieu de 88 que comorte la base de doées. D où la écessité du choix d u seuil S0 u eu lus ermissif. Le choix du seuil de robabilité S0 e se fait as de faço arbitraire. Pour cela, costruisos le test d hyothèses statistiques : (H 0 ) : Le cliet est as «haut siistré» cotre (H 1 ) : Le cliet est «haut siistré» Fixos comme risque de remière esèce du test α 0,1 ; c est à dire la robabilité our le modèle de rédire à tord les «o hauts siistrés» vaut Das cette étude ous modélisos la robabilité d être haut siistré. De ce fait, ous ouvos redre comme statistique de test les robabilités estimées ar le modèle. Soit Z cette statistique de test ; et z ue réalisatio de la variable aléatoire Z. Notre test d hyothèses (H0) cotre (H1) se formule comme suit : - Si z S, o accete (H 0 ) - Si z S, o rejette (H 0 ) Avec S choisi de sorte que la robabilité our le modèle de mal rédire le cliet «o haut siistré» soit égale à ; C est à dire PrH 0 ( Z S ) D où ( ) 1 F 0 Z S 0 F Z état la foctio de réartitio de la loi de Z sous l hyothèse (H0) S est doc le (1-)-quatile de la loi de Z das la sous-oulatio des «o hauts siistrés» Ne coaissat as à riori la loi de Z ous devos estimer S de maière emirique. Pour ce faire, laços ous das la sous-oulatio des «o hauts siistrés» et examios les différetes robabilités estimées ar le modèle. Aisi ous obteos le tableau ci-dessous : Tableau 3-3 : Fréqueces des Probabilités estimées ar le modèle sous (H 0 ) Probabilités estimées Fréqueces Fréqueces cumulées sous (H 0 ) e % e % 0.213 31.1 31.1 0.338 55.6 86.7 0.515 7.4 94.1 0.668 5.9 100 De ce tableau ous ouvos lire l aroximatio : F 0 Z (0.338) 0. 867 ; ce qui ous ermet d avoir les estimatios : 1 ˆ 0. 867 et S ˆ 0. 338
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 47 - Puissace du test (()) Pour u risque de remière esèce fixé, o défiit la uissace du test associé ar : 1 ; état la robabilité our le modèle de faire ue mauvaise rédictio our le cliet «haut siistré» ; c est à dire PrH 1 ( Z S ). est ecore aelé risque de deuxième esèce. De ce fait ous ouvos défiir la uissace du test comme état la robabilité our le modèle de bie rédire les «hauts siistrés». Le calcul de cette uissace our la valeur de obteue ci-dessus ( 0. 133 ) ous emmèe à cosidérer la sous-oulatio des «hauts siistrés» de otre base de doées. Le tableau 3-4 doe u résumé des robabilités estimées das cette sous-oulatio. Tableau 3-4 : Fréqueces des Probabilités estimées ar le modèle sous (H 1 ) Probabilités estimées Fréqueces Fréqueces cumulées sous (H 1 ) e % e % 0.213 14.8 14.8 0.338 48.9 63.7 0.515 9 72.7 0.668 27.3 100 Remarque 3-4 Ce tableau ous ermet d obteir l aroximatio : ˆ 63.7 % ; c est à dire ˆ 36.3% Raelos que cette uissace de test est as vraimet satisfaisate ; ceci ouvat s exliquer ar le fait qu ue roortio cosidérable de «hauts siistrés» (48.9 %) se retrouve au seuil de robabilité S 13,3% 0. 338. D où la écessité de créatio d ue zoe d idifférece corresodate à la robabilité seuil. - Règle de décisio Tout ce qui a été fait jusque là est das le but de ouvoir dire our u ouveau cliet de la comagie, s il est à riori à «haut risque» ou as. Aisi ous ouvos défiir la règle de classificatio de la maière suivate : Si z 0. 338 ; o a de boes raisos de eser que le cliet e soit as à «haut risque» ; Si z 0. 338 ; o a de boes raisos de eser que le cliet soit à «haut risque» ; z état ue réalisatio de la variable aléatoire Z rerésetat les robabilités estimées ar le modèle. c) Erreur de rédictio La règle de décisio élaborée ci-dessus ermet de détecter 36.3 % de «hauts siistrés» et 86.7 % de «o hauts siistrés». L erreur de rédictio associée à cette règle est la robabilité de faire ue mauvaise affectatio. Soit cette erreur de rédictio ; o obtiet : = Pr («haut siistré», la règle décide le cotraire) + Pr («No haut siistré», la règle décide le cotraire)
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 48 = Pr( SIN 1, Z 0.338) Pr( SIN 0, Z 0.338) = Pr( Z 0.338/ SIN 1) Pr( SIN 1) Pr( Z 0.338/ SIN 0) Pr( SIN 0) = PrH ( Z 0.338) Pr( SIN 1) Pr ( Z 0.338) Pr( SIN 0) 1 H0 O eut faire les estimatios (à artir de otre base de doées) : 88 135 Pr( SIN 1) 0.394 ; Pr( SIN 0) 0. 605 ; Pr ( 0.338) 63.7 % 223 223 1 Z PrH 0 ( Z 0.338) 13.3% Aisi ous obteos : 33% H ; Remarque 3-5 Raelos qu ue démarche lus raisoable de calcul d erreur de rédictio cosiste à utiliser les doées ayat as servi à l estimatio du modèle [11]. Mais comte teu du volume réduit de la base de doées, ous l avos calculé à artir des doées d aretissage. Le fait d avoir ue roortio cosidérable (48.9 %) de cliets à haut risque corresodat au seuil de robabilité S0 et déclarés «o hauts siistrés» ar la règle de décisio ous amèe à cosidérer ue classe «tamo» ; dite d idécisio. Cette classe corresod aux cliets ayat des cotrats auels et dot les véhicules sot de uissaces fiscales iférieures à 15 chevaux (Essece) ou 11 chevaux (Diesel). Raelos que l adotio de areils cliets das la classe défiie ar le modèle est ue oératio dagereuse ; au risque d ue évetuelle tombée e faillite de la comagie. Afi de trouver u critère objectif d affectatio de cliets aarteat à cette classe, ous devos mettre les cliets qui la costituet e observatio edat u certai tems, et faire ue aalyse de doées cesurées e utilisat ar exemle le modèle de régressio de Cox [9] et comarer les estimateurs de Kala-Meir [9]. Avat que cela e soit fait, ous roosos ue règle de décisio fiale. d) règle de décisio fiale Si z 0. 338 ; o a de boes raisos de eser que le cliet e soit as à «haut risque» ; Si z 0. 338 ; o a de boes raisos de eser que le cliet soit à «haut risque» ; Si z 0. 338 ; o est das la classe d idécisio Ceci ous ermet d obteir à l aide du logiciel R u rogramme de classificatio automatique reat e etrée la uissace fiscale du véhicule et le tye de cotrat. e) Programme R de Classificatio Automatique Score =fuctio(puiss,durc){ uissace3 = ifelse(puiss==3,1,0) temoraire = ifelse(durc=="t",1,0) theta = -0.6707-0.6362*uissace3+1.3703*temoraire score = ex(theta)/(1+ex(theta)) if (score < 0.338) { aste(«le cliet est as à haut risque») } else{ if (score > 0.338) { aste(«le cliet est à haut risque»)} else{ aste(«le cliet est das la zoe d idécisio»)} } }
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 49 II - Coclusio Ce chaitre ous a ermis das u remier tems de détermier u groue de variables ouvat exliquer de maière sigificative (au seuil 10 %) la siistralité. L aalyse simultaée de ce groue de variables ar le modèle logistique ressort les lus ertietes et lus discrimiates ouvat reréseter valablemet le groue : la durée du cotrat et la uissace fiscale du véhicule. Arès exame des résultats de l aalyse, o eut oter que : Les cotrats temoraires rerésetet u «gros risque» our la comagie ; Les véhicules de uissace fiscale iférieure à 15 chevaux (our essece) ou 11 chevaux (our diesel) sot les lus resosables de «gros siistres» ; Le ays d origie du véhicule est associé à la siistralité; les véhicules d origies «autres» état les lus exosés au risque. D autre art, ous avos costruit u test statistique our la détermiatio du seuil de robabilité à artir duquel la discrimiatio sera faite. Ceedat raelos que ce seuil de robabilité corresod à ue classe de cliets dite «d idécisio», c est à dire our laquelle l affectatio est ambiguë. Pour remédier à cela ous roosos ue mise e observatio de areils cliets edat u certai tems, our ue aalyse de doées cesurées qui coduira à des critères lus objectifs d affectatio des idividus das l ue des deux classes. Avat que cela e soit fait, u rogramme R de classificatio automatique a été roosé.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 50 Coclusio Géérale L objectif de otre étude était de détermier le rofil des cliets à «haut risque» du ortefeuille automobile de la comagie d assurace CHANAS ASSURANCES S.A, atee de Yaoudé. Cette otio de «haut risque» a été défiie au début de l étude. Pour meer à bie otre étude, ous avos d abord exloré la base de doées qui ous a été cofiée ar la comagie, uis ous avos costruit u modèle s ajustat aux doées observées et ermettat d affecter sas grad risque de se tromer les ouveaux cliets de la comagie das l ue des classes. Les aalyses bivariables ar le test d idéedace du Chi deux motret que : Le tye de cotrat souscrit (temoraire ou auel), la uissace fiscale du véhicule et le ays d origie du véhicule sot les facteurs ertiets sigificativemet liés à la siistralité. De l aalyse des corresodaces multiles (ACM) il ressort das u remier tems que les véhicules de uissaces fiscales comrises etre 11 et 14 chevaux (Essece) ou etre 8 et 10 chevaux (Diesel) sot les lus à risque ; suivis de ceux de uissace fiscale iférieure ou égale à 10 chevaux (Essece) ou à 7 chevaux (Diesel). De même, l ACM motre que les véhicules de ays d origies «autres» (i Frace, i Jao, i Allemage) sot les lus resosables de «gros siistres». Esuite vieet les véhicules d origie Allemade, uis ceux d origie Jaoaise. Les véhicules d origie Fraçaise état les mois à risque. L aalyse multivariable ar le modèle de régressio logistique ous a ermis d ue art de séarer les coliéarités existates du fait de l ifluece de certais facteurs sur les autres ; ceci e roosat deux rédicteurs ertiets qui ourraiet reréseter valablemet tous les autres. Il s agit e fait du tye de cotrat souscrit (temoraire ou auel) et de la uissace fiscale du véhicule. O ote ici que les cotrats temoraires augmetet cosidérablemet la siistralité. D autre art, ar le biais du modèle logistique, ous avos costruit u rogramme R ermettat à l assureur d affecter le ouveau cliet das l ue des classes («hauts siistrés» ou «o hauts siistrés») sas grad risque de se tromer. Ceedat ue zoe d idécisio a été costruite Toutefois, os résultats e ourrot as servir de maière absolu comme outil de référece our le décideur, comte teu de la taille réduite de otre échatillo d étude ; ce qui ous a d ailleurs mis e désaccord avec l alicatio de la méthode de validatio croisée du modèle..
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 51 Persectives et Recommadatios La hase la lus difficile de otre stage a été la collecte des doées qui s est faite essetiellemet sur suort hysique. A cet effet il serait souhaitable our la comagie d améliorer so système d iformatio e mettat sur ied u système comlet d archivage des doées umériques. Pour cela, l adotio d u système de gestio de base de doées (SGBD) u eu lus sohistiqué serait référable, car il ermettrait d avoir ue base de doées beaucou lus exloitable. Ue des restrictios de cette étude est due au fait que certaies variables ermettat de mieux reseiger la siistralité ot as été rises e comte [6]. Nous ouvos etre autres citer l âge du véhicule, celui du coducteur habituel du véhicule, so statut matrimoial, sa atioalité et our le service des siistres, l âge du coducteur au momet du siistre. Le service roductio de la comagie devrait doc mettre à rofit les fiches de souscritio de cotrat ; e veillat à ce que toutes ces iformatios soiet eregistrées edat la souscritio. Das cette étude ous avios comme oulatio statistique quelques siistrés du ortefeuille automobile de la comagie. L aalyse multivariables ar le modèle de régressio logistique ous a ermis de faire des révisios our des cliets suscetibles d être à «haut risque» ou o. La questio que l o ourrait se oser est celle de savoir si our u ouveau cliet il est ormal de le qualifier de cliet à «haut risque» e sachat as s il verra la surveace d u siistre avat la fi de so cotrat? Pour redre l étude lus itéressate, il serait souhaitable our la comagie de faire ue étude rélimiaire cosistat à modéliser la robabilité de surveace d u siistre e foctio des caractéristiques du cliet. Ceci ermettra à l assureur de savoir a riori les chaces de surveace de siistre our le ouveau cliet de la comagie. Arès cette étude rélimiaire, la comagie devrait etreredre ue étude semblable à celle que ous veos de meer, cette fois avec u volume d iformatio lus cosistat (de l ordre des milliers) ; afi de mieux exlorer sa base de doées et d y extraire des iformatios ermettat de faire ue tarificatio coséquete du risque, et surtout d assurer la stabilité des rovisios mathématiques. Par ailleurs les archives du service roductio de la comagie fot état d u ombre assez élevé de cotrats résiliés. A cet effet ue étude statistique serait écessaire afi de déceler les riciaux facteurs qui ourraiet être à l origie de ces résiliatios ; ceci das le but de remédier à cette situatio ar l utilisatio des techiques coséquetes de marketig. E défiitive, comme suggestio ar raort aux résultats de otre aalyse, la comagie devrait adoter ue olitique de gestio tedat à réduire au maximum les cotrats temoraires. E ce qui cocere les cliets à «haut risque», ue re-tarificatio s avère écessaire ; celle ci reat e comte les différets résultats de l aalyse.
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 52 ANNEXES I- Priciaux Programmes R utilisés # -----------lecture des doées---------------------------------------------------------------------# doees=read.table("chaas.sa.txt",header=true) #-----------foctio qui trasforme les variables e facteur-------------------------------------# factor=fuctio(d) { for (j i 1:15){ d[,j]=as.factor(d[,j]) } d } #-------- Aalyses Bivariables ar le test d idéedace du Chi-deux-----------------------# chideux=fuctio(d){ =vector() for(j i 2:15){ [j-1]=(chisq.test(d[,j],sin))[[3]] } } #----------------------Modèle reteu------------------------------------------------------------------# doees=read.table("chaas.sa.txt",header=true) doees=factor(doees) attach(doees) modele=glm(formula=sin~durc+puiss,family=biomial(lik="logit"),data=doees) summary(modele) #---------------------------- Aire au dessous de la courbe ROC et Courbe ROC -------------# library(desig) mod=lrm(formula=sin~durc+puiss,x=t,y=t,data=doees) mod Logistic Regressio Model Obs Max Deriv Model L.R. d.f. P C Dxy 223 5e-12 23.52 3 0 0.672 0.344 library(rocr) =redict(modele) re=redictio(,sin) erf1 <- erformace(re, "tr", "fr") lot(erf1,col='blue') lot(erf1,col='blue',xlab='1-sécificité',ylab='sesibilité') lies(c(0,1),c(0,1),col='red') #---------------------Histogramme des robabilités estimées ar le modèle---------------------#
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 53 Proba_est=fuctio(x,y){ roba.est=vector() for(i i 1:223){ a=-0.6707-0.6362*as.umeric(x[i])+1.3703*as.umeric(y[i]) roba.est[i]=ex(a)/(1+ex(a)) } roba.est } Proba_est(ifelse(PUISS==3,1,0),ifelse(DURC=="t",1,0)) hist(proba_est(ifelse(puiss==3,1,0),ifelse(durc=="t",1,0)),col="blue",mai="histogramme Probabilités estimées",xlab="probabilités estimées",ylab="fréqueces") des II- Listigs des résultats d ACM avec le logiciel Sad versio 4.01 COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES MODALITES ACTIVES AXES 1 A 5 +------------------------------------------+-------------------------------+--------------------------+------------------------ --+ MODALITES COORDONNEES CONTRIBUTIONS COSINUS CARRES ------------------------------------------+-------------------------------+--------------------------+------------------------ -- LIBELLE P.REL DISTO 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 +------------------------------------------+-------------------------------+--------------------------+------------------------ --+ 1. SIN - 0 8.67 0.65-0.05 0.31-0.47-0.10-0.05 0.1 3.1 9.4 0.4 0.2 0.00 0.15 0.33 0.01 0.00-1 5.61 1.54 0.07-0.48 0.72 0.15 0.08 0.1 4.7 14.5 0.6 0.2 0.00 0.15 0.33 0.01 0.00 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 0.1 7.8 23.9 1.1 0.4 +--------------- 10. MARQUE all 2.31 5.19 0.51 0.03 0.40-1.52 0.84 1.7 0.0 1.8 28.3 10.5 0.05 0.00 0.03 0.45 0.14 autre 1.62 7.81 0.92 0.03 0.80 1.29 0.56 3.9 0.0 5.2 14.1 3.3 0.11 0.00 0.08 0.21 0.04 frace 2.62 4.45-0.41 0.76-0.53 0.57 0.68 1.3 5.6 3.7 4.5 7.8 0.04 0.13 0.06 0.07 0.10 jao 7.74 0.85-0.20-0.27-0.11-0.01-0.60 0.9 2.1 0.4 0.0 17.9 0.05 0.09 0.01 0.00 0.42 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 7.7 7.7 11.1 46.9 39.5 +--------------- 11. GENRE 1 10.23 0.40-0.51 0.21 0.20-0.10-0.03 7.6 1.7 2.2 0.6 0.1 0.66 0.11 0.11 0.03 0.00 2 1.93 6.39 0.46-2.02-0.87 0.47 0.02 1.1 29.2 7.4 2.3 0.0 0.03 0.64 0.12 0.03 0.00 3 2.12 5.74 2.06 0.82-0.19 0.07 0.12 25.3 5.3 0.4 0.1 0.2 0.74 0.12 0.01 0.00 0.00 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 34.0 36.2 9.9 2.9 0.3 +---------------- 12. USAGE 1 9.73 0.47-0.53 0.27 0.21-0.14-0.01 7.8 2.7 2.1 1.1 0.0 0.61 0.16 0.09 0.04 0.00 2 2.81 4.09 0.93-1.01-1.05-0.12 0.33 6.9 10.7 15.5 0.2 2.0 0.21 0.25 0.27 0.00 0.03 3 1.00 13.31 2.37 1.46 0.58 0.57-0.19 15.8 7.8 1.7 1.7 0.2 0.42 0.16 0.03 0.02 0.00 4 0.75 18.08 0.28-1.69 0.45 1.55-0.85 0.2 7.9 0.8 9.5 3.5 0.00 0.16 0.01 0.13 0.04 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 30.6 29.1 20.0 12.5 5.7 +---------------- 13. COEFB 0 7.67 0.86 0.36-0.20 0.13-0.10-0.07 2.8 1.1 0.7 0.4 0.2 0.15 0.05 0.02 0.01 0.01 1 2.12 5.74-0.25 0.35-0.27-0.59-1.40 0.4 1.0 0.8 3.8 26.9 0.01 0.02 0.01 0.06 0.34 2 4.49 2.18-0.49 0.17-0.10 0.44 0.78 3.0 0.5 0.2 4.7 17.7 0.11 0.01 0.00 0.09 0.28 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 6.2 2.6 1.6 8.9 44.9 +---------------- 14. PUISS 1 4.93 1.90-0.70 0.19-0.12 0.76-0.08 6.8 0.6 0.4 14.9 0.2 0.26 0.02 0.01 0.30 0.00 2 4.80 1.97-0.22-0.71 0.20-0.69 0.39 0.7 8.9 1.0 12.1 4.8 0.03 0.25 0.02 0.24 0.08 3 4.55 2.14 1.00 0.54-0.08-0.09-0.33 12.7 4.9 0.2 0.2 3.2 0.46 0.14 0.00 0.00 0.05 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 20.2 14.5 1.5 27.3 8.3 +---------------- 15. DURC a 11.04 0.29-0.09 0.11-0.36-0.04 0.06 0.3 0.5 7.2 0.1 0.2 0.03 0.04 0.45 0.01 0.01 t 3.24 3.40 0.31-0.37 1.23 0.14-0.19 0.9 1.6 24.6 0.4 0.8 0.03 0.04 0.45 0.01 0.01 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 1.2 2.1 31.9 0.5 1.0 +---------------- AXES 6 A 10 +------------------------------------------+-------------------------------+--------------------------+---------------- MODALITES COORDONNEES CONTRIBUTIONS COSINUS CARRES ------------------------------------------+-------------------------------+--------------------------+----------------- LIBELLE P.REL DISTO 6 7 8 9 10 6 7 8 9 10 6 7 8 9 10 +------------------------------------------+-------------------------------+--------------------------+----------------- 1. SIN 0 8.67 0.65-0.16 0.30 0.17 0.21-0.13 1.6 5.7 2.0 3.4 1.4 0.04 0.13 0.05 0.07 0.02 1 5.61 1.54 0.25-0.46-0.27-0.32 0.19 2.5 8.8 3.1 5.2 2.1 0.04 0.13 0.05 0.07 0.02 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 4.2 14.6 5.1 8.6 3.4 +----------------+ 10. MARQUE all 2.31 5.19-0.56 0.15 0.26 0.03-0.65 5.1 0.4 1.2 0.0 9.6 0.06 0.00 0.01 0.00 0.08 autre 1.62 7.81 0.51 0.09 1.35-1.20-0.36 3.0 0.1 23.2 21.5 2.1 0.03 0.00 0.23 0.19 0.02 frace 2.62 4.45-1.01-0.77-0.71-0.01 0.02 19.0 11.8 10.5 0.0 0.0 0.23 0.13 0.11 0.00 0.00 jao 7.74 0.85 0.40 0.20-0.12 0.25 0.26 8.9 2.3 0.8 4.3 5.3 0.19 0.05 0.02 0.07 0.08 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 35.9 14.6 35.7 25.8 17.0 +---------------- 11. GENRE 1 10.23 0.40 0.05 0.11 0.02-0.06-0.01 0.1 0.9 0.0 0.3 0.0 0.01 0.03 0.00 0.01 0.00 2 1.93 6.39-0.15-0.36 0.06 0.21 0.08 0.3 1.9 0.1 0.8 0.1 0.00 0.02 0.00 0.01 0.00 3 2.12 5.74-0.08-0.17-0.14 0.11-0.02 0.1 0.5 0.3 0.2 0.0 0.00 0.01 0.00 0.00 0.00
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 54 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 0.6 3.3 0.4 1.3 0.1 +---------------- 12. USAGE 1 9.73 0.47 0.08 0.06 0.01-0.06-0.02 0.5 0.3 0.0 0.4 0.0 0.02 0.01 0.00 0.01 0.00 2 2.81 4.09 0.55-0.34-0.26-0.04-0.54 5.9 2.5 1.5 0.0 8.0 0.07 0.03 0.02 0.00 0.07 3 1.00 13.31-0.34-0.52-0.31 0.46 1.58 0.8 2.1 0.8 1.9 24.9 0.01 0.02 0.01 0.02 0.19 4 0.75 18.08-2.68 1.14 1.29 0.35 0.13 38.3 7.4 9.7 0.8 0.1 0.40 0.07 0.09 0.01 0.00 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 45.6 12.3 11.9 3.2 33.1 +---------------- 13. COEFB 0 7.67 0.86-0.15 0.48-0.52-0.33 0.00 1.3 13.5 16.0 7.8 0.0 0.03 0.27 0.31 0.13 0.00 1 2.12 5.74-0.36-1.50 0.77-0.31-0.31 2.0 35.9 9.8 1.9 2.1 0.02 0.39 0.10 0.02 0.02 2 4.49 2.18 0.43-0.12 0.52 0.72 0.16 6.0 0.5 9.4 21.2 1.1 0.09 0.01 0.12 0.24 0.01 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 9.2 49.9 35.2 30.9 3.1 +---------------- 14. PUISS 1 4.93 1.90-0.03-0.03-0.39-0.14-0.42 0.0 0.0 5.8 0.9 8.8 0.00 0.00 0.08 0.01 0.09 2 4.80 1.97-0.24-0.19 0.20-0.01 0.58 1.9 1.3 1.5 0.0 16.0 0.03 0.02 0.02 0.00 0.17 3 4.55 2.14 0.28 0.23 0.21 0.16-0.15 2.5 1.8 1.6 1.0 1.0 0.04 0.02 0.02 0.01 0.01 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 4.5 3.1 8.9 1.9 25.8 +---------------- 15. DURC a 11.04 0.29 0.02 0.08 0.09-0.25 0.19 0.0 0.5 0.6 6.4 4.0 0.00 0.02 0.02 0.22 0.12 t 3.24 3.40-0.05-0.27-0.29 0.86-0.65 0.1 1.7 2.1 21.9 13.5 0.00 0.02 0.02 0.22 0.12 +------------------------------------------+--------- CONTRIBUTION CUMULEE = 0.1 2.2 2.8 28.3 17.4 +----------------
Aalyse Statistique du rofil des cliets à haut risque du ortefeuille automobile d ue comagie d assurace 55 BIBLIOGRAPHIE [1] A. Morieau, L. Lebart, M. Piro ; Statistique exloratoire multidimesioelle, DUNOD 1995 [2] Xavier GUYON et Michel NDOUMBE NKENG, Cours de Modèle Liéaire et Extesios, Master de Statistique 2005 ; Uiversité de Yaoudé I (Camerou) [3] GILBERT Saorta, Probabilités, Aalyse des doées et Statistique 1990, Editio Techi 27 rue GINOUX 75737 Paris cedex 15 [4] Xavier BRY, itroductio à l aalyse factorielle des corresodaces(simles et multiles) ; otes de cours ENSEA Abidja (cote d ivoire) [5] C. HUBER, Cours de modélisatio Biostatistique e S-lus, Uiversité Paris 5, Reé Descartes UFR Biomédicale [6] M. HALLING et J-F INGENBLEEK (1978) Etude statistique des facteurs iflueçat le Risque automobile, la robabilité de siistre Discussio aer o 5 Istitut de Statistique de l Uiversité Libre de Bruxelles [7] PAUL-MARIE Berard, Cours Régressio Logistique, Uiversité LAVAL Québec, CANADA [8] Patrick. TAFFE, cours de régressio logistique aliquée, IUMSP Lausae, Août 2004 [9] J.L. GOLMARD, cours d aalyse de doées cesurées, Master de Statistique 2005 Uiversité de Yaoudé (Camerou) [10] Didier D.-CASTELLE, Marie DUFLO, Probabilités et Statistiques, tome1 : roblèmes à tems fixe, MASSON, Paris, 1982 [11] Jea COURSOL, Aalyse de doées et Datamiig ; otes de cours, Master de statistique 2005, Uiversité de Yaoudé (Camerou)