TECHNIQUES DE SCORING

Dimension: px
Commencer à balayer dès la page:

Download "TECHNIQUES DE SCORING"

Transcription

1 TECHNIQUES DE SCORING Projet Tutoré 2 ième année IUP-IES 2007/2008 Baha-Eddine Aouni Carminda Cid Mael Jauniaux

2 Table des Matières 1 INTRODUCTION 4 2 AVANT L ESTIMATION NETTOYAGE ET DATA SPLITTING TRAITEMENT DES VALEURS MANQUANTES TRAITEMENT DES VALEURS ABERRANTES DATA SPLITTING STATISTIQUES UNIVARIEES PRESELECTION DES VARIABLES ET ETUDES DES LIAISONS VARIABLES QUANTITATIVES VS. VARIABLES QUANTITATIVES VARIABLES QUALITATIVES VS. VARIABLES QUANTITATIVES VARIABLES QUALITATIVES VS. VARIABLES QUALITATIVES TRANSFORMATION DES VARIABLES DISCRETISATION DES VARIABLES QUANTITATIVES REGROUPEMENT DES VARIABLES QUALITATIVES 14 3 ESTIMATION DU MODELE PRESENTATION ANALYSE DES RESULTATS 15 4 ANALYSE DES PERFORMANCES COURBES DE DENSITE COURBES DE PERFORMANCE COURBE DE ROC COURBES DE SELECTION COURBES DE PERFORMANCE COURBES DE DISCRIMINATION INDICE DE ROBUSTESSE 20 5 GRILLE DE SCORE ET ECHELLE DE NOTATION LA GRILLE DE SCORE 21 Pages - 2 -

3 5.2 ECHELLE DE NOTATION 22 6 CONCLUSION 23 ANNEXES ET INDEX 24 INDEX DES TABLEAUX 25 ANNEXE 1 : LISTE DES VARIABLES 26 ANNEXE 2 : REFERENCE DES VARIABLES EXPLICATIVES 27 ANNEXE 3 : LES TESTS UTILISES 28 TEST DE CORRELATION DE SPEARMAN 28 TEST DE KRUSKAL-WALLIS 28 TEST DU KHI DEUX 29 TEST DE VUONG 29 ANNEXE 4 : PROGRAMMES SAS 30 Pages - 3 -

4 1 Introduction Les techniques de scoring sont des méthodes dont le but est de sélectionner, classer et discriminer une population donnée. Ces techniques sont utilisées dans divers secteurs allant du marketing à la gestion du risque bancaire. Ce projet a pour but de construire une échelle de notation du niveau de risque et d en contrôler la performance. La base de travail rassemble des données concernant les emprunts immobiliers de particuliers. Nous disposons de données à la fois qualitatives et quantitatives, et d un critère de défaut. Nous cherchons à déterminer la probabilité de ne pas être défaillant, c'est-à-dire celle d une personne ne pouvant pas rembourser son crédit. Notre étude s'effectue en plusieurs étapes. Nous commençons par une étape d'analyse des données. Nous retirons les observations extrêmes et manquantes puis décrivons les variables et leurs liaisons avec le critère de défaut. Une fois ce travail préparatoire effectué, nous construisons notre score et en mesurons les performances. Enfin, nous présentons la grille de score et notre échelle de notation. Pages - 4 -

5 2 Avant l estimation 2.1 Nettoyage et Data Splitting Notre base d étude comporte observations et 15 variables (cf. Annexe 1 : Liste des variables). Cette base, à l état brut, présente de nombreuses valeurs aberrantes ou manquantes. D où la nécessité de la nettoyer Traitement des valeurs manquantes Nous avons comptabilisé le nombre de modalités existantes pour chacune de nos variables quantitatives et qualitatives grâce aux procédures MEANS et FREQ. Si ce nombre se révélait différent de alors la variable contenait des valeurs manquantes, que nous avons éliminées Traitement des valeurs aberrantes Nous entendons par valeurs aberrantes les outliers susceptibles de biaiser notre estimation ainsi que les valeurs n ayant aucun sens. Afin de supprimer ces valeurs nous avons dû établir un certain nombre de règles de décision. L âge du client : La variable age_client présentait des valeurs comprises entre -19 et Nous avons décidé de nous fixer une fourchette entre 18 (âge de la majorité) et 108 (âge maximum raisonnable). De plus, nous avons créé un indicateur qui permet de se rendre compte de l âge de l individu au moment où il a contracté le prêt (indice_age). Nous avons fait en sorte qu il soit supérieur à 18. Revenus du client : Nous avons décidé de garder les revenus compris entre le Revenu Minimum d Insertion annualisé (5.400 ) et un plafond de Pages - 5 -

6 Taux d endettement : La législation impose un taux d endettement inférieur à 33.33% au moment du déblocage du crédit. C est pourquoi nous avons retiré l ensemble des valeurs supérieures à ce seuil. Montant initial : Il est impossible d avoir à rembourser un capital supérieur au montant initial du prêt. C est pourquoi nous avons créé un indicateur, indice_montant, représentant la différence entre ces deux variables. Nous retirons alors de notre base l ensemble des observations pour lesquelles l indicateur est positif. Nous avons jugé qu il est improbable de constituer un apport 19 fois supérieur au montant initial. Cela revient à considérer que le montant de l emprunt doit couvrir au moins 5% de l investissement immobilier. D où la création de la variable indice qui restitue le rapport entre l apport personnel et le montant initial du prêt. Nous supprimons donc tutes les observations pour lesquelles ce rapport sera supérieur à Data Splitting La réalisation d un score nécessite de diviser notre base en deux échantillons : l échantillon apprentissage (nécessaire pour l estimation) et l échantillon test (utilisé pour l analyse des performances). Nous avons effectué un tirage aléatoire simple sans remise. L échantillon apprentissage représente 70% de la base de départ. A l issue de cet échantillonnage nous avons contrôlé que le taux de critère reste constant sur les deux échantillons et la base (soit environ 5%). 2.2 Statistiques Univariées Les statistiques présentées ci-dessous sont issues de l échantillon d apprentissage. Capital restant dû : montant du capital restant à rembourser La variable oscille autour d une moyenne de avec une médiane de En étudiant la courbe de densité, nous remarquons deux modes autour de et Pages - 6 -

7 Age client : âge du client détenant le crédit immobilier Notre échantillon est composé d'individus dont la moyenne d'âge est de 37 ans et la médiane 35 ans. L échantillonnage a réduit notre fourchette d âge. Les valeurs extrêmes sont 19 et 89 ans. Age prêt : durée passée depuis le déblocage du prêt Les individus de notre échantillon ont contracté leur emprunt depuis un an en moyenne. L emprunt le plus ancien a 15 ans. En observant la courbe de densité, nous remarquons que le nombre d emprunts contractés il y a plus de trois ans est faible. Durée prêt : durée totale déterminée à l origine du prêt La durée moyenne d un prêt est de 18 ans, alors que la médiane est de 20 ans. La durée d'un prêt peut atteindre la valeur extrême de 30 ans. La courbe de densité s'organise autour de deux modes (8 ans et 25 ans). Cette variable est fortement volatile : sa variance est de 43,5. Durée restante : durée restant avant la dernière échéance du prêt La durée restante est une fonction linéaire de l âge du prêt et de la durée du prêt. Nous observons que sa moyenne est de 17, sa médiane est de 19. Tout comme durée_prêt, la variable durée_restante est organisée autour de deux modes et présente une forte volatilité. Montant apport : montant apporté par le client pour le financement de son achat immobilier En moyenne les individus de notre échantillon font un apport de , alors que la médiane de cette variable est de Cet apport est nul pour près du quart de notre échantillon; il atteint à l'opposé La majeure partie de notre population fait un apport personnel inférieur à Montant initial : montant du prêt déterminé à l origine du prêt L emprunt moyen s élève à plus de La médiane est de L emprunt minimum s élève à tandis que l emprunt maximum s élève à Nombre de trimestres en incident sur l année d observation : La majeure partie des individus (plus de 90% de notre échantillon) n a pas connu d incident de paiement. Cette part diminue avec le nombre d incidents. Pages - 7 -

8 Revenus : revenus du client Les revenus des clients s élèvent en moyenne à La médiane est de Le revenu minimum correspond au R.M.I., le revenu maximum est de La courbe de densité montre une forte concentration de la variable autour de son mode ( ); très peu de revenus sont supérieurs à Taux d endettement : taux d endettement du client à la date de déblocage du crédit immobilier et en tenant compte de ce dernier Les individus sont endettés en moyenne à hauteur de 24%, ce taux pouvant fluctuer entre 0.1% et 33.33%. Nous remarquons que les individus à fort taux d endettement sont plus représentés dans notre échantillon. Plus de la moitié de notre échantillon a un taux d'endettement supérieur à 26%. PCS : Catégorie Socioprofessionnelle Les catégories les plus représentées sont celles des employées, des ouvriers et des professions intermédiaires. Ces catégories comptent en moyenne individus. Les catégories les moins représentées sont les professions libérales et la catégorie regroupant les agriculteurs, les commerçants et les artisans. Situation familiale : situation familiale du client Nous comptons environ individus mariés. Ce sont les individus les plus représentés devant les concubins et les célibataires. Les personnes veuves ou pacsées sont très faiblement représentées. Type bien : bien immobilier ancien ou neuf La plupart des emprunts contractés sont destinés à financer un bien immobilier neuf (près de individus). Pages - 8 -

9 2.3 Présélection des variables et études des liaisons Nous avons utilisé différentes méthodes selon la nature des variables explicatives étudiées. Le but de l étude des liaisons est d éliminer les variables peu discriminantes vis-à-vis de la variable à expliquer ou corrélées entre elles Variables quantitatives vs. Variables quantitatives En analysant les résultats du test de corrélation de Spearman (cf. Annexe 3 : Les tests utilisés) en sortie de la PROC CORR, nous remarquons que toutes nos variables sont corrélées entre elles. Cependant nous ne retirerons que celles affichant un degré de corrélation très élevé. Les variables CRD et montant_initial sont liées par une corrélation quasi unitaire et significative. Nous choisissons donc de retirer la variable CRD du modèle. Par ailleurs les variables duree_restante et duree_pret présentent également une forte corrélation. Parmi les trois variables linéairement liées (age_pret, duree_restante et duree_pret) nous choisissons de retirer duree_restante. En effet, cette variable a les coefficients de corrélations les plus élevés avec les deux autres variables et nous paraît moins pertinente en termes d interprétation Variables qualitatives vs. Variables quantitatives Nous effectuons un test de Kruskal-Wallis (cf. Annexe 3 : Les tests utilisés) via la PROC NPAR1WAY entre les variables quantitatives explicatives et la variable à modéliser. Ce test nous permet de détecter les variables explicatives discriminantes. Pour l ensemble des variables, la p-value obtenue est inférieure à notre seuil de confiance (0.05). Nous en concluons donc que toutes nos variables quantitatives sont discriminantes Variables qualitatives vs. Variables qualitatives Nous effectuons un test d indépendance du khi deux afin de déterminer si les classes de nos variables qualitatives explicatives sont indépendantes de la variable à expliquer. Les résultats obtenus sont décevants. En effet la statistique de test ne dépasse pas le seuil de 0.04 alors qu une variable a une liaison satisfaisante lorsque la statistique dépasse 0.3. Ces résultats nous laissent penser que les variables qualitatives seront peu contributives à la construction du score. Pages - 9 -

10 2.4 Transformation des variables Afin de faciliter l'estimation et la lisibilité de la grille de score, il est recommandé de discrétiser les variables quantitatives et de regrouper les modalités des variables qualitatives. Afin d optimiser ces transformations et notamment d éviter les effets de seuil, nous maximisons un critère d'indépendance du khi deux Discrétisation des variables quantitatives Deux approches s'offrent à nous : l'approche graphique et l'approche statistique. L'approche graphique consiste à comparer les courbes de densité de chaque variable pour chaque sousgroupe de la variable à expliquer. L approche statistique est un approche dynamique qui consiste à maximiser systématiquement le critère du khi deux. A cet effet, nous avons conçu une macro boucle maximisant ce critère pour chaque découpage en trois classes possible. Toutefois l utilisation de cette macro nécessitait un espace sur le disque dur trop important pour tourner. Les classes que nous proposons ci-dessous résultent donc de l approche graphique. Capital restant dû : Crd_D1 Crd_D2 Modalités Bornes Critère du khi deux Tableau 1 - Discrétisation de la variable CRD La discrétisation en trois classes maximise notre critère du khi deux. Nous retenons la variable ainsi créée pour la modélisation. Pages

11 Age client : Age _D2 Age _D1 Modalités Bornes Critère du khi deux Tableau 2 - Discrétisation de la variable Age_client La discrétisation en quatre classes maximise notre critère du khi deux. Nous retenons la variable ainsi créée pour la modélisation. Age prêt : Age _pret_d1 Age _pret_d2 Modalités Bornes Critère du khi deux Tableau 3 - Discrétisation de la variable age_pret La discrétisation en deux classes maximise notre critère du khi deux. Nous retenons la variable ainsi créée pour la modélisation. Durée prêt : duree _pret_d1 duree _pret_d2 Modalités Bornes < < Critère du khi deux Tableau 4 - Discrétisation de la variable duree_pret La discrétisation en trois classes maximise notre critère du khi deux. Nous retenons la variable ainsi créée pour la modélisation. Pages

12 Durée restante : Duree_restante_D1 Duree_restante_D2 Modalités Bornes < < Critère du khi deux Tableau 5 - Discrétisation de la variable duree_restante La discrétisation en quatre classes maximise notre critère du khi deux. Nous retenons la variable ainsi créée pour la modélisation. Montant apport : apport_d1 apport_d2 Modalités Bornes Critère du khi deux Tableau 6 - Discrétisation de la variable montant_apport La discrétisation en trois classes maximise notre critère du khi deux. Nous retenons la variable ainsi créée pour la modélisation. Pages

13 Montant initial : Tableau 7 - Discrétisation de la variable montant_initial La discrétisation en quatre classes maximise notre critère du khi deux. Nous retenons la variable ainsi créée pour la modélisation. Nombre de trimestres en incident sur l année d observation : Nb_inc12m_D1 Modalités 1 2 Bornes 0 +0 Nbinc12m Variable d'origine Critère du khi deux Tableau 8- Discrétisation de la variable nbinc12m La discrétisation en deux classes maximise notre critère du khi deux. Nous retenons la variable ainsi créée pour la modélisation. Revenus : initial_d1 initial_d2 Modalités Bornes Critère du khi deux Revenus_D2 Revenus_D1 Modalités Bornes Critère du khi deux Tableau 9 - Discrétisation de la variable revenus Pages

14 La discrétisation en deux classes maximise notre critère du khi deux. Nous retenons la variable ainsi créée pour la modélisation. Taux d endettement : endettement_d2 endettement_d1 Modalités Bornes Critère du khi deux Tableau 10 - Discrétisation de la variable endettement La discrétisation en deux classes maximise notre critère du khi deux. Nous retenons la variable ainsi créée pour la modélisation Regroupement des variables qualitatives Pour les variables qualitatives, nous avons essayé de procéder à des regroupements logiques des modalités. La seule variable reclassée retenue est Situfam_R1. Elle regroupe les concubins et les personnes pacsées au sein d une même modalité. Nous avons effectué les transformations et les regroupements optimaux sur la base d'étude et les deux échantillons. Nous pouvons maintenant passer à l'estimation du modèle. Pages

15 3 Estimation du modèle 3.1 Présentation L estimation s effectue sur notre échantillon d apprentissage. L ensemble des variables explicatives sont désormais qualitatives. Il nous faut alors spécifier une modalité de référence pour chacune d entre elles (cf. Annexe 2 : Référence des variables explicatives). Cette référence représente la modalité la moins risquée de manière à obtenir des coefficients négatifs facilitant l interprétation et la construction de la grille de score. Etant donné que la variable à modéliser est binaire, nous estimons le modèle via une régression du type Logit puis Probit. Nous modélisons la probabilité de ne pas être défaillant (impaye=1). Pour chaque type de régression, trois démarches de sélection des variables sont possibles : backward, forward et stepwise. Pour sélectionner la meilleure, il suffit de comparer les statistiques d ajustement du modèle. Nous choisirons la méthode avec le critère d AIC maximum. Or, il s est avéré que ces critères étaient proches pour chaque méthode. Nous avons préféré la sélection du type backward. Le test de Vuong nous permet de déterminer laquelle des deux régressions est la plus appropriée (cf. Annexe 3 : Les tests utilisés). Sa statistique est de 1. Ainsi, la régression du type Logit représente le mieux nos données. 3.2 Analyse des résultats Notre modèle est bien spécifié selon les trois tests de significativité globale (Wald, Likelihood Ratio et Score). C est également ce que laisse supposer le R² ajusté de Nagelkerke (0,5). La sélection automatique a éliminé les variables CRD_D1, type_bien, PCS, Situfam_R1. L ensemble des variables qualitatives de départ et la variable CRD sont donc supprimées comme nous l avions prévu lors de l étude des liaisons. L analyse des effets de type 3 permet de déterminer si les variables contribuent significativement à la construction de la probabilité de ne pas être défaillant. Toutes les variables ont des pvalues inférieures à notre seuil de confiance, elles sont donc significatives. L analyse des estimations de la vraisemblance maximum permet de savoir quelles modalités sont significatives. Nous remarquons qu elles le sont toutes (pvalue<0.05). La régression est d une bonne qualité. En effet, le Sommer s D est proche de 1 (0.81). Pages

16 Nous avons testé l adéquation du modèle aux données grâce au test d Hosmer et Lemeshow. Ce test permet de vérifier si la probabilité estimée est proche de la probabilité constatée. Or, notre pvalue est inférieure à notre seuil de confiance donc le modèle est mal calibré. Toutefois, ignorant comment corriger ce problème, nous avons conservé le modèle en l état. La dernière étape de l analyse de nos résultats est le calcul de la contribution de chaque variable à l étendue des valeurs du score. Elle se calcule à partir de la formule suivante : Où C j x p est le coefficient estimé de la modalité i (i = 1,, p) de la variable j (j = 1,, k) de l échantillon apprentissage. j= 1 ( Max Ci-dessous se trouvent les résultats. VARIABLES age_d1 age_pret_d1 j = k Max i i j j j j { x,..., x,0} Min{ x,..., x,0} 1 j j j j { x,..., x,0} Min{ x,..., x,0}) 1 p p nb_ inc12m_d1 Duree _pret_d1 apport _D1 100 initial _D2 revenus _D2 Endettement _D2 CONTRIBUTION 4,2 33,9 29,5 5,7 3, ,2 Tableau 11 Contribution des variables au score i i 1 1 p p Les variables les plus contributives sont l âge du prêt, le nombre d incidents et le montant initial du prêt. Résultat surprenant, les revenus contribuent le moins à la construction du score (3% seulement). Pages

17 4 Analyse des performances L analyse des performances est nécessaire pour la validation du score. En effet, celui-ci a été construit sur l échantillon apprentissage, on doit contrôler sa robustesse sur un échantillon qui n a pas servi à sa construction (échantillon test). 4.1 Courbes de densité Pour analyser la robustesse de notre score, nous pouvons construire les courbes de densités du score (y_etoile_chapeau) en fonction du critère à modéliser. Si notre score est robuste alors les deux courbes sont les plus séparées possibles. Sur le graphique, ci-dessous, nous observons des courbes de densité distinctes. Nous pouvons conclure que notre score est robuste. Pages

18 4.2 Courbes de performance Courbe de Roc Cette courbe représente en ordonnée le taux de bon classement parmi les sains (vrais sains) et en abscisse le taux de mauvais classement parmi les défaillants (faux défaillants). La statistique c de cette courbe, proche de 1 (0.917), indique une bonne catégorisation de nos individus Courbes de sélection Echantillon test Echantillon apprentissage Cette courbe permet de mettre en relation une part d individus classés selon leur niveau de risque avec une part d individus défaillants. Le score est performant lorsque cette courbe s éloigne de la bissectrice vers le bas. Pages

19 L indice de Gini de l échantillon test est 0,843 et celui de l échantillon apprentissage 0,813 ce qui est très bon. Nous remarquons que les courbes de sélection se ressemblent sur les deux échantillons et se rapprochent du score parfait Courbes de performance Echantillon Test Echantillon Apprentissage La courbe de performance permet de mettre en relation une part de marché d'individus avec la part de défaillants parmi l ensemble des défaillants. Cette courbe est d autant meilleure qu elle est éloignée de la bissectrice vers le bas. Les deux courbes sont similaires quel que soit l échantillon. Nous remarquons qu elles sont éloignées de la bissectrice, on en conclut donc la performance de notre score Courbes de discrimination Echantillon Test Echantillon Apprentissage La courbe de discrimination relie la part d individus sains à la part d individus défaillants. Les courbes sont similaires sur les deux échantillons et sont éloignées de la bissectrice vers le haut, ce qui confirme les conclusions tirées des précédentes courbes. Pages

20 4.3 Indice de robustesse L indice de robustesse se construit comme suit : IR= 1 2 * Gini n Max 1 N apprentissage apprentissage apprentissage Gini test n );(1 N Où n représente le nombre de défaillants et N le nombre d observations dans chaque base. test test ) Ici, l indice de robustesse s élève à 93% on considère qu on a perdu moins de 7% de notre performance de discrimination. Pages

21 5 Grille de score et échelle de notation 5.1 La grille de score La grille de score permet d associer une note comprise entre 0 et 100 à chaque client. Cette note permet d évaluer le niveau de risque de toutes les opérations de crédits. N j i = k j= 1 ( Max i Min j j { x,..., x } x j j j j { x,..., x,0} Min{ x,..., x,0}) 1 i 1 p p i j i 1 p Où j x p est le coefficient de la modalité i (i = 1,, p) de la variable j (j = 1,, k). La grille de score se construit à partir des estimations sur l échantillon apprentissage. L estimation de notre référence est fixée, par définition, à 0. Les notes les plus basses correspondent au niveau de risque le plus élevé. Les individus sont répartis selon trois niveaux de risque : faible, intermédiaire, élevé. De plus, la note maximale de la variable correspond bien à sa contribution. Les résultats sont présentés dans le tableau suivant. Variables AGE_D1 AGE_PRET_D1 NB_INC12M_D1 DUREE_PRET_D1 APPORT_D1 Modalités Estimation Contributions Notes Niveau de risque ,5 4,2 0,0 très risqué ,2 4,2 peu risqué ,4025 4,2 0,8 très risqué >54-0,4271 4,2 0,6 intermédiaire ,9 33,9 peu risqué >3-4, ,9 0,0 très risqué ,5 29,5 peu risqué >0-3, ,5 0,0 très risqué <14 0 5,7 5,7 peu risqué ,6689 5,7 0,0 très risqué >24-0,4366 5,7 2,0 intermédiaire < ,466 3,9 0,0 très risqué ,3158 3,9 1,3 intermédiaire > ,9 3,9 peu risqué Pages

22 Variables INITIAL_D2 REVENUS_D2 ENDETTEMENT_D2 Modalités Estimation Contributions Notes Niveau de risque < ,0 17,0 peu risqué , ,0 2,9 intermédiaire ,597 17,0 3,5 intermédiaire > , ,0 0,0 très risqué ,3067 2,6 0,0 très risqué > ,6 2,6 peu risqué <15% 0 3,2 3,2 peu risqué 15-27% -0,3156 3,2 0,5 très risqué >27% -0,3805 3,2 0,0 très risqué Tableau 12 Grille de score 5.2 Echelle de notation L échelle de notation permet d effectuer un découpage de notre score en 10 classes afin d avoir des probabilités de ne pas être défaillant différentes pour chaque classe. Le numéro de classe est croissant avec le risque associé et décroissant avec la probabilité estimée. Probabilité de ne pas être défaillant Score maximum Score minimum Classe 99,82% ,5 1 99,72% 93,4 88,7 2 99,40% 88,5 79,8 3 98,87% 79, ,54% 76,9 75,5 5 98,37% 75,5 74,2 6 98,05% 74,1 72,9 7 97,72% 72,8 71,1 8 97,03% 71 67,7 9 57,56% 67,6 3,7 10 Tableau 13 Echelle de notation Pages

23 6 Conclusion Compte tenu des variables retenues, le score construit est utilisable pour les clients ayant déjà des crédits. Il serait intéressant de construire un score applicable aux clients sollicitant un crédit. Pour ce faire, il faudrait retirer la variable age_pret fortement contributive à l élaboration du score. L individu le moins risqué a entre 24 et 34 ans, détient un crédit depuis moins de 3 ans dont l échéance est courte (inférieure à 14 ans) et n a connu aucun incident de crédits. Cet individu contracte un prêt d'un montant faible avec un apport personnel important. Il fait partie des individus les plus aisés et les moins endettés. Ce profil correspond à l a priori que nous avions. Pages

24 Annexes et Index Pages

25 Index des tableaux TABLEAU 1 - DISCRETISATION DE LA VARIABLE CRD 10 TABLEAU 2 - DISCRETISATION DE LA VARIABLE AGE_CLIENT 11 TABLEAU 3 - DISCRETISATION DE LA VARIABLE AGE_PRET 11 TABLEAU 4 - DISCRETISATION DE LA VARIABLE DUREE_PRET 11 TABLEAU 5 - DISCRETISATION DE LA VARIABLE DUREE_RESTANTE 12 TABLEAU 6 - DISCRETISATION DE LA VARIABLE MONTANT_APPORT 12 TABLEAU 7 - DISCRETISATION DE LA VARIABLE MONTANT_INITIAL 13 TABLEAU 8- DISCRETISATION DE LA VARIABLE NBINC12M 13 TABLEAU 9 - DISCRETISATION DE LA VARIABLE REVENUS 13 TABLEAU 10 - DISCRETISATION DE LA VARIABLE ENDETTEMENT 14 TABLEAU 11 CONTRIBUTION DES VARIABLES AU SCORE 16 TABLEAU 12 GRILLE DE SCORE 22 TABLEAU 13 ECHELLE DE NOTATION 22 Pages

26 Annexe 1 : Liste des variables # Variable Type Libellé 1 CRD Num CRD = Capital restant dû 4 PCS Alph cl_profession = CSP en modalités 2 age_client Num age_client = age du client 12 age_pret Num age_pret = Age du prêt 9 duree_pret Num 11 duree_restante Num 14 id Num 15 impaye Num 7 montant_apport Num mnt_apport1 = Montant de l apport 6 montant_initial Num 13 nbinc12m Num inc = Nombre de trimeste en incident l année N 10 revenus Num revenu1 = Montant des revenus 3 situfam Alph 8 taux_endettement Num 5 type_bien Alph Pages

27 Annexe 2 : Référence des variables explicatives Variable Modalité CRD_D1 1 PCS Prof_lib age_d1 2 age_pret_d1 1 duree_pret_d1 1 Apport_D1 3 Initial_D2 1 Nb_inc12M_D1 1 Revenus_D2 2 Situfam_R1 4 Endettement_D2 1 type_bien 2 Pages

28 Annexe 3 : Les tests utilisés Test de corrélation de Spearman Où ρ XY H 0 : ( ρ XY= 0 ) contre Ha ( ρ XY 0 ) ρ = 6 n i= 1 1 ( R Xi R n( n² 1) est le cœfficient de corrélation entre la variable X et la variable Y, R Xi (respectivement R Yi ) est le rang que prend X i (respectivement Y i ) par rapport aux autres valeurs de l'échantillon des X (respectivement Y) Yi ) 2 α α ZR: { ρ > t ( n,1 ) ou ρ < t( n, ) } 2 2 Test de Kruskal-Wallis H 0 : (pas de différence entre les k populations) contre Ha : (au moins une des populations est différente des autres populations) K G i i= 1 = ( N 1) G ni 2 n ( r r) i= 1 j = 1 i 2 ( r r) ij Où g est le nombre d observations du groupe, r ij le rang de l observation j du groupe i, N le nombre total d observations, pour tous les r ij. r i est la moyenne des r ij pour chaque groupe i, r est la moyenne ZR: { K χ ²( g 1) } Pages

29 Test du khi deux H0 : (les variables sont indépendantes) contre Ha : (les variables ne sont pas indépendantes, l écart entre la valeur attendue et la valeur observée n est pas dû au hasard) K= i, j ( Oij Eij)² Eij Où O ij est la valeur observée et E ij la valeur attendue sous l hypothèse d indépendance. ZR : { K χ ²(( i 1)( j 1)) } Test de Vuong Le test consiste à comparer les vraisemblances issues des deux méthodes d estimation et ce pour chaque individus et de choisir celle qui offre la meilleure représentation (qui est supérieur). La statistique de test est : 1 ti N i Vuong = avec t 2 i = σ t ln( l log it i ) - ln( l probit i ) Donc, lorsque la statistique de test est positive, on préférera l estimation de type Logit, sinon on préférera l estimation de type Probit. Pages

30 Annexe 4 : Programmes SAS %let chemin="h:\credit-scoring\projet"; libname td &chemin; data tab; set td.base_proj_sco_0708; %let variables_quanti= crd age_client age_pret duree_pret duree_restante montant_apport montant_initial nbinc12m revenus taux_endettement; /*variables quantitatives de la base*/ %let variables_quali=pcs situfam type_bien; /*variables qualitatives de la base*/ %let y=impaye; /*variable à modéliser*/ /*************************************************************************/ /****************************LA BASE DE DONNEES***************************/ /*************************************************************************/ proc contents data=tab; title "contenu table"; /*************************************************************************/ /**************************NETTOYAGE DE LA BASE***************************/ /*************************************************************************/ /*doublons*/ proc sort data=tab nodupkey ; by id; /****TRAITEMENT DES VALEURS MANQUANTES****/ /*Pour les variables quantitatives*/ proc means data=tab; var &variables_quanti; title "valeurs manquantes variables quantitatives"; /*Pour les variables qualitatives*/ proc freq data= tab; table &variables_quali &y; title "valeurs manquantes variables qualitatives"; data tab; set tab; indice=montant_apport/montant_initial; indice_age=age_client-age_pret; indice_montant=crd-montant_initial; Pages

31 proc means data=tab; var indice indice_age indice_montant; title "valeurs manquantes variables quantitatives"; /*on prend un seuil de 19 ie. apport 19* sup au prêt*/ proc means data=tab; class pcs; var revenus; title "description pcs*revenus"; data tab; set tab; if duree_restante=. then delete; if montant_initial=. then delete; if taux_endettement=. then delete; if pcs="manquant" or pcs="manquant" then delete; if situfam="manquant" then delete; if type_bien="manquant" then delete; /****TRAITEMENT DES VALEURS ABERRANTES****/ /*Proc Logistic Data=tab ; Class &variables_quali / PARAM=REF ; Model IMPAYE (Event='1')= &variables_quanti &variables_quali / Link=logit ; output out=respearson reschi=pearson h=hatmatrix; Run ; proc means data=respearson; where pearson<-2 or pearson>2; var pearson; title "valeurs aberrantes _ Pearson"; */ proc sql; select count(id) into : nobs from tab; quit; data tab; set tab; /*if hatmatrix>3*13/&nobs then delete; if abs(pearson)>2 then delete;*/ if age_client<18 or age_client>108 then delete; if indice_age<18 then delete; if indice_montant>0 then delete; if indice>19 then delete; if revenus> then delete; if taux_endettement>33.33 then delete; if revenus<5400 then delete;/*rmi*/ /*************************************************************************/ /*****************************DATA SPLITTING******************************/ /*************************************************************************/ /****CONSTRUCTION D'UN ECHANTILLON APPRENTISSAGE****/ proc surveyselect Pages

32 data=tab method=srs rep=1 seed=1234 samprate=70 out=echantillon_app; title "construction echantillon apprentissage"; /****CONSTRUCTION D'UN ECHANTILLON TEST****/ proc sort data=tab; by id; proc sort data=echantillon_app; by id; data echantillon_test; merge tab (in=a) echantillon_app (in=b); by id; if a ne b; /****VERIFICATION DE LA COHERANCE DES ECHANTILLONS****/ proc freq data=echantillon_app; table &y; title "verification echantillonnage"; proc freq data=echantillon_test; table &y; proc freq data=tab; table &y; /*************************************************************************/ /****************************ETUDE EXPLORATOIRE***************************/ /*************************************************************************/ /****STATISTIQUES DESCRIPTIVES****/ /*Pour les variables quantitatives*/ Proc gchart data=echantillon_app; title "statistiques descriptives "; vbar age_client/ subgroup=impaye midpoints=18 to 78 by 1; vbar crd/subgroup=impaye midpoints=0 to by 10000; vbar age_pret/ subgroup=impaye midpoints=0 to 21 by 1; vbar duree_pret/subgroup=impaye midpoints=0 to 40 by 1; vbar duree_restante/ subgroup=impaye midpoints=18 to 30 by 1; vbar montant_apport/subgroup=impaye midpoints=0 to by 10000; vbar montant_initial/ subgroup=impaye midpoints=0 to by 10000; vbar nbinc12m/subgroup=impaye midpoints=0 to 4 by 1; vbar revenus/ subgroup=impaye midpoints=0 to by ; vbar taux_endettement/subgroup=impaye; quit; %macro KDE_description(tab,var_quanti); proc kde data=&tab out = kde_&var_quanti ; Pages

33 var &var_quanti ; title "kde &var_quanti"; proc gplot data=kde_&var_quanti; plot density*&var_quanti ; symbol color= blue interpol=join value=dot height=0.1; title "courbe de densite &var_quanti"; quit; Proc DataSets LIBRARY=WORK ; Delete kde_&var_quanti ; Run ; %mend; /*impaye=0 rouge*/ %kde_description(echantillon_app, age_client); %kde_description(echantillon_app, crd); %kde_description(echantillon_app, age_pret); %kde_description(echantillon_app, duree_pret); %kde_description(echantillon_app, duree_restante); %kde_description(echantillon_app, montant_apport); %kde_description(echantillon_app, montant_initial); %kde_description(echantillon_app, nbinc12m); %kde_description(echantillon_app, revenus); %kde_description(echantillon_app, taux_endettement); proc univariate data=echantillon_app; var &variables_quanti; title "description des variables quantitatives"; /*Pour les variables qualitatives*/ proc gchart data=echantillon_app; vbar &variables_quali; title "repartition des variables qualitatives"; quit; proc freq data=echantillon_app; table &variables_qual; title "description des variables qualitatives"; /*************************************************************************/ /****************************ETUDE DES LIAISONS***************************/ /*************************************************************************/ /****VARIABLES QUANTITATIVES - VARIABLES QUANTITATIVES****/ proc corr spearman data=echantillon_app ; var &variables_quanti ; title "liaisons variables quantitatives - variables quantitatives"; /*on retire CRD et Duree_restante*/ /****VARIABLES QUALITATIVES - VARIABLES QUANTITATIVES****/ Pages

34 proc npar1way wilcoxon data= echantillon_app correct=no; class &y; var &variables_quanti; title "liaisons variables qualitatives - variables quantitatives"; /*pval<0.05 variable discriminante*/ /****VARIABLES QUALITATIVES - VARIABLES QUALITATIVES****/ /*test du chi-deux*/ %macro test_chideux(tab,var); Proc Freq data=&tab; tables impaye*&var/chisq; output out= resultat n chisq; Data resultat; set resultat; T=sqrt((_pchi_/N)/sqrt(df_pchi)); keep N _pchi_ df_pchi t; proc print data=resultat; title "resultat liaison &var"; Proc DataSets LIBRARY=WORK ; Delete resultat; Run ; quit; %mend; %test_chideux (echantillon_app,pcs); %test_chideux (echantillon_app,situfam); %test_chideux (echantillon_app,type_bien); /* proche de 1 variable discriminante*/ /*************************************************************************/ /***********************TRANSFORMATION DES VARIABLES**********************/ /*************************************************************************/ /****DISCRETISATION DES VARIABLES QUANTITATIVES****/ %macro KDE_discretisation (tab,var_quanti,deb,fin,incr); proc kde data=&tab (where=(impaye=0)) out = kdeimpaye0_&var_quanti ; var &var_quanti ; title "kde &var_quanti"; proc kde data=&tab (where=(impaye=1)) out = kdeimpaye1_&var_quanti; var &var_quanti; title "kde &var_quanti"; data tab_dens_&var_quanti; merge kdeimpaye0_&var_quanti (rename=(density=dens0)) kdeimpaye1_&var_quanti (rename=(density=dens1)); by &var_quanti; proc gplot data=tab_dens_&var_quanti; plot (dens1 dens0)*&var_quanti /overlay haxis= &deb to &fin by &incr; Pages

35 symbol1 color=red interpol=join value=dot height=0.1; symbol2 color= green interpol=join value=dot height=0.1; title "courbes de densité &var_quanti"; quit; Proc DataSets LIBRARY=WORK ; Delete kdeimpaye0_&var_quanti ; Run ; Proc DataSets LIBRARY=WORK ; Delete kdeimpaye1_&var_quanti ; Run ; quit; %mend; /*impaye=0 rouge*/ %kde_discretisation(echantillon_app, age_client,18,103,1); /* */ %kde_discretisation(echantillon_app, crd,0,400000,10000); /* */ %kde_discretisation(echantillon_app, age_pret,0,8,1); /*0-3 3-inf inf*/ %kde_discretisation(echantillon_app, duree_pret,3,35,1); /* è */ %kde_discretisation(echantillon_app, duree_restante,0,30,1); /* */ %kde_discretisation(echantillon_app, montant_apport,0,300000,10000); /* */ %kde_discretisation(echantillon_app, montant_initial,0,600000,20000); /* */ %kde_discretisation(echantillon_app, nbinc12m,0,4,1); /* >0*/ %kde_discretisation(echantillon_app, revenus,0,100000,5000); /* */ %kde_discretisation(echantillon_app, taux_endettement,0,33,1); /* */ proc gchart data=echantillon_app; vbar &variables_quali / subgroup=impaye; title "discretisation des variables qualitatives" ; quit; Pages

36 /****DISCRETISATION DES VARIABLES QUANTITATIVES****/ %macro regroupement(base); data class_&base; set &base; AGE_D1 = 1*(AGE_CLIENT<24) + 2*(24<=AGE_CLIENT<34) + 3*(34<=AGE_CLIENT<54) + 4*(AGE_CLIENT>=54); AGE_D2 = 1*(AGE_CLIENT<31) + 2*(31<=AGE_CLIENT<52) + 3*(52<=AGE_CLIENT); CRD_D1 = 1*(CRD<15000) + 2*(15000<=CRD<105000) + 3*(105000<=CRD); CRD_D2 = 1*(CRD<15000) + 2*(15000<=CRD<65000) + 3*(65000<=CRD<105000)+4*(105000<=CRD); AGE_PRET_D1 = 1*(AGE_PRET<3) + 2*(AGE_PRET>=3); AGE_PRET_D2 = 1*(AGE_PRET<1) + 2*(1=<AGE_PRET<2)+3*(2<=AGE_PRET<3) + 4*(3=<AGE_PRET); DUREE_PRET_D1 = 1*(DUREE_PRET<14) + 2*(14=<DUREE_PRET<24)+3*(24<=DUREE_PRET); DUREE_PRET_D2 = 1*(DUREE_PRET<7) + 2*(7=<DUREE_PRET<12)+3*(12<=DUREE_PRET<21) +4*(21=<DUREE_PRET<24)+5*(24<=DUREE_PRET); DUREE_RESTANTE_D1 = 1*(DUREE_RESTANTE<20) + 2*(20=<DUREE_RESTANTE<24)+ 3*(24<=DUREE_RESTANTE); DUREE_RESTANTE_D2 = 1*(DUREE_RESTANTE<10) + 2*(10=<DUREE_RESTANTE<20)+3*(20<=DUREE_RESTANTE<24) +4*(24<=DUREE_RESTANTE); APPORT_D1 = 1*(MONTANT_APPORT<5000) + 2*(5000=<MONTANT_APPORT<24000)+ 3*(24000<=MONTANT_APPORT); APPORT_D2 = 1*(MONTANT_APPORT<5000) + 2*(5000=<MONTANT_APPORT<24000)+ 3*(24000<=MONTANT_APPORT<160000)+ 4*(160000<=MONTANT_APPORT); INITIAL_D1 = 1*(MONTANT_INITIAL<60000) + 2*(60000=<MONTANT_INITIAL<110000)+ 3*(110000<=MONTANT_INITIAL); INITIAL_D2 = 1*(MONTANT_INITIAL<20000) + 2*(20000=<MONTANT_INITIAL<60000)+ 3*(60000<=MONTANT_INITIAL<220000)+ 4*(220000<=MONTANT_INITIAL); NB_INC12M_D1 = 1*(NBINC12M=0) + 2*(0<NBINC12M); REVENUS_D1 = 1*(REVENUS<14000) + 2*(14000=<REVENUS<35000)+ 3*(35000=<REVENUS); REVENUS_D2 = 1*(REVENUS<14000) + 2*(14000=<REVENUS) ; ENDETTEMENT_D1 = 1*(taux_ENDETTEMENT<27) + 2*(27=<taux_ENDETTEMENT); ENDETTEMENT_D2 = 1*(taux_ENDETTEMENT<15) + 2*(15=<taux_ENDETTEMENT<27)+ 3*(27=<taux_ENDETTEMENT); PCS_R1 = 1*(PCS In ("Employé")) + 2*(PCS In ("Ouvrier")) + 3*(PCS IN ("Retraité")) + 4*(PCS IN("cadres","profint")) + 5*(PCS IN("prof_lib","agrcomart")) ; PCS_R2 = 1*(PCS In ("Employé")) + 2*(PCS In ("Ouvrier")) + 3*(PCS IN ("Retraité")) + 4*(PCS IN("profint")) + 5*(PCS IN("cadres","prof_lib","agrcomart")) ; SITUFAM_R1 = 1*(SITUFAM In ("marié")) + 2*(SITUFAM In ("célibataire")) + 3*(SITUFAM IN ("veuf(ve)","divorcé")) + 4*(SITUFAM IN("vm-concubins","vmconcubins-pacs")) ; SITUFAM_R2 = 1*(SITUFAM In ("marié")) + 2*(SITUFAM In ("célibataire","divorcé")) + 3*(SITUFAM IN ("veuf(ve)")) + 4*(SITUFAM IN("vm-concubins","vm-concubins-pacs")) ; SITUFAM_R3 = 1*(SITUFAM In ("marié")) + 2*(SITUFAM In ("célibataire","divorcé","veuf(ve)")) + 3*(SITUFAM IN("vm-concubins","vmconcubins-pacs")) ; type_bien=1*(type_bien in("ancien")) + 2*(type_bien in("neuf")); PROC FREQ DATA=class_&base; TABLE AGE_D1 AGE_D2 crd_d1 crd_d2 age_pret_d1 age_pret_d2 duree_pret_d1 duree_pret_d2 duree_restante_d1 Pages

37 duree_restante_d2 apport_d1 apport_d2 initial_d1 initial_d2 revenus_d1 revenus_d2 endettement_d1 endettement_d2 pcs_r1 pcs_r2 situfam_r1 situfam_r2 situfam_r3 type_bien; title "verif discretisation &base"; %mend; %regroupement(tab); %regroupement(echantillon_app); %regroupement(echantillon_test); Option MacroGen ; %Macro T_Tschuprow(Tab=,Var_Qual_1=,Var_Qual_2=,Chemin_Out=) ; ODS LISTING CLOSE ; Proc Freq Data=&Tab. ; Tables &Var_Qual_1.*&Var_Qual_2. / ChisQ ; Output Out=Tab_Out_KD ChisQ ; Run ; ODS LISTING ; Data Tab_Out_KD (Keep=T_Tschuprow) ; Set Tab_Out_KD ; Attrib T_Tschuprow Label="Statistique du T de Tschuprow" Format=8.6 ; T_Tschuprow=(sqrt((_PCHI_/N)/sqrt(DF_PCHI))) ; Run ; /*ODS HTML FILE="&Chemin_Out\T_Tshuprow_&Var_Qual_1._&Var_Qual_2..xls" STYLE=PRINTER ;*/ ODS PROCLABEL "Statistique du T de Tschuprow &var_qual_2" ; Options NoDate NoNumber ; Title ; Proc Print Data=Tab_Out_KD Label NOOBS ; Var T_Tschuprow ; Format T_Tschuprow NUMX8.6 ; Run ; ODS HTML CLOSE ; Proc DataSets LIBRARY=WORK ; Delete Tab_Out_KD ; Run ; Quit ; %Mend ; %T_Tschuprow(Tab=Class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=AGE_D1, Chemin_Out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=AGE_D2, Chemin_Out=&chemin) ; /*age_d1*/ %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=crd_D1, Chemin_Out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=crd_D2, Chemin_Out=&chemin) ; /*crd_d1*/ %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=AGE_pre t_d1,chemin_out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=AGE_pre t_d2,chemin_out=&chemin) ; /*age_pret_d1*/ %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=duree_p ret_d1,chemin_out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=duree_p ret_d2,chemin_out=&chemin) ; /*duree_pret_d1*/ Pages

38 %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=duree_r estante_d1,chemin_out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=duree_r estante_d2,chemin_out=&chemin) ; /*duree_restante_d2*/ %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=apport_ D1,Chemin_Out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=apport_ D2,Chemin_Out=&chemin) ; /*apport_d1*/ %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=initial _D1,Chemin_Out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=initial _D2,Chemin_Out=&chemin) ; /*initial_d2*/ %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=revenus _D1,Chemin_Out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=revenus _D2,Chemin_Out=&chemin) ; /*revenus_d2*/ %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=NB_INC1 2M_D1,Chemin_Out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=NBINC12 M,Chemin_Out=&chemin) ; /*NBINC_12M_D1*/ %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=endette ment_d1,chemin_out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=endette ment_d2,chemin_out=&chemin) ; /*endettement_d2*/ %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=pcs_r1, Chemin_Out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=pcs_r2, Chemin_Out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=pcs,Che min_out=&chemin) ; /*pcs*/ %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=situfam _r1,chemin_out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=situfam _r2,chemin_out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=situfam _r3,chemin_out=&chemin) ; %T_Tschuprow(Tab=class_echantillon_app,Var_Qual_1=IMPAYE,Var_Qual_2=situfam,Chemin_Out=&chemin) ; /*situfam_r1*/ /*%macro decoupage_dynamique(tab,var,deb,fin,incr); %do i=&deb %to &fin %by &incr; %do j=&deb %to &fin-&i %by &incr; data essai; set &tab; D_&var = 1*(&Var<&i) + 2*(&i<=&Var<&i+&j)+3*(&i+&j<=&Var); Proc Freq data=essai; tables impaye*d_&var/chisq; output out=resultat n chisq; title "critére automatique &var"; Data resultat; set resultat; Pages

39 T=sqrt((_pchi_/N)/sqrt(df_pchi)); class1=&i; class2=&i+&j; data test_&var; set test_&var resultat ; keep t and class1 and class2 ; %end; %end; proc sql; select class1, class2, T from test_duree_pret where t=(select max(t) from test_duree_pret); title "critére automatique &var"; quit; Proc DataSets LIBRARY=WORK ; Delete Essai ; Run ; Proc DataSets LIBRARY=WORK ; Delete resultat ; Run ; quit; %mend;*/ /*%decoupage_dynamique(echantillon_app,duree_pret,0,34,1); %decoupage_dynamique(echantillon_app,crd,0, ,10000); %decoupage_dynamique(echantillon_app,age_client,18,108,1); %decoupage_dynamique(echantillon_app,age_pret,0,15,1); %decoupage_dynamique(echantillon_app,duree_restante,0,30,1); %decoupage_dynamique(echantillon_app,montant_apport,0, ,10000); %decoupage_dynamique(echantillon_app,montant_initial,0, ,10000); %decoupage_dynamique(echantillon_app,nbinc12m,0,4,1); %decoupage_dynamique(echantillon_app,revenus,0, ,10000); %decoupage_dynamique(echantillon_app,taux_endettement,0,33,1);*/ /*************************************************************************/ /************************ESTIMATION DU MODELE*****************************/ /*************************************************************************/ %let variables_mod=age_d1 crd_d1 age_pret_d1 NB_INC12M_D1 duree_pret_d1 /*duree_restante_d2*/ apport_d1 initial_d2 revenus_d2 endettement_d2 pcs situfam_r1 type_bien; %let variables_class=age_d1 (ref="2") crd_d1 (ref="1") age_pret_d1 (ref="1") duree_pret_d1 (ref="1") /*duree_restante_d2*/ apport_d1 (ref="3") initial_d2 (ref="1") revenus_d2 (ref="2") endettement_d2 (ref="1") pcs (ref="prof_lib") situfam_r1 (ref="4") type_bien (ref="2") NB_INC12M_D1 (ref="1"); /*référence modalité la moins risquée*/ /****CHOIX DU MODELE PAR LE TEST DE VUONG****/ PROC LOGISTIC DATA = class_echantillon_app; CLASS &variables_class/ PARAM=REF ; MODEL IMPAYE (Event='1') = &variables_mod / OUTROC = Tab_Roc_App Selection=backward SLS=0.05 Link=Logit ; OUTPUT OUT=TAB_SCORE_ECH_APP_logit p=p_logit PREDICTED=Y_Chapeau XBETA=Y_Etoile_Chapeau ; Pages

40 RUN ; title "modelisation logit"; PROC LOGISTIC DATA = class_echantillon_app; CLASS &variables_class/ PARAM=REF ; MODEL IMPAYE (Event='1') = &variables_mod / OUTROC = Tab_Roc_App Selection=Backward SLS=0.05 Link=Probit; OUTPUT OUT=TAB_SCORE_ECH_APP_probit p=p_probit PREDICTED=Y_Chapeau XBETA=Y_Etoile_Chapeau ; title "modelisation probit"; RUN ; data vuong; merge TAB_SCORE_ECH_APP_logit TAB_SCORE_ECH_APP_probit; l_logit=impaye*log(p_logit)+(1-impaye)*log(1-p_logit); l_probit=impaye*log(p_probit)+(1-impaye)*log(1-p_probit); n_vuong=l_logit-l_probit; proc means data=vuong mean std stderr t0 prt; var n_vuong; title"vuong"; proc means data=vuong vardef=n; var n_vuong; output out=resultat_vuong mean=moy std=stm n=n; title"vuong"; data resultat_vuong; set resultat_vuong; vuong=moy/(stm/sqrt(n)); proc print; title"résultat test de vuong"; /*Suite au test de vuong, on choisit le logit*/ /****CALIBRAGE DU MODELE****/ PROC LOGISTIC DATA = class_echantillon_app; CLASS &variables_class / PARAM=REF ; MODEL IMPAYE (Event='1') = &variables_mod / OUTROC = Tab_Roc_App Selection=Backward SLS=0.05 Link=logit lackfit; OUTPUT OUT=TAB_SCORE_ECH_APP_logit p=p_logit PREDICTED=Y_Chapeau XBETA=Y_Etoile_Chapeau ; title "regression logit Test d'hosmer et Lemeshow "; RUN ; /*si pval>0.05 alors le modèle ne trahit pas les données ici, la pval est inférieure */ /****QUALITE DU MODELE****/ PROC LOGISTIC DATA = class_echantillon_app; CLASS &variables_class / PARAM=REF ; MODEL IMPAYE (Event='1') = &variables_mod / OUTROC = Tab_Roc_App Selection=Backward SLS=0.05 Link=logit RSQUARE ; OUTPUT OUT=TAB_SCORE_ECH_APP_logit p=p_logit PREDICTED=Y_Chapeau XBETA=Y_Etoile_Chapeau ; title"regression logit R² ajusté de Nagelkerke"; RUN ; /* R2 de 0.50*/ Pages

41 /****CONTRIBUTION****/ /*cf grille de score sur fichier Excel*/ /*************************************************************************/ /************************ANALYSE DES PERFORMANCES*************************/ /*************************************************************************/ /****COURBE DE ROC****/ Proc Logistic Data=class_echantillon_App OutEst=Tab_Est ; Class &variables_class / PARAM=REF ; Model IMPAYE (Event='1')= &variables_mod / Link=logit OutRoc=ROC_APP ; Run ; proc gplot data= class_echatillon_app ; PLOT _SENSIT_*(_1MSPEC SENSIT_) / OVERLAY ; title "courbe de Roc echantillon apprentissage"; RUN ; QUIT ; /*--- Echantillon test ---*/ Proc Logistic Data=class_echantillon_Test InEst=Tab_Est ; Class &variables_class / PARAM=REF ; Model IMPAYE (Event='1')= &variables_mod /Link=logit OutRoc=ROC_TEST MaxIter=0 ; Run ; PROC GPLOT DATA = ROC_TEST ; PLOT _SENSIT_*(_1MSPEC SENSIT_) / OVERLAY ; title "Courbe de Roc "; RUN ; QUIT ; /****COURBES DE DENSITE DES SCORES****/ %kde_discretisation(tab_score_ech_app_logit, y_etoile_chapeau,-2,8,1); PROC LOGISTIC DATA = class_echantillon_test; CLASS &variables_class/ PARAM=REF ; MODEL IMPAYE (Event='1') = &variables_mod / OUTROC = Tab_Roc_App Selection=Backward SLS=0.05 Link=logit ; OUTPUT OUT=TAB_SCORE_ECH_test_logit p=p_logit PREDICTED=Y_Chapeau XBETA=Y_Etoile_Chapeau ; title"regression logit test"; RUN ; %kde_discretisation(tab_score_ech_test_logit, y_etoile_chapeau,-2,8,1); /****COURBES DE SELECTION, PERFORMANCE, DISCRIMINATION****/ %Macro Indice_Gini(Tab_Score=,Var_Qual=,Var_Score=) ; Proc SQL NoPrint ; Create Table Temp_1 As Select &Var_Qual, &Var_Score From &Tab_Score Order By &Var_Score DESC ; Quit ; Data Temp_1 ; Set Temp_1 ; Retain Nb Nb0 Nb1 0 ; Nb=Nb+1 ; If &Var_Qual=0 Then Nb0=Nb0+1 ; /* Défaillants */ Else If &Var_Qual=1 Then Nb1=Nb1+1 ; /* Non-défaillants */ Run ; Pages

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1 Table des matières PARTIE 1 1. Résumé

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

SAS de base : gestion des données et procédures élémentaires

SAS de base : gestion des données et procédures élémentaires 1 SAS de base : gestion des données et procédures élémentaires SAS de base : gestion des données et procédures élémentaires Résumé Description des commandes (module SAS de base) les plus utiles de l étape

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

L export de SAS vers Excel expliqué à ma fille

L export de SAS vers Excel expliqué à ma fille L export de SAS vers Excel expliqué à ma fille SAS est un logiciel merveilleux, mais tous n y ont pas accès. Pour contenter la soif de données de vos collègues qui n auraient pas d autre outil à disposition,

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

L allocataire dans un couple : l homme ou la femme?

L allocataire dans un couple : l homme ou la femme? L allocataire dans un couple : l homme ou la femme? par Alain Jacquot CNAF-Bureau des Prévisions Les CAF versent une trentaine de prestations (prestations familiales stricto sensu, aides au logement, et

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

INITIATION AU LOGICIEL SAS

INITIATION AU LOGICIEL SAS INITIATION AU LOGICIEL SAS (version 9.1.3 sous Windows) Hélène HAMISULTANE Bibliographie : Initiation au logiciel SAS(9) pour Windows, Coqué N. (juin 2006). www.agroparistech.fr/img/pdf/polysas.pdf SAS

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

Les durées d emprunts s allongent pour les plus jeunes

Les durées d emprunts s allongent pour les plus jeunes Revenus Les durées d emprunts s allongent pour les plus jeunes Marie-Émilie Clerc, Pierre Lamarche* Entre 2005 et 2011, l endettement des ménages a fortement augmenté, essentiellement du fait de la hausse

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains. Mémoire d actuariat - promotion 2010 La modélisation des avantages au personnel: complexité et limites du modèle actuariel, le rôle majeur des comportements humains. 14 décembre 2010 Stéphane MARQUETTY

Plus en détail

1 Imputation par la moyenne

1 Imputation par la moyenne Introduction au data mining L3 MIS - STA 1616-2010 V. Monbet Données manquantes L'objectif de ce TD est de manipuler et de comparer plusieurs méthodes d'imputation de données manquantes. La première partie

Plus en détail

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Plus en détail

Formation au logiciel SAS Statistical Analysis System

Formation au logiciel SAS Statistical Analysis System Formation au logiciel SAS Statistical Analysis System Odile Wolber (CNAM) Objectif du cours : acquérir les principes du langage de programmation SAS Etape DATA - import des données - saisie des données

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

L Observatoire Crédit Logement / CSA Observatoire du Financement des Marchés Résidentiels. Note de méthode

L Observatoire Crédit Logement / CSA Observatoire du Financement des Marchés Résidentiels. Note de méthode L Observatoire Crédit Logement / CSA Observatoire du Financement des Marchés Résidentiels Note de méthode La place qu occupe Crédit Logement dans le marché des crédits immobiliers (hors les rachats de

Plus en détail

Evolution des risques sur les crédits à l habitat

Evolution des risques sur les crédits à l habitat Evolution des risques sur les crédits à l habitat n 5 février 2012 1/17 SOMMAIRE 1. PRINCIPALES CARACTÉRISTIQUES DE LA PRODUCTION... 4 2. ANALYSE DÉTAILLÉE DES INDICATEURS DE RISQUE... 8 2.1 Montant moyen

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts CORRIGES DES CAS TRANSVERSAUX Corrigés des cas : Emprunts Remboursement par versements périodiques constants - Cas E1 Objectifs : Construire un échéancier et en changer la périodicité, Renégocier un emprunt.

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS Depuis SAS 9.2 TS2M3, SAS propose un nouveau langage de programmation permettant de créer et gérer des tables SAS : le DS2 («Data Step 2»). Ces nouveautés

Plus en détail

Héritages, donations et aides aux ascendants et descendants

Héritages, donations et aides aux ascendants et descendants Dossier Héritages, donations et aides aux ascendants et descendants Bertrand Garbinti, Pierre Lamarche, Laurianne Salembier* Le patrimoine d un ménage est constitué par la somme de tous les biens qu il

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

ESSEC Cours Wealth management

ESSEC Cours Wealth management ESSEC Cours Wealth management Séance 9 Gestion de patrimoine : théories économiques et études empiriques François Longin 1 www.longin.fr Plan de la séance 9 Epargne et patrimoine des ménages Analyse macroéconomique

Plus en détail

La méthode des scores, particulièrement de la Banque de France

La méthode des scores, particulièrement de la Banque de France La méthode des scores, particulièrement de la Banque de France Devant la multiplication des défaillances d entreprises au cours des années 80 et début des années 90, la Banque de France a produit des travaux

Plus en détail

Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures?

Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures? Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures? Benoît Pagès 1, Valérie Leveau 1 1 ARVALIS Institut du

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. Synthèse des travaux réalisés 1. Problématique La question D7 du plan d exécution du Programme National de Recherches

Plus en détail

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) CIVILITE-SES.doc - 1 - Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) 1 PRÉSENTATION DU DOSSIER CIVILITE On s intéresse

Plus en détail

E-ASSURÉS RECHERCHE LE PROFIL DES PERSONNES ASSURANCE SANTÉ DES A LA SUR INTERNET D UNE PUBLIÉ PAR. 2 e ÉDITION

E-ASSURÉS RECHERCHE LE PROFIL DES PERSONNES ASSURANCE SANTÉ DES A LA SUR INTERNET D UNE PUBLIÉ PAR. 2 e ÉDITION L OBSERVATOIRE PUBLIÉ PAR LE PROFIL DES PERSONNES A LA RECHERCHE DES D UNE E-ASSURÉS 2 e ÉDITION SEPTEMBRE NOVEMBRE ASSURANCE SANTÉ SUR INTERNET QUI SOMMES-NOUS? PRÉSENTATION DE cmonassurance est un e-courtier,

Plus en détail

Le calcul du barème d impôt à Genève

Le calcul du barème d impôt à Genève Le calcul du barème d impôt à Genève Plan : 1. Historique Passage d un système en escalier à une formule mathématique 2. Principe de l imposition Progressivité, impôt marginal / moyen ; barème couple/marié

Plus en détail

L endettement privé des ménages début 2010

L endettement privé des ménages début 2010 Dossier L endettement privé des ménages début 2010 Pierre Lamarche, Laurianne Salembier* Début 2010, 46 % des ménages sont endettés pour un motif privé, c est-à-dire sans lien avec l activité professionnelle,

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

1 Définition de la non stationnarité

1 Définition de la non stationnarité Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

Chapitre 2/ La fonction de consommation et la fonction d épargne

Chapitre 2/ La fonction de consommation et la fonction d épargne hapitre 2/ La fonction de consommation et la fonction d épargne I : La fonction de consommation keynésienne II : Validations et limites de la fonction de consommation keynésienne III : Le choix de consommation

Plus en détail

REFORME DU CREDIT A LA CONSOMMATION DECRET SUR LE REMBOURSEMENT MINIMAL DU CAPITAL POUR LES CREDITS RENOUVELABLES

REFORME DU CREDIT A LA CONSOMMATION DECRET SUR LE REMBOURSEMENT MINIMAL DU CAPITAL POUR LES CREDITS RENOUVELABLES REFORME DU CREDIT A LA CONSOMMATION DECRET SUR LE REMBOURSEMENT MINIMAL DU CAPITAL POUR LES CREDITS RENOUVELABLES DOSSIER DE PRESSE FICHE 1 Une réforme pour réduire le coût des crédits renouvelables et

Plus en détail

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées : a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN

Plus en détail

Le patrimoine des ménages retraités : résultats actualisés. Secrétariat général du Conseil d orientation des retraites

Le patrimoine des ménages retraités : résultats actualisés. Secrétariat général du Conseil d orientation des retraites CONSEIL D ORIENTATION DES RETRAITES Séance plénière du 08 juillet 2015 à 9 h 30 «Le patrimoine des retraités et l épargne retraite» Document N 2 bis Document de travail, n engage pas le Conseil Le patrimoine

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Introduction au logiciel SAS François-Xavier LEJEUNE

Introduction au logiciel SAS François-Xavier LEJEUNE INSTITUT DE STATISTIQUE de l Université Pierre et Marie Curie Cycle Supérieur 1 ère année 2011-12 Introduction au logiciel SAS François-Xavier LEJEUNE Plan du cours Séance n 1 Débuts en SAS : Généralités

Plus en détail

PRIME D UNE OPTION D ACHAT OU DE VENTE

PRIME D UNE OPTION D ACHAT OU DE VENTE Université Paris VII - Agrégation de Mathématiques François Delarue) PRIME D UNE OPTION D ACHAT OU DE VENTE Ce texte vise à modéliser de façon simple l évolution d un actif financier à risque, et à introduire,

Plus en détail

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Évaluations aléatoires : Comment tirer au sort?

Évaluations aléatoires : Comment tirer au sort? Évaluations aléatoires : Comment tirer au sort? William Parienté Université Catholique de Louvain J-PAL Europe povertyactionlab.org Plan de la semaine 1. Pourquoi évaluer? 2. Comment mesurer l impact?

Plus en détail

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar Florence Arestoff Baptiste Venet 1 Introduction : contexte du contrat de recherche Ce contrat de recherche fait suite

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

Modèles pour données répétées

Modèles pour données répétées Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Comment évaluer une banque?

Comment évaluer une banque? Comment évaluer une banque? L évaluation d une banque est basée sur les mêmes principes généraux que n importe quelle autre entreprise : une banque vaut les flux qu elle est susceptible de rapporter dans

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle

Plus en détail

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE MICHÈLE PICARD FLIBOTTE EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE Essai-stage présenté à la Faculté des études supérieures de l Université Laval dans le cadre

Plus en détail

1 Recherche en table par balayage

1 Recherche en table par balayage 1 Recherche en table par balayage 1.1 Problème de la recherche en table Une table désigne une liste ou un tableau d éléments. Le problème de la recherche en table est celui de la recherche d un élément

Plus en détail

Gestion obligataire passive

Gestion obligataire passive Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage

Plus en détail

TSTT ACC OUTILS DE GESTION COMMERCIALE FICHE 1 : LES MARGES

TSTT ACC OUTILS DE GESTION COMMERCIALE FICHE 1 : LES MARGES TSTT ACC OUTILS DE GESTION COMMERCIALE FICHE 1 : LES MARGES Coût de revient du produit + Marge du fabricant = Prix de vente HT au distributeur Prix d'achat HT du distributeur + Marge du distributeur =

Plus en détail

Quelles sont les entreprises qui ont recours au commerce électronique?

Quelles sont les entreprises qui ont recours au commerce électronique? Nicolas POUSSING Anne-Sophie GENEVOIS octobre 2003 Quelles sont les entreprises qui ont recours au commerce électronique? Dans le cadre du projet «eeurope 2002», une enquête communautaire intitulée «E-commerce

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Tableau de bord des communautés de l Estrie DEUXIÈME ÉDITION INDICATEURS DÉMOGRAPHIQUES ET SOCIOÉCONOMIQUES

Tableau de bord des communautés de l Estrie DEUXIÈME ÉDITION INDICATEURS DÉMOGRAPHIQUES ET SOCIOÉCONOMIQUES Tableau de bord des communautés de l Estrie DEUXIÈME ÉDITION INDICATEURS DÉMOGRAPHIQUES ET SOCIOÉCONOMIQUES Communauté locale de la Vallée de la Missisquoi Nord MRC de Memphrémagog Ce que les chiffres

Plus en détail

Séance 11 : Typologies

Séance 11 : Typologies Séance 11 : Typologies Sommaire Proc CLUSTER : Typologie hiérarchique... 3 Proc FASTCLUS : Typologie nodale... 8 Proc MODECLUS : Typologie non paramétrique... 11 - Les phénomènes observés (attitudes, comportements,

Plus en détail

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014 n 26 mai 2014 Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 Sommaire 1.INTRODUCTION 4 2.LE MARCHÉ DE L ASSURANCE VIE INDIVIDUELLE 6 2.1.La bancassurance

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail