Projet OAD Crédit-Scoring Deutsche Bank

Dimension: px
Commencer à balayer dès la page:

Download "Projet OAD Crédit-Scoring Deutsche Bank"

Transcription

1 Année scolaire 2009/2010 Projet Modélisation de 3 ème année Projet OAD Crédit-Scoring Deutsche Bank Réalisé par : Guillaume BARANES-BERREBI Manon ROUSSEAU Sous la direction de Farid BENINEL Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 1

2 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 2

3 Sommaire INTRODUCTION 9 1. ANALYSE DESCRIPTIVE DES DONNEES DE LA BANQUE DESCRIPTION DE LA BASE DE DONNEES ANALYSE UNIVARIEE DES DONNEES ANALYSE BIVARIEE DES DONNEES CONSTRUCTION DU MODELE PAR UNE METHODE CLASSIQUE : LA REGRESSION LOGISTIQUE CONSTRUCTION DE LA BASE DONNEE SELECTION DES VARIABLES EXPLICATIVES PRESENTATION DU MODELE RETENU RESULTATS PERFORMANCE PERFECTIONNEMENT DU MODELE PAR DES METHODES AVANCEES METHODE DES FUSIONS DE CLASSIFIEURS BOOSTING SUR LA REGRESSION LOGISTIQUE 27 ANNEXES DESCRIPTIF DES VARIABLES DISPONIBLES TABLEAUX DE FREQUENCES DES VARIABLES : STATISTIQUES UNIVARIEES STATISTIQUES BIVARIEES CARACTERISATION DES VARIABLES QUALITATIVES ANALYSE BIVARIEE APPROFONDIE 38 4 RESULTATS DU PREMIER MODELE AVEC LES CHOMEURS 42 5 TEST D EGALITE DE MODALITES 43 6 PRESENTATION DES SEPT CLASSIFIEURS UTILISES 44 7 PERFORMANCE DE LA METHODE AVANCEE «BOOSTING» 46 8 PERFORMANCE DE LA METHODE AVANCEE «FUSIONS DE CLASSIFIEURS» 48 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 3

4 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 4

5 Table des illustrations TABLEAU 1: DETECTION DE VALEURS MANQUANTES OU ABERRANTES TABLEAU 2: ANALYSE BIVARIEE DES VARIABLES QUANTITATIVES TABLEAU 3: RESUME DE LA SELECTION FORWARD TABLEAU 4 : RESUME DE LA SELECTION BACKWARD TABLEAU 5: ESTIMATION DU MODELE PRENANT EN COMPTE LES CHOMEURS TABLEAU 6: ODDS RATIO DU MODELE PRENANT EN COMPTE LES CHOMEURS TABLEAU 7: ESTIMATION DU MODELE PRENANT SANS LES CHOMEURS(1/2) TABLEAU 8: ESTIMATION DU MODELE PRENANT SANS LES CHOMEURS (2/2) TABLEAU 9: SIGNIFICATIVITE DES VARIABLES EXPLICATIVES DU MODELE CLASSIQUE RETENU TABLEAU 10 : ESTIMATIONS DES COEFFICIENTS DES PARAMETRES DES VARIABLES EXPLICATIVES DU MODELE CLASSIQUE RETENU TABLEAU 11 : ODDS RATIO DU MODELE CLASSIQUE RETENU TABLEAU 12 : MATRICE DE CONFUSION 1 - MODELE CLASSIQUE RETENU TABLEAU 13 : MATRICE DE CONFUSION 2 - MODELE CLASSIQUE RETENU TABLEAU 14 : MATRICE DE CONFUSION - MODELE AVANCE : FUSION DE CLASSIFIEUR, METHODE DU MAX TABLEAU 15 : MATRICE DE CONFUSION - MODELE AVANCE : FUSION DE CLASSIFIEUR, METHODE DU MIN TABLEAU 16 : MATRICE DE CONFUSION - MODELE AVANCE : FUSION DE CLASSIFIEUR, METHODE DU MEAN TABLEAU 17 : MATRICE DE CONFUSION - MODELE AVANCE : BOOSTING, 5 BOUCLES.. 28 TABLEAU 18 : MATRICE DE CONFUSION - MODELE AVANCE : BOOSTING, 10 BOUCLES 29 TABLEAU 19 : DESCRIPTIF DES VARIABLES TABLEAU 20 : CARACTERISATION PAR VARIABLES QUALITATIVES (KREDIT = 0) TABLEAU 21 : CARACTERISATION PAR VARIABLES QUALITATIVES (KREDIT = 1) TABLEAU 22 : STATISTIQUES BIVARIEES : ETAT DU COMPTE DU CLIENT TABLEAU 23 : STATISTIQUES BIVARIEES : DUREE DU CREDIT TABLEAU 24 : STATISTIQUES BIVARIEES : OBJET DU CREDIT TABLEAU 25 : STATISTIQUES BIVARIEES : VALEUR DES RESSOURCES FINANCIERES TABLEAU 26 : STATISTIQUES BIVARIEES : STATUT PROFESSIONNEL TABLEAU 27 : STATISTIQUES BIVARIEES : STATUT MARITAL PAR SEXE TABLEAU 28 : STATISTIQUES BIVARIEES : NOMBRE DE PRECEDENTS CREDITS A LA BANQUE TABLEAU 29 : STATISTIQUES BIVARIEES : ACTIVITE PROFESIONNELLE TABLEAU 30 : STATISTIQUES BIVARIEES : COMPORTEMENT PASSE POUR REMBOURSER D AUTRES CREDITS TABLEAU 31 : RESULTATS DU PREMIER MODELE AVEC LES CHOMEURS TABLEAU 32 : TEST D EGALITE DE MODALITES POUR LA VARIABLE BESZEIT (STATUT PROFESSIONNEL)-1/ TABLEAU 33 : TEST D EGALITE DE MODALITES POUR LA VARIABLE BESZEIT (STATUT PROFESSIONNEL)-2/ TABLEAU 34 : CLASSIFIEUR TABLEAU 35 : CLASSIFIEUR TABLEAU 36 : CLASSIFIEUR TABLEAU 37 : CLASSIFIEUR TABLEAU 38 : CLASSIFIEUR TABLEAU 39 : CLASSIFIEUR Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 5

6 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 6

7 FIGURE 1: ETAT DU COMPTE DU CLIENT FIGURE 2: CARACTERISATION DE LA VARIABLE CIBLE PAR LES VARIABLES QUALITATIVES FIGURE 3: EVOLUTION DE LA PERFORMANCE DES MODELES SELON LES ETAPES DE LA SELECTION FORWARD FIGURE 4 : COURBE ROC DU MODELE CLASSIQUE RETENU FIGURE 5 : COURBE LIFT DU MODELE CLASSIQUE RETENU FIGURE 6 : DETECTION DU SEUIL POUR LE MODELE CLASSIQUE RETENU FIGURE 7 : PRINCIPE DU BOOSTING FIGURE 8 : COURBE ROC DU MODELE AVANCE : BOOSTING FIGURE 9 : COURBE LIFT DU MODELE AVANCE : BOOSTING FIGURE 10 : COURBE ROC DU MODELE AVANCE : FUSION DE CLASSIFIEURS, METHODE DU MAX FIGURE 11 : COURBE LIFT DU MODELE AVANCE : FUSION DE CLASSIFIEURS, METHODE DU MAX FIGURE 12 : COURBE ROC DU MODELE AVANCE : FUSION DE CLASSIFIEURS, METHODE DU MIN FIGURE 13 : COURBE LIFT DU MODELE AVANCE : FUSION DE CLASSIFIEURS, METHODE DU MIN FIGURE 14 : COURBE ROC DU MODELE AVANCE : FUSION DE CLASSIFIEURS, METHODE DU MEAN FIGURE 15 : COURBE ROC DU MODELE AVANCE : FUSION DE CLASSIFIEURS, METHODE DU MEAN Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 7

8 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 8

9 Introduction L objectif de notre projet est de trouver le meilleur modèle qui prédit si un client est digne de confiance pour lui accorder un crédit. Ce qui intéresse tout particulièrement un banquier est de connaitre le risque de son client à ne pas rembourser son crédit. Ainsi, tout au long de cette étude, nous prêterons une attention particulière aux taux de bien classés dans la classe des individus risqués et pas seulement au taux de bien classé global puisque ce sont particulièrement les clients non solvables qu il est primordial de cibler dans cette problématique. Pour cela nous comparerons trois méthodes de modélisation : une méthode traditionnelle et deux méthodes avancées. La méthode classique que nous avons utilisée est la régression logistique. Les deux méthodes avancées que nous avons mises en œuvre pour une potentielle amélioration de la précédante sont la fusion de classifieurs et le boosting. Nous allons ainsi voir dans quelle mesure il est possible de perfectionner une technique de modélisation classique telle que la régression logistique afin d obtenir une règle de décision plus performante. Après une brève description des données, nous élaborerons une régression logistique pour en étudier les performances. Nous nous attacherons par la suite à l étude des deux méthodes avancées mises en œuvre : la fusion de classifieurs et le boosting, pour en analyser l apport quant à l amélioration potentielle du modèle classique. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/2010 9

10 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

11 1. Analyse descriptive des données de la banque 1.1 Description de la base de données La base de données utilisée pour les modélisations comporte 719 lignes correspondant à des individus tous clients d une banque allemande. La variable cible à expliquer, «kredit», est binaire et codée 1 ou 0 selon respectivement que l individu est digne de confiance ou non pour l octroi d un crédit. On distingue 23% de clients qui sont risqués (kredit=0) et 77% des individus qui sont solvables (kredit=1). Pour la construction des modèles nous disposons d un ensemble de variables potentiellement explicatives dont la description est fournie en annexe 1. La plupart de ces variables sont qualitatives nominales comme le type de logement du client, ou ordinales comme le nombre d anciens crédits à la banque. Seules trois d entre elles sont quantitatives tel que l âge par exemple. 1.2 Analyse univariée des données La procédure means du logiciel SAS a l avantage de donner deux informations très importantes sur les données, à savoir si les variables explicatives contiennent des valeurs aberrantes ou manquantes. D après le tableau ci-dessous nous pouvons constater qu il n y a ni valeur aberrante ni valeur manquante dans nos données. Tableau 1: Détection de valeurs manquantes ou aberrantes Les clients constituant la base de données ont une moyenne d âge (alter) de 36 ans. Il s agit d adultes de 19 à 74 ans dont la moitié a plus de 33 ans. De plus, les montants de crédits demandés (hoehe) sont, en moyenne, de DM (Deutschemark) et s échelonnent de 250 DM à DM. La durée de crédit (laufzeit), quant à elle, est exprimée en mois et varie dans une fourchette allant de 4 mois à 6 ans. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

12 Par ailleurs, la grande majorité des individus a un compte courant depuis plus d un an ou a un solde créditeur de plus de 200 DM, comme présenté ci-dessous. Figure 1: Etat du compte du client De plus, comme indiqué en annexe 2, plus de trois-quarts des clients de la base de données n ont pas d autre crédit en cours et près d un-tiers ont comme objets de crédits l achat de voitures neuves ou d occasions. 1.3 Analyse bivariée des données Tableau 2: Analyse bivariée des variables quantitatives En comparant les deux tableaux ci-dessus nous pouvons déjà avoir une idée sur le pouvoir discriminant en termes de risques des variables quantitatives à disposition. L âge (alter) semble, en effet, ne pas différer entre la population d individus considérés comme digne de confiance pour l octroi d un crédit (kredit = 1) et ceux qui ne le sont pas (kredit = 0) : cette variable ne semble donc pas discriminer correctement les deux populations. En revanche, les variables mesurant la durée et le montant du crédit différent d un groupe à l autre. La population risquée a, en moyenne, un montant (hoehe) et une durée (laufzeit) de crédit plus élevés que les autres. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

13 Nous allons maintenant tenter d avoir une première idée sur le profil des clients risqués et, par la même, celui des clients solvables. Pour ce faire, nous avons fait une caractérisation de la variable cible kredit par les variables qualitatives. Figure 2: Caractérisation de la variable cible par les variables qualitatives Grâce à ce graphique, nous pouvons avoir une idée générale sur les caractéristiques sous et sur représentées pour le groupe des clients solvables et celui des non solvables. (Une analyse plus approfondie est faite en annexe 3) Par exemple, on note une dissymétrie flagrante entre les deux groupes sur le variable laufkont (l état du compte du client). Nous constatons, en effet, qu il y a une sur représentation des individus sans mouvement sur leur compte (laufkont = 2) parmi les clients non solvables alors que ces individus sont sous représentés au sein des clients sans risque. A l inverse, les clients avec plus de 200 DM sur leur compte ou ayant un compte courant depuis plus d un an (laufkont = 4) sont sur représentés parmi les individus solvables alors qu ils sont sous représentés parmi les individus risqués. Par ailleurs, cette dissymétrie continue avec les variables dhoehe (montant du crédit en deutschmarks mis en classe), beszeit (statut professionnel du client) et bmoral (comportement passé pour rembourser d autres crédits). En effet, il y a, sans surprise, une sur représentation des individus ayant eu des problèmes dans le passé pour rembourser leurs crédits (bmoral = 0) et une sous représentation de ceux n ayant pas eu de problème particulier parmi les clients non solvables. La situation est totalement opposée pour les clients considérés comme non risqués. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

14 2. Construction du modèle par une méthode classique : la régression logistique 2.1 Construction de la base donnée Les probabilités a priori des deux modalités de la variable kredit sont structurellement très déséquilibrées. Ainsi, pour avoir une estimation efficace du modèle logit, l échantillon est obtenu (contenant les clients et les non clients de la banque) selon un plan de sondage stratifié (300 réponses kredit = 0 et 700 réponses kredit =1). Une fois cet échantillonnage réalisé, nous ne sélectionnons que les individus clients de la banque, soit 719 personnes avec la même répartition de la variable kredit que dans la base initiale. Enfin, un second, également stratifié selon la variable kredit, est fait de manière à avoir un échantillon d apprentissage (70%) et un échantillon test (30%). 2.2 Sélection des variables explicatives La première étape fut de mettre toutes les variables, quantitatives comme qualitatives, dans une procédure de sélection forward à un seuil de 100% avec un maximum de 10 étapes pour avoir une première idée sur les variables explicatives en mettant en fin de listes les variables corrélées à ces dernières. Le tableau ci-dessous résume les étapes de cette procédure. Summary of Forward Selection Step Effect Entered DF Score Chi-Square Pr > ChiSq 1 laufkont < hoehe < bmoral verw beszeit sparkont_bis laufzeit buerge wohnzeit_bis dalter_bis Tableau 3: Résumé de la sélection forward Afin d avoir savoir le nombre optimal de variables à conserver à l issue de la sélection forward, nous avons représenté, grâce au graphique ci-après, l évolution des indicateurs de performance des différents modèles créés en fonction des étapes de la sélection forward, c'est-à-dire en d autres termes, en fonction des variables présentent dans le modèle. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

15 Figure 3: Evolution de la performance des modèles selon les étapes de la sélection forward Nous pouvons alors constater que plusieurs modèles sont possibles en regardant les sauts dans l évolution des performances : - Le premier avec 3 variables : laufkont, hoehe et bmoral. - Le deuxième avec 4 variables : laufkont, hoehe,bmoral et verw. - Le troisième avec 6 variables : laufkont, hoehe,bmoral, verw, beszeit et sparkont_bis. Afin de s assurer de la pertinence de ces variables en terme de discrimination par rapport au risque, nous soumettons toutes celles significatives à 5% lors de la sélection forward à une sélection backward. L idée de cette démarche est de voir quelles sont les variables les plus discriminantes en termes de risque et d éviter les redondances. En effet, les variables corrélées aux variables les plus discriminantes ne seront pas retenues (là est l avantage sur la méthode de sélection stepwise). Le tableau ci-dessous liste les variables éliminées lors de la sélection backward à un seuil de 5%. Summary of Backward Elimination Step Effect Removed DF Wald Chi-Square Pr > ChiSq 1 wohnzeit_bis laufzeit buerge Tableau 4 : Résumé de la sélection backward Ainsi, nous pouvons constater que 3 variables ont été exclues. La variable laufzeit, par exemple, a été supprimée car elle est corrélée à la variable hoehe à 64,72% et est moins discriminante que cette dernière en termes de risque. Il est à noter que les 3 variables éliminées ne font pas partie des 3 modèles préalablement retenus. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

16 Nous avons testé différents modèles à partir des variables précédemment retenues. Le plus performant est celui présenté en annexe 4 et analysé ci-après. Cependant ce modèle n a pas été retenu car quelques modifications ont été faites en prenant en compte l aspect «métier» du problème, non encore étudié jusqu ici. Le modèle retenu fournit, entre autres, les résultat suivants : Chômeurs Salariés depuis plus de 4 ou 7 ans Tableau 5: Estimation du modèle prenant en compte les chômeurs Note : la modalité des clients salariés depuis plus de 7 ans (beszeit = 5) est prise en référence. Les chômeurs (beszeit = 1) ont un coefficient estimé plus faible que les individus salariés depuis plusieurs années. Puisque c est l événement d être risqué (kredit = 0) qui est modélisé ici, cela signifierait que les chômeurs sont plus solvables que les salariés Tableau 6: Odds Ratio du modèle prenant en compte les chômeurs Note : ici aussi, à la vue de l Odds Ratio des chômeurs contre les salariés de longue date, nous concluons à une meilleure solvabilité des chômeurs. Ainsi, le problème ici est que, aux vues des coefficients estimé et des Odd Ratios, les chômeurs (beszeit = 1) semblent moins risqués que les clients travaillant depuis plus de 7 ans (beszeit = 5). Notre première idée fut de regrouper ces deux modalités, d'autant plus qu'un test d'égalité de ces dernières s'est avéré accepté (cf. annexe 5). Cependant, nous avons préféré supprimer les chômeurs de la base de données qui n étaient seulement que 40. Le regroupement n aurait pas eu de sens économique dans la mesure où les Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

17 raisons pour lesquelles ces deux groupes d individus sont a priori peu risqués sont différentes. En effet, les clients salariés depuis quelques années sont solvables puisqu ils justifient d une sécurité économique réelle du fait de leur emploi. En revanche, l explication est toute autre pour les chômeurs à qui, en général, on n accorde pas de prêt, ils n ont alors pas de problème de remboursement de crédit. Une fois les chômeurs supprimés de la base de données, nous avons obtenu les résultats de modélisation suivants : Tableau 7: Estimation du modèle prenant sans les chômeurs(1/2) Le coefficient de la variable beszeit (statut professionnel du client) n est pas significatif au seuil de 5%. Par ailleurs, nous avons détecté un autre problème quant au coefficient estimé de la modalité 4 de la variable beszeit (salariés ayant une ancienneté comprise entre 4 et 7 ans). En effet, ce coefficient est plus faible que celui du groupe d individus travaillant depuis plus de 7 ans comme indiqué cidessous. Tableau 8: Estimation du modèle prenant sans les chômeurs (2/2) Cela voudrait dire que les salariés d une ancienneté comprise entre 4 et 7 ans seraient moins risqués que ceux travaillant depuis plus de 7 ans. D un point de vue «métier», considérer de jeunes salariés comme moins risqués que des salariés de longue date n a pas de sens économique. Un banquier n accorderait pas plus de confiance à un individu au début de sa carrière professionnelle qu à un salarié confirmé, bien au contraire. Nous avons donc testé si ces deux modalités étaient semblables en termes de risque (cf. annexe 5), ce qui fut le cas. Ainsi, nous les avons regroupées en considérant qu à partir de 4 ans d ancienneté, les salariés ont tous les mêmes chances d être solvables. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

18 2.3 Présentation du modèle retenu Résultats Le modèle sélectionné comporte quatre variables (listées ci-dessous) dont une seule est quantitative, les trois autres étant qualitatives. - hoehe : le montant du crédit en deutschmarks - laufkont : l état du compte du client o modalité 2 : absence de mouvement sur le compte o modalité 3 : compte créditeur de moins de 200 DM o modalité 4 : compte créditeur de plus de 200 DM ou compte courant de plus d un an - bmoral : comportement passé pour rembourser d autres crédits o modalité 0 : paiement difficile des crédits antérieurs ou comptabilité problématique ou autres crédits extérieurs à la banque o modalité 1 : pas de crédit antérieur ou crédits antérieurs remboursés ou aucun problème de crédits courants ou crédits passés à cette banque remboursés - beszeit_bis : le statut professionnel du client comme décrit ci-dessus, i.e. : o modalité 2 : clients salariés depuis moins d un an o modalité 3 : ancienneté comprise entre 1 et 4 ans o modalité 145 : ancienneté supérieure à 4 ans Il est à noter que les variables retenues ici ont déjà été mises en évidence lors de la caractérisation de la variable cible dans la partie 1.3 Analyse bivariée des données. Tous les coefficients estimés sont significativement différents de zéro, même ceux des modalités des variables qualitatives. Cela qui signifie qu aucun autre regroupement de modalités n est nécessaire. Les estimations sont décrites dans les tableaux ci-après. Tableau 9: Significativité des variables explicatives du modèle classique retenu Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

19 Tableau 10 : Estimations des coefficients des paramètres des variables explicatives du modèle classique retenu Pour l estimation des paramètres, pour chaque variable explicative, une modalité a été prise en référence. Ainsi, il est facile de comparer l effet d une modalité sur la prédiction du risque par rapport à une autre (pour la même variable). Par exemple, pour la variable reflétant l état du compte du client (laufkont), il est clair que plus ce compte est faiblement créditeur, plus le client est risqué, ce qui est logique d un point de vue métier. Ainsi, nous pouvons noter que tous les coefficients estimés ont un sens économique s avérant vrai dans la réalité. Ceci est confirmé par les Odds Ratio présentés ci-après : Tableau 11 : Odds Ratio du modèle classique retenu Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

20 2.3.2 Performance - La courbe roc Pour juger de la performance d un modèle, plusieurs indicateurs existent, telle que la courbe roc présentée ci-dessous. Tous les indicateurs de performance présentés dans cette étude ont été calculés sur l échantillon test, correspondant à 30% de notre base de départ comme expliqué au point 2.1 Construction de la base de données. Figure 4 : Courbe Roc du modèle classique retenu Plus l aire sous la courbe est élevée (proche de 1), plus le modèle est performant. Dans le cas du modèle étudié ici, l air sous la courbe roc pour l échantillon test est de 0,76, ce qui est tout à fait convenable. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

21 - La courbe lift Un autre indicateur de performance est la courbe lift qui nous donne une indication sur la qualité globale du modèle. Plus la courbe correspondant à notre modèle (courbe noire sur le graphique cidessous) est proche de celle du modèle parfait (courbe rouge), mieux c est. La courbe verte correspond au modèle aléatoire qui affecterait avec une probabilité de 50 % un individu dans une des deux classes. Figure 5 : Courbe Lift du modèle classique retenu La courbe lift de notre modèle est assez bien : 20 % des scores les plus élevés (i.e 20 % des clients les plus risqués) captent plus de 40 % des individus effectivement non solvables. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

22 - Le taux de bien classés La dernière étape de la construction d un modèle de score est la détermination du seuil d affectation à la classe prédite. Il s agit de choisir un seuil qui soit un compromis entre tous les objectifs : - Sensibilité : taux de bien classés dans la classe d intérêt (ici kredit = 0) - Spécificité : taux de bien classés dans l autre classe (ici kredit = 1) - Taux de bien classés global Pour avoir une idée précise du seuil à utiliser, nous avons tracé les densités des deux modalités de la variable prédite de «kredit». Figure 6 : Détection du seuil pour le modèle classique retenu Après différents essais de seuil, nous avons hésité entre deux. Le premier retenu est celui à 0,22 (soit 22%). C'est-à-dire qu à partir d une probabilité d appartenir aux individus risqués («kredit» = 0) supérieure à 22 %, le client est classés dans la classe des clients non solvables. Avec ce seuil, nous obtenons les résultats suivants : Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

23 Tableau 12 : Matrice de confusion 1 - modèle classique retenu Ici le taux de bien classé global est de 72,42%. En revanche, il serait judicieux de trouver un seuil qui permette d avoir un taux de bien classés dans la classe des individus risqués (ce que l on cherche à prédire) au moins équivalent à celui des individus solvables. Nous avons donc plutôt retenu un seuil à 0,21 nous donnant les résultats cidessous. Tableau 13 : Matrice de confusion 2 - modèle classique retenu Ici nous admettons une légère baisse du taux de bien classés global en contrepartie d une augmentation de ce dernier dans la classe qui intéresse tout particulièrement un banquier lorsqu il s apprête à prêter de l argent à un client, à savoir si cet individu est risqué. Ainsi, nous obtenons un taux de bien classés global de 71,43%. De plus, plus de 71% des individus sont correctement prédits comme risqués, contre seulement 66% avec le seuil précédant. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

24 3. Perfectionnement du modèle par des méthodes avancées 3.1 Méthode des fusions de classifieurs Principe Le principe de la méthode proposée est d utiliser les réponses des différents classifieurs. De ce fait, la méthode se veut générale et applicable à tout type de classifieurs. La démarche de cette méthode se déroule de la façon suivante : - d abord on décompose notre espace des individus en sous espace de compétence d un des L classifieurs (étape dite de sélection) - puis on choisit une règle de «choix social» afin de trouver un compromis entre toutes les décisions des classifieurs (étape dite de la fusion). Les classifieurs retenus dans notre étude sont au nombre de sept et sont des modèles de régression logistique. Cette méthode est la référence et nous assure une précision locale. De cette combinaison de décision émerge un classifieur consensus pour chaque classe j : Ce dernier est basé selon le critère de «choix social» qui peut-être le minimum, le maximum ou le produit, d une classe sur l ensemble des classifieurs. L échantillon d apprentissage est alors partitionné en fonction des classes d appartenance : Enfin, une mesure de similarité pour chaque classe j, affecte l observation i à la classe la plus proche. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

25 Résultats L ensemble des sept classifieurs utilisés sont des modèles de régression logistique dont toutes les variables ont des coefficients significativement différents de zéro, comme indiqué en annexe 6. Nous avons testé plusieurs méthodes en considérant le maximum des maximums, des minimums et des moyennes des probabilités prédites par les différents classifieurs utilisés. Les différents résultats en termes de taux de biens classés 1 sont présentés ci-après, les autres indicateurs de performance étant détaillés en annexe 7. Méthode 1 : par le maximum Tableau 14 : Matrice de confusion - modèle avancé : fusion de classifieur, méthode du max Les résultats obtenus avec cette méthode sont globalement meilleurs qu avec une régression logistique simple. Le taux de bien classés global est de 71,92 %. En revanche, si l on devait choisir entre deux modèles, nous opterions pour celui construit avec la méthode simple qui présente l avantage de fournir un meilleur taux de bien classés dans la modalité qui intéresse un banquier : les individus risqués. En effet, le taux de bien classés dans cette classe est de 66,67 % alors qu il était de 71,11 % avec la méthode simple. Cette perte ne compense pas le gain de taux de bien classés global. 1 Les seuils considérés sont les seuils optimaux en terme de taux de biens classés. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

26 Méthode 2 : par le minimum Tableau 15 : Matrice de confusion - modèle avancé : fusion de classifieur, méthode du min La situation est ici identique à celle présentée précédemment. Le taux de bien classés global est meilleur que celui obtenu par la méthode simple. Néanmoins, la baisse de 9 points du taux de biens classés dans la classe des individus risqués ne compense pas cette légère amélioration du taux de biens classés global. Méthode 3 : par la moyenne Tableau 16 : Matrice de confusion - modèle avancé : fusion de classifieur, méthode du mean Ici le modèle a été nettement amélioré aux vues du taux de bien classés global qui passe de 71,43 % avec la méthode simple à 72,90 %. Le taux de bien classés dans la classe d intérêt, quant à lui reste identique à celui obtenu avec la méthode simple (71,11 %). Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

27 Conclusion pour la fusion de classifieurs Nous pouvons dire que la méthode des fusions de classifieurs est, dans notre cas meilleur qu une régression logistique lorsque l on considère la moyenne des scores obtenus par l ensemble des classifieurs considérés. 3.2 Boosting sur la régression logistique Principe Le boosting est un processus itératif, déterministe et adaptatif se déroulant de la manière suivante : Figure 7 : Principe du boosting Chaque modèle est construit à partir de l échantillon initial à la nuance près que le nouveau modèle de l étape i est une version adaptée du précédent en affectant un poids plus important aux individus mal classés à l itération précédente. A la fin des n itérations, l agrégation finale du classificateur global consiste à faire une moyenne de tous les modèles pondérés par leur qualité d ajustement. Mise en garde : La sensibilité de la méthode au bruit et aux outliers, peut entrainer une augmentation de l erreur avec le nombre de boucles. Le boosting peut diminuer la variance et le biais du classifieur de base. Cependant, si le classifieur de base est stable, la variance peut augmenter (c est le cas pour la régression logistique). Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

28 Résultats Les résultats présentés ici sont les taux de biens classés obtenus (pour une présentation plus détaillée, se référer à l annexe 7). Ces taux sont calculés à partir de l échantillon test de 202 observations. Boosting avec 5 boucles : On obtient, avec un seuil de 0,45 (le meilleur trouvé), un taux de bien classés de 66%, une senibilité de 61% et une spécificité de 68%. Ce modèle est assez équilibré et peut être intéressant mais il est moins performant que celui obtenu avec la régression logistique simple. Tableau 17 : Matrice de confusion - modèle avancé : boosting, 5 boucles Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

29 Boosting avec 10 boucles : On obtient 65% de biens classés au global, une sensibilité de 59% et une spécificité de 67%. Tableau 18 : Matrice de confusion - modèle avancé : boosting, 10 boucles Ce modèle est encore moins bon que celui boosté avec 5 boucles : un nombre de boucles augmenté n aboutit pas forcement à de résultats plus probant comme l illustre nos résultats. Conclusion pour le boosting Nous obtenons des résultats moins bons pour le boosting que pour une simple régression logistque. Ce phénomène a été souligné par Stéphane Tuffery dans son livre Datamining et statistique décisionnelle (2007). Selon lui, l apport de la technique de type boosting est limité pour la régression logistique. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

30 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

31 Conclusion Notre étude sur les données de la Deutsche Bank nous amène à conclure que les méthodes d apprentissage avancées n améliorent pas toujours la performance d une méthode classique telle que la régression logistique. L échec du Boosting était prévisible au regard de la littérature existante sur le sujet. En effet, l idée selon laquelle davantage de complexité dans la construction d un modèle augmenterait la performance de ce dernier n est pas vérifiée ici. L efficacité de prédiction d une simple régression logistique est supérieure à celle d une régression logistique boostée. Cependant, il faut souligner que c est la méthode de fusion de classifieurs qui donne les meilleurs résultats entre les trois testées en considérant le maximum des moyennes de chaque classifieur utilisé. Dans notre cadre d étude, notre évaluation des performances est basée sur deux éléments : le plus haut taux de bien classé global et une détection fiable des clients défaillants. Le premier élément était une condition préalable pour commencer à s intéresser aux clients défaillants. Une extension de notre étude serait de mieux classer les clients risqués dans l absolu, mais aussi relativement aux clients solvables. En effet, aux vues des matrices de confusion des différentes méthodes de classement, nous remarquons que, d une manière générale, les clients solvables sont proportionnellement mieux classés que les individus risqués. Inverser cette tendance en ayant une sensibilité supérieure à la spécificité serait donc une piste d amélioration de notre étude de manière à de favoriser encore plus la détection des clients non solvables. Ainsi, alors que dans notre étude la matrice de coût de mauvais classement est uniforme quelque soit la classe du client, il serait judicieux de la rendre différente selon la classe afin de favoriser la détection des mauvais clients. Concernant la recherche demandée sur la dispersion, voici où nos recherches aboutissent: les solutions des problèmes de sur-dispersion et de sous-dispersion consistent à changer de loi (binomiale négative, binomiale), par conséquent elles sont incompatibles avec une régression de loi logistique. En outre, si l on s intéresse à la correction de la dispersion nous ne pourrons plus faire des raisonnements toutes choses égales par ailleurs avec le cœur de notre sujet qui est la régression logistique. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

32 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

33 Annexes 1. Descriptif des variables disponibles Tableau 19 : Descriptif des variables Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

34 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

35 2. Tableaux de fréquences des variables : statistiques univariées Objet du crédit : Voitures neuves et d occasion verw Frequency Percent Cumulative Frequency Cumulative Percent Près d un-tiers des clients de la base de données ont comme objets de crédits l achat de voitures neuves ou d occasions. Autres crédit en cours : Aucun weitkred Frequency Percent Cumulative Frequency Cumulative Percent Plus de trois-quarts des clients de la base de données n ont pas d autre crédit en cours. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

36 3. Statistiques bivariées 3.1 Caractérisation des variables qualitatives Caractérisation des individus non solvables (kredit = 0). Tableau 20 : Caractérisation par variables qualitatives (kredit = 0) Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

37 Caractérisation des individus solvables (kredit = 1). Tableau 21 : Caractérisation par variables qualitatives (kredit = 1) Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

38 3.2 Analyse bivariée approfondie Note : Les tableaux ci-dessous comportent l effectif et le pourcentage colonne. Etat du compte du client : laufkont Tableau 22 : Statistiques bivariées : Etat du compte du client On remarque que les clients avec un compte courant bien approvisionné concernent majoritairement (88,21 %) les clients solvables La durée du crédit : dlaufzeit Tableau 23 : Statistiques bivariées : Durée du crédit La majorité des clients ont des crédits inférieurs à 24 mois. Les plus risqués empruntent pour une durée supérieure à 42 mois. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

39 L objet du crédit : verw Tableau 24 : Statistiques bivariées : Objet du crédit Parmi les personnes ayant achetées des voitures neuves ou d occasion, la majorité est solvable. Valeur des ressources financières du client : sparkont Tableau 25 : Statistiques bivariées : Valeur des ressources financières La majorité des demandeurs de crédits n ont pas d économies. C est donc par nécessité qu ils empruntent. La défaillance de mensualité concerne presque 30 % des individus qui ont moins de 100 DM d économies ou pas du tout contre environ 15 % pour ceux qui ont plus d économie. Ceux qui ont de petites économies, en l occurrence inférieures à 100 DM, sont les plus défaillants peut être parce que ces derniers prennent un risque important en n ayant pas assez d argent de coté pour les couvrir. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

40 Statut professionnel du client (stabilité dans l emploi) : beszeit Tableau 26 : Statistiques bivariées : Statut Professionnel Un peu plus du tiers (34%) des clients de la base ont un emploi plutôt récent c'est-à-dire entre 1 et 4 ans. Un quart ont un emploi depuis longtemps (supérieur à 7 ans). Les plus fragiles dans les paiements sont les chômeurs et les salariés depuis moins d un an. La stabilité de l emploi semble aller de concert avec le payement des mensualités. Statut marital par sexe : Famges Tableau 27 : Statistiques bivariées : Statut Marital par Sexe On note une majorité d hommes dans la base de données. Les plus risqués sont les hommes divorcés vivant dans un appartement puisqu un tiers d entre eux ne sont pas solvables. A contrario, le statut de célibataire signifie moins de contraintes de dépenses et donc un respect des engagements plus faciles pour les deux sexes. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

41 Nombre de précédents crédits à la banque : bishkred Tableau 28 : Statistiques bivariées : Nombre de précédents crédits à la banque Une assez forte majorité des clients n ont jamais eu de crédit à cette banque. Les défaillants en remboursement ont eu moins de 2 crédits précédemment. Le nombre qui a eu au moins 5 crédit est difficile à interpréter vu l effectif restreint. Activité professionnelle : beruf Tableau 29 : Statistiques bivariées : Activité Profesionnelle Une forte majorité des clients (63%) sont des salariés ou des fonctionnaires ce qui est plutôt représentatif de la population allemande. Les plus gros défaillants sont les cadre et patrons surement parce qu ils achètent des produits plus chers et sont surpris par leurs difficultés à rembourser. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

42 Comportement passé pour rembourser d autres crédits : bmoral Tableau 30 : Statistiques bivariées : Comportement passé pour rembourser d autres crédits Les clients de la banque ne sont pratiquement composés que de clients n ayant jamais eu de difficultés antérieurs dans les remboursements. Ces derniers englobent à la fois ce qui ont remboursés les crédits et ceux qui n en avaient pas encore. Comme l on pouvait le pressentir les difficultés passés annoncent un non-paiement des mensualités dans la moitié des cas. 4 Résultats du premier modèle avec les chômeurs Tableau 31 : Résultats du premier modèle avec les chômeurs Note : les coefficients des variables explicatives sont significativement différents de zéro. Cependant, les chômeurs sont moins risqués que les salariés de longue date. Nous décidons donc de supprimer les 40 chômeurs de la base de données. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

43 5 Test d égalité de modalités - Variable beszeit (statut professionnel du client), modalités 1 (chômeurs) et 5 (salarié depuis plus de 7 ans) Tableau 32 : Test d égalité de modalités pour la variable beszeit (statut professionnel)-1/2 Note : les modalités 1 (chômeurs) et 5 (salariés depuis plus de 7 ans) de la variable beszeit (statut professionnel du client) ne sont pas significativement différentes visà-vis du risque (p-value très élevée : on accepte H0 d égalité des modalités). Ce test permet de tester l'égalité des modalités deux à deux. Il s agit d un test d égalité de moyenne. Il est réalisé grâce à une option de la procédure GENMOD de SAS : PROC GENMOD DATA=oad.traintest DESC ; CLASS laufkont bmoral beszeit / PARAM=GLM ; MODEL y = laufkont hoehe bmoral beszeit / LINK=LOGIT DIST=BINOMIAL ; LSMEANS beszeit / DIFF ; RUN ; Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

44 - Variable beszeit (statut professionnel du client), modalités 4 (salarié avec une ancienneté de 4 à 7 ans) et 5 (salarié depuis plus de 7 ans) Tableau 33 : Test d égalité de modalités pour la variable beszeit (statut professionnel)-2/2 Note : les modalités 4 (salariés ayant une ancienneté comprise entre 4 et 7 ans) et 5 (salariés depuis plus de 7 ans) de la variable beszeit (statut professionnel du client) ne sont pas significativement différentes vis-à-vis du risque (p-value très élevée : on accepte H0 d égalité des modalités). 6 Présentation des sept classifieurs utilisés - Classifieur 1 Tableau 34 : Classifieur 1 - Classifieur 2 Tableau 35 : Classifieur 2 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

45 - Classifieur 3 Tableau 36 : Classifieur 3 - Classifieur 4 Tableau 37 : Classifieur 4 - Classifieur 5 Tableau 38 : Classifieur 5 - Classifieur 6 Tableau 39 : Classifieur 6 Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

46 7 Performance de la méthode avancée «boosting» Courbe ROC : Figure 8 : Courbe ROC du modèle avancé : boosting D une manière générale, la régression sans boosting est meilleure que celles soumises à un boosting. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

47 Courbe Lift : Figure 9 : Courbe Lift du modèle avancé : boosting Nous pouvons remarquer la proximité des courbes lift des régressions boostées avec la doite «baseline» qui n est autre que la droite représentant un classement aléatoire de nos clients vis-à-vis de leur solvabilité. Ceci dénote des résultats peu performants. Si l on sélectionne les 50% des clients les plus risqués nous obtenons, dans le meilleur des cas avec la régression logistique simple, environ 57% des clients non-aptes au crédit. Cette performance est peu satisfaisante pour un score de risque de crédit car elle est trop proche du résultat aléatoire qui donnerait 50%. Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

48 8 Performance de la méthode avancée «fusions de classifieurs» - Méthode 1 : par le maximum Courbe Roc : (aire sous la courbe : 0,74) Figure 10 : Courbe Roc du modèle avancé : fusion de classifieurs, méthode du max Courbe Lift : Figure 11 : Courbe Lift du modèle avancé : fusion de classifieurs, méthode du max Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

49 - Méthode 2 : par le minimum Courbe Roc : (aire sous la courbe : 0,75) Figure 12 : Courbe Roc du modèle avancé : fusion de classifieurs, méthode du min Courbe Lift : Figure 13 : Courbe Lift du modèle avancé : fusion de classifieurs, méthode du min Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

50 - Méthode 3 : par la moyenne Courbe Roc : (aire sous la courbe : 0,75) Figure 14 : Courbe Roc du modèle avancé : fusion de classifieurs, méthode du mean Courbe Lift : Figure 15 : Courbe Roc du modèle avancé : fusion de classifieurs, méthode du mean Guillaume BARANES-BERREBI Manon ROUSSEAU Projet OAD 2009/

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» 46, rue de la Tour 75116 Paris tél. (33) 01 73 00 55 00 fax (33) 01 73 00 55 01 www.softcomputing.com Sommaire

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Quelles sont les entreprises qui ont recours au commerce électronique?

Quelles sont les entreprises qui ont recours au commerce électronique? Nicolas POUSSING Anne-Sophie GENEVOIS octobre 2003 Quelles sont les entreprises qui ont recours au commerce électronique? Dans le cadre du projet «eeurope 2002», une enquête communautaire intitulée «E-commerce

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées : a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

Why Software Projects Escalate: The Importance of Project Management Constructs

Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

éclairages QUI SONT LES ALLOCATAIRES INDEMNISÉS PAR L ASSURANCE CHÔMAGE? Près de 3 demandeurs d emploi sur 5 sont couverts par l Assurance chômage

éclairages QUI SONT LES ALLOCATAIRES INDEMNISÉS PAR L ASSURANCE CHÔMAGE? Près de 3 demandeurs d emploi sur 5 sont couverts par l Assurance chômage éclairages ÉTUDES ET ANALYSES N 5 AVRIL 213 QUI SONT LES ALLOCATAIRES INDEMNISÉS PAR L ASSURANCE CHÔMAGE? L Unédic a réalisé une étude pour approfondir la compréhension de la population des allocataires

Plus en détail

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar Florence Arestoff Baptiste Venet 1 Introduction : contexte du contrat de recherche Ce contrat de recherche fait suite

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Le montant des garanties constituées aux fins du STPGV est-il excessif?

Le montant des garanties constituées aux fins du STPGV est-il excessif? Le montant des garanties constituées aux fins du STPGV est-il excessif? Kim McPhail et Anastasia Vakos* L e système canadien de transfert des paiements de grande valeur (STPGV) sert à effectuer les paiements

Plus en détail

Le scoring est-il la nouvelle révolution du microcrédit?

Le scoring est-il la nouvelle révolution du microcrédit? Retour au sommaire Le scoring est-il la nouvelle révolution du microcrédit? BIM n 32-01 octobre 2002 Frédéric DE SOUSA-SANTOS Le BIM de cette semaine se propose de vous présenter un ouvrage de Mark Schreiner

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. Synthèse des travaux réalisés 1. Problématique La question D7 du plan d exécution du Programme National de Recherches

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

www.styleanalytics.com

www.styleanalytics.com www.styleanalytics.com Style Analytics EuroPerformance a le plaisir de vous présenter Style Analytics, outil de mesure des risques et de la performance des fonds d investissement. Style Analytics offre

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Le parcours professionnel des chômeurs de longue durée en Suisse

Le parcours professionnel des chômeurs de longue durée en Suisse Le parcours professionnel des chômeurs de longue durée en Suisse Cet article présente les premiers résultats d un projet de recherche qui étudie le parcours professionnel de personnes confrontées au chômage

Plus en détail

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine Mortalité observée et mortalité attendue au cours de la vague de chaleur de uillet en France métropolitaine FOUILLET A 1, REY G 1, JOUGLA E, HÉMON D 1 1 Inserm, U75, Villeuif, France. Inserm CépiDc, IFR9,

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

LES FRANÇAIS ET LA COMPLEMENTAIRE SANTE

LES FRANÇAIS ET LA COMPLEMENTAIRE SANTE Centre de Recherche pour l Etude et l Observation des Conditions de Vie LES FRANÇAIS ET LA COMPLEMENTAIRE SANTE Anne LOONES Marie-Odile SIMON Août 2004 Département «Evaluation des Politiques Sociales»

Plus en détail

Document d orientation sur les allégations issues d essais de non-infériorité

Document d orientation sur les allégations issues d essais de non-infériorité Document d orientation sur les allégations issues d essais de non-infériorité Février 2013 1 Liste de contrôle des essais de non-infériorité N o Liste de contrôle (les clients peuvent se servir de cette

Plus en détail

Examen de Logiciels Statistiques

Examen de Logiciels Statistiques G. Hunault Angers, mai 2011 Licence MEF Examen de Logiciels Statistiques On s intéresse ici au dossier EAEF01 qui contient un extrait des données du recensement américain. On trouvera ces données et leur

Plus en détail

SOMMAIRE INTRODUCTION... 3

SOMMAIRE INTRODUCTION... 3 SOMMAIRE INTRODUCTION... 3 I - PRESENTATION DE L ENQUETE... 5 A - OBJECTIFS DE L ENQUETE...5 B - CHAMP DE L ENQUETE...5 C - DETERMINATION DES «GROUPES» DE SOCIETES...6 II - VUE D ENSEMBLE DES CESSIONS...

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

Associations Dossiers pratiques

Associations Dossiers pratiques Associations Dossiers pratiques Le tableau de bord, outil de pilotage de l association (Dossier réalisé par Laurent Simo, In Extenso Rhône-Alpes) Difficile d imaginer la conduite d un bateau sans boussole

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Les Français et les nuisances sonores. Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie

Les Français et les nuisances sonores. Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie Les Français et les nuisances sonores Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie RB/MCP N 112427 Contacts Ifop : Romain Bendavid / Marion Chasles-Parot Département Opinion

Plus en détail

Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures?

Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures? Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures? Benoît Pagès 1, Valérie Leveau 1 1 ARVALIS Institut du

Plus en détail

Brock. Rapport supérieur

Brock. Rapport supérieur Simplification du processus de demande d aide financière dans les établissementss : Étude de cas à l Université Brock Rapport préparé par Higher Education Strategy Associates et Canadian Education Project

Plus en détail

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE Par Fatoumata A dite Woybi Touré 11135079 Science de la gestion (Ingénierie financière) Projet supervisé présenté en vue de

Plus en détail

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1 Table des matières PARTIE 1 1. Résumé

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

Étude auprès de la génération X. Le paiement virtuel et la gestion des finances personnelles

Étude auprès de la génération X. Le paiement virtuel et la gestion des finances personnelles Étude auprès de la génération X Le paiement virtuel et la gestion des finances Rapport Présenté à Madame Martine Robergeau Agente de Développement et des Communications 11 octobre 2011 Réf. : 1855_201109/EL/cp

Plus en détail

Conseil économique et social

Conseil économique et social NATIONS UNIES E Conseil économique et social Distr. GÉNÉRALE ECE/CES/GE.20/2008/3 12 février 2008 FRANÇAIS Original: ANGLAIS COMMISSION ÉCONOMIQUE POUR L EUROPE CONFÉRENCE DES STATISTICIENS EUROPÉENS Réunion

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Étude des comportements de sécurité routière des propriétaires, exploitants et conducteurs des véhicules lourds au Québec

Étude des comportements de sécurité routière des propriétaires, exploitants et conducteurs des véhicules lourds au Québec Étude des comportements de sécurité routière des propriétaires, exploitants et conducteurs des véhicules lourds au Québec Georges Dionne, HEC Montréal Jean-François Angers, Université de Montréal Denise

Plus en détail

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» Centre de recherche en démographie et sociétés UCL/IACCHOS/DEMO Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» 1 2 3+ analyses univariées Type de variables

Plus en détail

Burkina Faso Profil pays EPT 2014

Burkina Faso Profil pays EPT 2014 Burkina Faso Profil pays EPT 14 Contexte général Situé au cœur de l Afrique occidentale, dans la boucle du Niger, le Burkina Faso est l un pays des pays les plus peuplés de la sous-région Ouest-africaine

Plus en détail

REFORME DU CREDIT A LA CONSOMMATION DECRET SUR LE REMBOURSEMENT MINIMAL DU CAPITAL POUR LES CREDITS RENOUVELABLES

REFORME DU CREDIT A LA CONSOMMATION DECRET SUR LE REMBOURSEMENT MINIMAL DU CAPITAL POUR LES CREDITS RENOUVELABLES REFORME DU CREDIT A LA CONSOMMATION DECRET SUR LE REMBOURSEMENT MINIMAL DU CAPITAL POUR LES CREDITS RENOUVELABLES DOSSIER DE PRESSE FICHE 1 Une réforme pour réduire le coût des crédits renouvelables et

Plus en détail

note d Temps de travail des enseignants du second degré public : pour une heure de cours, une heure de travail en dehors 13.13

note d Temps de travail des enseignants du second degré public : pour une heure de cours, une heure de travail en dehors 13.13 note d informationjuillet 13.13 Les enseignants du second degré public à temps complet ont déclaré, en moyenne, exercer 41 heures de travail par semaine dont la moitié avec les élèves, principalement en

Plus en détail

LES CONDITIONS D ACCÈS AUX SERVICES BANCAIRES DES MÉNAGES VIVANT SOUS LE SEUIL DE PAUVRETÉ

LES CONDITIONS D ACCÈS AUX SERVICES BANCAIRES DES MÉNAGES VIVANT SOUS LE SEUIL DE PAUVRETÉ 3. Les crédits 3.1 Les crédits en cours 3.1.1 Les ménages ayant au moins un crédit en cours Un peu plus du quart, 31%, des ménages en situation de déclarent avoir au moins un crédit en cours. Il s agit

Plus en détail

Validation probabiliste d un Système de Prévision d Ensemble

Validation probabiliste d un Système de Prévision d Ensemble Validation probabiliste d un Système de Prévision d Ensemble Guillem Candille, janvier 2006 Système de Prévision d Ensemble (EPS) (ECMWF Newsletter 90, 2001) Plan 1 Critères de validation probabiliste

Plus en détail

L allocataire dans un couple : l homme ou la femme?

L allocataire dans un couple : l homme ou la femme? L allocataire dans un couple : l homme ou la femme? par Alain Jacquot CNAF-Bureau des Prévisions Les CAF versent une trentaine de prestations (prestations familiales stricto sensu, aides au logement, et

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring»

Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring» Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring» Ce cas a pour objectif d étudier le risque de crédit d une entreprise à l aide de la méthode du scoring. Cette méthode statistique

Plus en détail

Un exemple de régression logistique sous

Un exemple de régression logistique sous Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les

Plus en détail

TP N 57. Déploiement et renouvellement d une constellation de satellites

TP N 57. Déploiement et renouvellement d une constellation de satellites TP N 57 Déploiement et renouvellement d une constellation de satellites L objet de ce TP est d optimiser la stratégie de déploiement et de renouvellement d une constellation de satellites ainsi que les

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

«Credit scoring» : une approche objective dans l'octroi de crédit?

«Credit scoring» : une approche objective dans l'octroi de crédit? «Credit scoring» : une approche objective dans l'octroi de crédit? Le credit scoring, ou encore scoring d'octroi, est un des outils mis en oeuvre lors de l'analyse risque d'une demande de crédit par les

Plus en détail

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains. Mémoire d actuariat - promotion 2010 La modélisation des avantages au personnel: complexité et limites du modèle actuariel, le rôle majeur des comportements humains. 14 décembre 2010 Stéphane MARQUETTY

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

Théorie des sondages : cours 5

Théorie des sondages : cours 5 Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur

Plus en détail

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS

Plus en détail

Scénario: Score d appétence de la carte visa premier

Scénario: Score d appétence de la carte visa premier Scénario: Score d appétence de la carte visa premier Résumé Cette aventure reprend rapidement l exploration des données bancaires avant d aborder systématiquement la construction de modèles de prévision

Plus en détail

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA Master Exploration Informatique des données Data Mining & Business Intelligence Groupe 5 Piotr BENSALEM Ahmed BENSI Evelyne CHARIFOU Priscillia CASSANDRA Enseignant Françoise FOGELMAN Nicolas DULIAN SOMMAIRE

Plus en détail

INSTRUCTION N 002 RELATIVE AUX NORMES PRUDENTIELLES DES COOPERATIVES D EPARGNE ET DE CREDIT AINSI QUE DES INSTITUTIONS DE MICRO FINANCE

INSTRUCTION N 002 RELATIVE AUX NORMES PRUDENTIELLES DES COOPERATIVES D EPARGNE ET DE CREDIT AINSI QUE DES INSTITUTIONS DE MICRO FINANCE INSTRUCTION N 002 RELATIVE AUX NORMES PRUDENTIELLES DES COOPERATIVES D EPARGNE ET DE CREDIT AINSI QUE DES INSTITUTIONS DE MICRO FINANCE La Banque Centrale du Congo, Vu la loi n 005/2002 du 07 mai 2002

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

DCG 6. Finance d entreprise. L essentiel en fiches

DCG 6. Finance d entreprise. L essentiel en fiches DCG 6 Finance d entreprise L essentiel en fiches DCG DSCG Collection «Express Expertise comptable» J.-F. Bocquillon, M. Mariage, Introduction au droit DCG 1 L. Siné, Droit des sociétés DCG 2 V. Roy, Droit

Plus en détail

Les allocataires des minima sociaux: CMU, état de santé et recours aux soins

Les allocataires des minima sociaux: CMU, état de santé et recours aux soins études résultats et N 603 octobre 2007 Les allocataires des minima sociaux: CMU, état de santé et recours aux soins Une enquête a été effectuée par la DREES au deuxième trimestre 2006 auprès de personnes

Plus en détail

MÉTHODOLOGIE DE L ASSESSMENT CENTRE L INSTRUMENT LE PLUS ADÉQUAT POUR : DES SÉLECTIONS DE QUALITÉ DES CONSEILS DE DÉVELOPPEMENT FONDÉS

MÉTHODOLOGIE DE L ASSESSMENT CENTRE L INSTRUMENT LE PLUS ADÉQUAT POUR : DES SÉLECTIONS DE QUALITÉ DES CONSEILS DE DÉVELOPPEMENT FONDÉS MÉTHODOLOGIE DE L ASSESSMENT CENTRE L INSTRUMENT LE PLUS ADÉQUAT POUR : DES SÉLECTIONS DE QUALITÉ ET DES CONSEILS DE DÉVELOPPEMENT FONDÉS 1. Introduction Placer la «bonne personne au bon endroit» représente

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

Format de l avis d efficience

Format de l avis d efficience AVIS D EFFICIENCE Format de l avis d efficience Juillet 2013 Commission évaluation économique et de santé publique Ce document est téléchargeable sur www.has-sante.fr Haute Autorité de santé Service documentation

Plus en détail

Imputation du salaire d ego dans TeO

Imputation du salaire d ego dans TeO Imputation du salaire d ego dans TeO Objet de la note : linéariser la réponse en tranche du salaire, et imputer le salaire en cas de non réponse Champ et principe de la méthode Les individus qui se sont

Plus en détail

L autopartage en trace directe : quelle alternative à la voiture particulière?

L autopartage en trace directe : quelle alternative à la voiture particulière? L autopartage en trace directe : quelle alternative à la particulière? Résultats de la première enquête sur l impact d un service d autopartage en trace directe (le cas d Autolib ) Cette étude réalisée

Plus en détail

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

crédits à la consommation prospectus n 3 d application à partir du 17ème décembre 2007

crédits à la consommation prospectus n 3 d application à partir du 17ème décembre 2007 crédits à la consommation prospectus n 3 d application à partir du 17ème décembre 2007 Prospectus Crédits à la consommation Ce prospectus est applicable à toutes les sociétés appartenant au Groupe AXA,

Plus en détail

1. Les comptes de dépôt et d épargne

1. Les comptes de dépôt et d épargne 1. Les comptes de dépôt et d épargne 1.1 Les comptes de dépôt 1.1.1 Le taux de possession d un compte de dépôt Le premier constat est celui d un accès important aux comptes de dépôt, quelle que soit la

Plus en détail

OSGOODE HALL LAW SCHOOL Université York MÉMOIRE PRIVILÉGIÉ ET CONFIDENTIEL

OSGOODE HALL LAW SCHOOL Université York MÉMOIRE PRIVILÉGIÉ ET CONFIDENTIEL OSGOODE HALL LAW SCHOOL Université York MÉMOIRE PRIVILÉGIÉ ET CONFIDENTIEL À : &' 1$,'6 M. Richard Drouin, O.C., c.r. Président, Commission d examen sur la rémunération des juges 2CVTKEM,/QPCJCP DATE :

Plus en détail