Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Dimension: px
Commencer à balayer dès la page:

Download "Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH"

Transcription

1 Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1

2 Table des matières PARTIE 1 1. Résumé (Abstract). 2. Introduction Le datamining.. 4. Analyse exploratoire Régression logistique. 6. Arbres de Décision 7. Réseaux de neurones PARTIE 2 1. Présentations des données.. 2. Méthodes de classification. 3. Détection des incidents Conclusion... Rapport HTML.. Annexe. Master_2_SRO_Data-Mining 2

3 PARTIE 1 1.Résumé L objectif est d exploiter la méthodologie et les outils du Data Mining pour construire un score de crédit en utilisant SAS Entreprise Miner ; mais aussi faire une macro SAS qui permet de construire une typologie de la clientèle particulière d une banque. Pour cela, nous disposons d un échantillon de 5960 individus et de 13 variables que nous avons importé de la bibliothèque SAS la base de données SAMPSIO.HMEQ. Nous avons utilisé plusieurs méthodes statistiques (régression logistique, arbres de décision et réseaux de neurones pour la première partie et les techniques de classification pour le second) afin de construire ce score et générer cette Macro. Les résultats ont montré l importance des variables DEBTINC (Taux de Dette-àrevenu), DELINQ (Nombre de crédit non remboursé), et CLAGE (du crédit le moins récent, en mois) dans la prédiction du défaut de paiement. Le modèle retenu comme optimal est un modèle d arbre de décision qui permet de prédire correctement dans plus de 85% des cas les bons payeurs. Mots clés : Crédit scoring, Régression logistique, Arbres de décision, Réseaux de neurones. Master_2_SRO_Data-Mining 3

4 2. Introduction Aujourd hui, les accords de «Bâle 2» sur la solvabilité des banques imposent à ces dernières de calculer des probabilités de défauts et le montant des pertes en cas de défauts en utilisant des techniques de scoring. Le terme Crédit Scoring désigne un ensemble d aide à la décision et de techniques sous jacentes utilisées par les organismes financiers pour évaluer le risque de non remboursement d un prêt (Thomas et al. 2002). Le crédit scoring utilise des mesures quantitatives de performances des prêts futurs avec des caractéristiques similaires. Le crédit scoring n approuve, ni rejette une demande de prêt, il peut plutôt prédire la probabilité d occurrence de mauvaise performance (défaut) telle que définie le prêteur (Caire et Kossmann, 2003). Le scoring permet de résoudre un problème qui peut paraître simple en apparence puisqu il s agit en effet, de classer les clients des banques entre les «bons» et les «mauvais» payeurs. Pour cela on utilisera les techniques de Data Mining sous SAS Enterprise Miner 4.3, plusieurs méthodes vont être étudiées (Régression Logistique, Arbres de décisions et Réseaux de neurones). Cependant, les approches traditionnelles de l inférence statistique échouent avec les grosses bases de données, car en présence de milliers ou de million de cas et de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de redondance parmi les variables, certaines relations seront fausses, et même les relations les plus faibles paraîtront statistiquement importantes dans tout test statistique. L objectif est de construire un modèle dont le pouvoir de prédiction est satisfaisant. La base d étude du projet concerne une entreprise de services financiers qui offre à ses clients, qui ont un prêt hypothécaire avec elle, la possibilité d avoir une marge de crédit. Dans le passé, plusieurs de ses clients ont obtenu et utilisé la marge de crédit et un bon pourcentage d entre eux (environ 20%) ont eu des défauts de paiement. Master_2_SRO_Data-Mining 4

5 Qu est-ce que le data mining? Le data mining est l exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques, et l'utilisation industrielle ou opérationnelle de ce savoir. Elle est utilisée dans le monde professionnel pour résoudre des problématiques très diverses, allant de la gestion de relation client à la maintenance préventive, en passant par la détection de fraudes ou encore la prévision d audience TV. Les plus concernés sont les secteurs où d importants volumes de données doivent être analysés en vue de prendre des décisions. Le data mining permet aussi de limiter la subjectivité humaine dans les processus de décision, et aussi, grâce à la puissance grandissante des outils informatiques de traiter de plus en plus rapidement de grands nombres de dossiers. A quoi sert le data mining? 3. Data Mining Les banques, C est dans le secteur bancaire qu est né le scoring de risque, au milieu du 20éme siècle, où les moyens de calcul étaient très rudimentaires. Depuis de multiples techniques de data mining (Scoring, classification, association des produits ) ont envahi la banque. Cet essor du data mining dans l activité bancaire s explique par la conjonction de plusieurs éléments : le développement des nouvelles technologies de communication (Internet, téléphonie mobile ) et de traitement de l information (Entrepôts de données), les attentes accrues de qualité de service des clients, la concurrence exercée sur les banques à réseau par les sociétés de crédit et les «nouveaux entrants» (La grande distribution, les compagnies d assurance ). La grande distribution développe ses cartes de crédit privatives, lui permettant de se constituer de grandes bases de données (près de 3 millions de porteurs pour la carte Pass de carrefour) enrichies par les informations comportementales provenant de tickets de caisses. En outre, les services associés à ces cartes (caisse réservées, promotions exclusives ) sont facteurs de fidélisation, ce qui n est pas négligeable à l heure de la concurrence des «hard discounters». Master_2_SRO_Data-Mining 5

6 En assurance de biens et de personnes, les études de ventes croisées (cross-selling), de montées en gamme (up-selling). Le besoin du data mining dans ce domaine s est exacerbé avec le développement de la concurrence des nouveaux entrants que sont les banques qui pratiquent ce qu on appelle la bancassurance. 4. Analyse exploratoire Présentation des données La table d étude contient des données propres aux clients et celles relatives aux crédits, elle est constituée de variables géographiques, démographiques et financières permettant ainsi la construction et la comparaison des modèles en concurrence. BAD : Variable cible binaire : BAD = 1 : Bon client (client ayant remboursé son prêt BAD = 0 : Mauvais client (client ayant commis une fraude ou défaut de remboursement) CLAGE : Durée du crédit le moins récent, en mois CLNO : Nombre de crédit DEBTINC : Taux de Dette-à-revenu DELINQ : Nombre de crédit non remboursé DEROG : Nombre d'états dérogatoires principaux JOB : Catégorie professionnelle du client LOAN : Montant du crédit YOJ : Ancienneté du job le plus récent VALUE : La valeur de la propriété MORTDUE : Montant dû sur l'hypothèque existante NINQ : Nombre d'enquêtes récentes de degré de solvabilité REASON : DebtCon = Fusion de dette Le tableau 1 ci-dessous représente les rôles, les formats et les descriptions des variables de notre base d étude, on peut se rendre compte que la variable BAD a un rôle target car c est la variable qu on modélise, cependant, donc on a du modifier son rôle de input à target : Master_2_SRO_Data-Mining 6

7 Tableau 1 Statistiques descriptives Analyse de la variable cible à travers sa distribution sur la figure ci-dessous : Figure 1 Master_2_SRO_Data-Mining 7

8 20% des observations représentent des prêts pour lesquels le client n ont pas payé leur prêts ( BAD=1 ), contre 80% des observations correspondant aux clients ayant payés leurs crédits ( BAD=0 ), pour les autres variables voir l annexe. Sur le tableau 2 ci-dessus nous avons les statistiques descriptives des variables quantitatives de la base travail : Tableau 2 Name Min Max Mean Std Missing Skewness Kurtosis Dev. % LOAN % MORTDUE % VALUE % YOJ % CLAGE % NINQ % CLNO % DEBTINC % L analyse de ces résultats n indique pas des aberrations sauf pour la variable DEBTINC dont le pourcentage des valeurs manquantes est relativement élevé (21%). Pour les variables qualitatives constituées de différentes classes, nous étudions le pourcentage des valeurs manquantes, et l option «Order» qui nous indique l ordre de tri de chacune des variables ainsi nous remarquons que pour toutes les variables la commande de tri est croissante sauf pour la variable cible binaire à savoir BAD la commande de tri est décroissante, donc l événement qui sera modéliser correspond à BAD=1. Name Values Missing % Order BAD 2 0% Descending REASON 2 5% Ascending JOB 6 5% Ascending DEROG 10 12% Ascending DELINQ 10 9% Ascending Master_2_SRO_Data-Mining 8

9 Partitionnement de la base de travail Entreprise Miner partitionne par défaut la base en trois sous échantillons aléatoires: apprentissage représentant 40% de l échantillon de base, l échantillon de validation avec 30% de la base d étude et l échantillon de test constituant 30% de l échantillon de base, la méthode utilisée est le tirage aléatoire, ainsi toutes les observations de la base d étude ont la même chance d être sélectionnées. 5. Régression logistique Principe : Dans la régression logistique binaire (dichotomique), on considère une variable cible (Bad) binaire (Bad=1 ou 0), et des variables explicatives Xj continues, binaires ou qualitatives (dont les indicatrices ramènent au cas d une variable binaire). L objectif de la régression logistique est celui de toute régression : modéliser l espérance conditionnelle E (Y X=x). On veut connaître la valeur moyenne de Y pour toute valeur de X. Pour une valeur Y valant 0 ou 1, cette moyenne est la probabilité qu Y=1 (loi Bernoulli). On a donc : E (Y X=x)= Prob (Y=1 X=x). En résumé, la régression logistique avec fonction de lien Logit consiste à écrire : π(x) = Prob (Y=1 X=x) Sous la forme Log ( ) = β0+β1*x1+ +βp*xp. Les avantages de la régression logistique sont très nombreux, cependant, on va citer quelques un : 1. Les coefficients sont facilement interprétables en termes de ratios du risque. Master_2_SRO_Data-Mining 9

10 2. Elle permet de détecter certain phénomène non linéaires. 3. Elle modélise directement une probabilité. 4. Elle détecte des phénomènes globaux (contrairement aux arbres de décision qui ne détecte que les phénomènes locaux). Cependant la régression logistique a des inconvénients non négligeables : 1. Elle ignore les valeurs manquantes (Sauf discrétisation, regroupement des valeurs manquantes dans une classe spécifique). 2. Elle est sensible aux individus hors norme (Sauf discrétisation). Sélection automatique des variables Afin de déterminer le meilleur score, nous avons utilisé sous, la sélection automatique des variables explicatives afin de retenir dans le modèle final que les variables pertinentes parmi notre liste de variables candidates. Il existe 3 techniques différentes permettant la sélection des variables : Backward : Cette procédure estime le modèle avec la totalité des variables explicatives. A l aide d un test de Wald, la moins significative est retirée dès lors que son seuil de significativité est supérieur à la valeur exigée (par slstay=). La procédure s arrête lorsque plus aucune n est autorisée à sortir. Forward : Cette procédure estime le modèle avec constante et les k 0 premières explicatives de la liste de k variables, où k 0 est fixé par l option start= k 0 ou include= k 0. Par défaut, k 0 = 0. Ensuite la procédure recherche parmi les k k0 variables restantes la plus significative et l ajoute au modèle si son seuil de significativité est inférieur au seuil fixé par slentry=. Une fois entrée dans le modèle la variable n est jamais retirée. Master_2_SRO_Data-Mining 10

11 Stepwise : La procédure s exécute comme avec l option forward à la différence qu une variable entrée à une étape de la sélection peut sortir du modèle si à une étape ultérieure, et donc après prise en compte de nouvelles explicatives, son seuil de significativité passe au-dessus de la valeur requise par slstay. On laissera les valeurs par défaut des différentes méthodes à savoir 0.05 comme seuil de significativité et k0=0 pour la méthode Forward. Ces trois méthodes donnent les mêmes résultats, cependant on retiendra la méthode Stepwise qui combine les deux autres. Mise en place d un modèle de régression logistique On relie le nœud de partition et celui de régression au nœud de cloison de données. Le diagramme apparaît maintenant comme suit : Résultats Ci-dessous la courbe Lift associée à la régression Logistique par défaut, on constate que le modèle n est pas du tout bon car, la courbe présente une allure non habituelle. Master_2_SRO_Data-Mining 11

12 Figure2 Ce problème peut être dû au pourcentage assez élevé de valeurs manquantes dans certaines variables, car la régression logistique ne tient pas compte de ces valeurs manquantes, D où la nécessité d exécuter l'imputation avant d'adapter un modèle de régression. Pour se faire nous utilisons le nœud de remplacement. Remplacement de Données : Le nœud de remplacement nous permet de substituer les valeurs manquantes pour chacune des variables. Ce remplacement est nécessaire pour utiliser toutes les observations dans l échantillon d apprentissage quand on établit un modèle de régression ou de réseau neurone car ceux là ignorent toutes les observations manquantes. Tandis que les arbres de décision manipulent des valeurs manquantes directement. Il est plus approprié de comparer les modèles qui sont établis sur le même ensemble d'observations. Par défaut, Entreprise miner emploie un échantillon provenant de l échantillon d apprentissage pour choisir les valeurs pour le remplacement des données manquantes. Master_2_SRO_Data-Mining 12

13 Le principe de base d imputation des données manquantes se présente comme suit : Les observations ayant une valeur manquante pour une variable d'intervalle cette dernière est substituée avec la moyenne dans l'échantillon pour la variable correspondante. Les données manquantes correspondantes aux variables binaire, nominale, ou ordinale sont substituées la modalité la plus fréquente de la variable correspondante dans l'échantillon. Le nouveau diagramme apparaître comme suit Après avoir exécuté notre modèle, on obtient la courbe Lift ci-dessous : Figure3 Le diagramme cumulatif de %Response est construit de la façon suivante : Master_2_SRO_Data-Mining 13

14 La réponse d'intérêt est le défaut de paiement (BAD=1). Pour chaque client, le modèle de régression adapté prévoit une probabilité que le client fasse défaut. Les observations sont triées selon la probabilité prévue la plus élevée à la probabilité la plus basse. Les observations sont alors groupées dans des cases, chacune contient approximativement 10% des données. En utilisant la variable cible BAD, on compte le pourcentage des répondants réels dans chaque case. Si le modèle est bon, alors la proportion de clients ayant remboursé leur crédit sera relativement haute dans les cases dont la probabilité prévue est haute. La courbe de réponse cumulative qui est montrée ci-dessus trace le pourcentage des répondants. Dans le 10% principal, presque deux-tiers des individus s'était transféré sur un prêt. Dans le 20% principal, un peu plus de la moitié s'était transféré sur le prêt. La ligne bleue horizontale représente la cadence de ligne de base (approximativement 20%) pour la comparaison. La ligne de base est une évaluation du pourcentage des contrevenants qu on compterait si on devait prendre un échantillon aléatoire. Le traçage de défaut représente des pourcentages cumulatifs, mais on peut également voir la proportion de ceux qui se sont transférés dans chaque coffre par le choix de l option Non-Cumulatif de lift chart. La comparaison des diagrammes se rapporte à ceux qui se sont transférés sur un prêt comme contrevenants ou répondants. Dans la courbe précédente, le pourcentage des contrevenants était 67.56% dans le premier décile (10%). En d'autres termes, 67.56% de ceux dans le premier décile ont eu l'événement de cible d'intérêt (BAD=1). Master_2_SRO_Data-Mining 14

15 Non Cumulative %Response Cumulative %Response 6. Arbres de décision Principes La technique de l arbre de décision est employée en prédiction pour détecter des critères permettant de rétablir les individus d une population en n classes (Souvent n=2 comme le cas ici) prédéfinies. Cette technique est nonparamétrique, ce qui signifie qu elle ne suppose pas que les variables explicatives suivent des lois de probabilité particulières. Mise en place d un arbre de décision On ajoute le nœud correspondant à l arbre de décision qu on relie au nœud de cloison de données d une part et d autre part à celui de l évaluation le processus apparaît maintenant comme suit : Master_2_SRO_Data-Mining 15

16 Résultats On peut constater ainsi que le modèle d'arbre surpasse considérablement les deux modèles de régressions, comme on peut le voir sur la lift chart ci-dessous : Figure4 Master_2_SRO_Data-Mining 16

17 Ce résultat peut être expliqué par le fait que les arbres de décision manipulent parfaitement les observations manquantes, contrairement aux modèles de régression logistique qui les ignorent, mais dans le deuxième modèle de régression, on a remplacé les observations manquantes, cela étant fait ce deuxième modèle ne surpasse pas l arbre de décision, cela peut être dû au fait que les arbres de décision sont peu perturbés par la présence des observations hors normes, qui peut être isolés dans de petits nœuds et n influent pas l ensemble du classement, contrairement à ce qui se passe dans les techniques paramétriques et neuronales, l arbre de décision est une technique nonparamétrique ce qui signifie qu elle ne suppose pas que les variables explicatives suivent des lois de probabilité particulières, ces variables peuvent être colinéaires. Si elles ne sont pas discriminantes, l arbre n en est pas affecté, puisqu il se contente de ne pas les sélectionner. De plus la réponse de la cible peut être non linéaire, voire non monotone, en fonction des variables explicatives, il peut exister entre plusieurs variables explicatives et la cible des interactions qui seront détectées par l arbre. 7. Réseaux de neurones Il est aujourd hui impossible de parler du data mining sans parler des réseaux de neurones, qui sont à la fois une technique de descriptive et prédictive (Perceptrons, Réseaux à fonction radiale de base). Ils se sont largement répandus grâce à leur puissance de modélisation, ils peuvent approcher n importe quelle fonction suffisamment régulière, qui fait merveille dans une grande variété de problème, face à des phénomènes complexes. Cependant leur utilisation est par fois freinée par les difficultés qu elle présente : le coté «Boîte noire» des réseaux, la délicatesse des réglages à effectuer, la puissance informatique requise et les risques de sur apprentissage et de convergence vers une solution globalement non optimale. Mise en place d un réseau de neurone Un nœud de réseau neurone par défaut qu on relie au nœud de remplacement et puis nœud d'évaluation, le processus devient maintenant comme suit : Master_2_SRO_Data-Mining 17

18 Résultats Le nœud de réseau neurone de défaut adapte un modèle multicouche du perceptron (MLP) sans les connexions directes. Dans cet exemple, le nœud de réseau neurone est équipé d'une seule couche cachée. Par défaut, Le tabulateur de poids affiche les poids (évaluations de paramètre) des connexions. L'affichage suivant montre les poids des connexions de chaque variable à une seule couche cachée. Chaque niveau de chaque variable de classe est également relié à la couche cachée. Le nœud de réseau neurone ajuste itérativement les poids des connexions pour réduire au minimum la fonction erreur. Ci-dessous le comparatif des quatre modèles sur la courbe Lift : Figure 5 Master_2_SRO_Data-Mining 18

19 Le réseau de neurone n améliore pas la qualité de prédiction, il reste presque au même niveau que la régression logistique, cependant l arbre reste toujours le plus performent parmi tous les modèles qu on a mis en œuvre. Master_2_SRO_Data-Mining 19

20 PARTIE 2 A travers cette étude nous souhaitons construire une typologie de la clientèle particulière d une banque. Nous désirons en particulier connaître les caractéristiques de clients qui lui disposent d un compte d épargne auprès d elle ainsi que ceux qui ont connu un ou des incidents de paiement. Elle dispose des variables suivantes sur un échantillon de 682 de ses clients. 1 PRESENTATION DES DONNEES : ID Nominal Identifiant client AGE Interval Age en année Sexe Nominal 1 : homme, 2 : femme Statut Nominal 1 : Célibataire,2 : Marié 3 : Divorce ou veuf Proprio Nominal 0 : locataire de son logement principal 1 : propriétaire de son logement principal Ancien Interval Ancienneté du client dans la banque, en années Solde Interval Solde mensuel moyen du compte courant CEparg Nominal 0 : ne dispose pas d un compte d épargne 1 : possède un compte d épargne Incid Nominal 0 : n a pas jamais connu d incident de paiement 1 : a déjà connu un (ou des) incident de paiement Master_2_SRO_Data-Mining 20

21 2 - METHODE DE CLASSIFICATION : Cette méthode est faite en trois étapes : Etape 1 : standardisation nos variables L'intérêt de cette étape est de pouvoir comparer la variable standardisée à plusieurs variables numériques présentant des unités de mesures différentes. La variable qualitative multinomiale STATUT a été recodée à l aide de trois nouvelles variables. Formant ainsi une matrice où la distance entre ces variables est la même. Trois de nos variables sont de types intervalle, nous avons alors employé la méthode RANGE(une méthode qui est utilisée avec la macro stdize pour standardiser). Nous nous sommes intéressés à la corrélation qui pouvait exister entre nos variables : Master_2_SRO_Data-Mining 21

22 En lisant la sortie les covariances entre les variables, nous pouvons constater que la covariance la plus forte est de 0,58 qui existe entre l âge et l ancienneté du client dans la banque. L étude des corrélations nous montre que les incidents dépendent fortement de l ancienneté des clients, plus ils sont jeunes, plus ils ont de chance de connaitre l incident. Etape 2 : Nous commençons cette étape avec 40 clusters,puis la macro cluster permet d identifier 9 clusters au regard du critère PSF qui marque un pic à cette valeur. Etape 3 : une dernière étape est de faire l étude avec ses neuf clusters qui portent les plus d informations. Interprétation des classes : Cluster 1 : regroupe que des locataires plus jeunes que dans tous les autres clusters et qui sont de nouveaux clients de la banque, faible solde à la banque Cluster 2 : regroupe que des femme locataires Cluster 3 : regroupe que des propriétaires, ayant toujours connu un incident de paiements et qui sont de nouveaux clients de la banque Cluster 4 : jamais connu un incident de paiements, faible solde à la banque Master_2_SRO_Data-Mining 22

23 Cluster 5 : regroupe que des homme propriétaires n ayant jamais demandé de crédit à la consommation ni connu un incident de paiements et ayant un solde élevé Cluster 6 : regroupe que des propriétaires divorcés ou veuf étant âgés et qui sont d anciens clients de la banque n ayant jamais connu un incident de paiements Cluster 7 : femmes mariées n ayant jamais demandé de crédit à la consommation et jamais connu un incident de paiements Cluster 8 : regroupe que des locataires masculins et ayant un solde élevé à la banque Cluster 9 : regroupe que des propriétaires âgés ayant déjà demandé un crédit à la consommation mais n ayant jamais connu un incident de paiements, ce sont également d anciens clients de la banque. 3- LA DETECTION DES INCIDENTS Nous avons réaliser une proc logistic en mettant l incident en variable dépendante afin d identifier les variables exogène qui ont un rôle positif ou négatif sur la probabilité de connaitre l incident de paiement. Master_2_SRO_Data-Mining 23

24 L étude des corrélations nous montre que les incidents dépendent fortement de l ancienneté des clients, plus ils sont jeunes, plus ils ont de chance de connaitre l incident. Enfin le fait d avoir un important solde en banque diminue la probabilité d incident. Master_2_SRO_Data-Mining 24

25 Conclusion Cette étude avait pour objectif de développer le meilleur modèle de crédit scoring permettant de prédire la probabilité de défaut des clients d une banque. Pour ce faire 3 outils statistiques (régression logistique, arbres de décision et réseaux de neurones) ont été utilisés pour conclure au meilleur modèle prédictif permettant de distinguer les bons clients des mauvais, après analyse des résultats obtenus nous avons sélectionné le modèle issue de l arbre de décision comme le modèle le plus performant. Cependant, le score de risque bancaire pour un prêt n est qu un élément dans le processus de décision car comme toute méthode statistique, le scoring commet des erreurs et un individu qui a la malchance d avoir un profil proche de celui de mauvais payeurs sera considéré comme tel mais ce type de méthodes commet moins d erreurs et est plus objectif que les jugements d expert. Aujourd hui, la discrimination entre défaillants et non-défaillants n est plus le seul objectif des banques, surtout pour des prêts à long terme. En effet, il est autant intéressant pour les banques de connaître quand la défaillance va avoir lieu que de connaître si elle va effectivement avoir lieu. Actuellement, de nombreux travaux s orientent vers l utilisation de modèles de survie pour données censurées pour prévoir la date de défaillance de l emprunteur. Master_2_SRO_Data-Mining 25

26 Rapport HTML On rajoute le nœud du rapport HTML et on le relie à l ensemble du diagramme comme sur le diagramme ci-dessous : Master_2_SRO_Data-Mining 26

27 Annexe Master_2_SRO_Data-Mining 27

28 Master_2_SRO_Data-Mining 28

29 Master_2_SRO_Data-Mining 29

30 Master_2_SRO_Data-Mining 30

31 Master_2_SRO_Data-Mining 31

32 1-la variable sexe par classes : 2-les propriétaires par classes : 3-les incidents par classes : Master_2_SRO_Data-Mining 32

33 4-la variable âge par classes présentée par un box plot : 5-la variable ancienneté par classes présentée par un box plot : Master_2_SRO_Data-Mining 33

34 6-la variable solde présentée par un box plot : Master_2_SRO_Data-Mining 34

35 Le programme SAS qui nous a permis de faire cette classification : /*debut Programme SAS :*/ libname classif "C:\Users\Mahamat Oumar\Desktop\DM"; /***********************************/ /* Codage des données */ /* pour variables qualitatives */ /***********************************/ data classif.banque1; set classif.banque; run; proc print; run; /*---- Dummy pour STATUT ----*/ if STATUT = '1' then do ; S1 = 1/sqrt(2) ; S2 = 0 ; S3 = 0 ; end ; else if STATUT = '2' then do ; S2 = 1/sqrt(2) ; S1 = 0 ; S3 = 0 ; end ; else if STATUT = '3' then do ; S3 = 1/sqrt(2) ; S1 = 0 ; S2 = 0 ; *2=N(n modalité)-1; end ; /*---- Dummy pour SEXE ----*/ if SEXE = 1 then SEXE = 0; if SEXE = 2 then SEXE = 1; /***************************************************************/ /* 0 - Proc print qui sert à afficher la table passer en entré */ /***************************************************************/ %macro print(nom_table); ods html; proc print data=classif.&nom_table; ods html close; %mend print; %print(banque); %print(banque1); %print(table_stdize); /*************************/ /* 1 - Standardisation */ /* Proc STDIZE */ /*************************/ Master_2_SRO_Data-Mining 35

36 %macro stdize(nom_table,variables,methode); title "&variables sont standardisées par PROC STDIZE avec la méthode &methode"; proc stdize data=classif.&nom_table out=classif.table_stdize pstat method=&methode; var &variables ; %mend; %stdize(banque1, AGE ANCIEN SOLDE, RANGE); data classif.table_stdize; set classif.table_stdize; drop STATUT; run; /***************************/ /* 2 - Données corrélées */ /***************************/ proc corr data=classif.table_stdize; var AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3; run; /************************************************************************** **********************************/ /* 3 - commençons avec 40 cluster et choisissons les classes qui portent plus d'information- Fastclus */ /************************************************************************** *********************************/ %MACRO MyFastClus (N, tablein, tableout, variables, identifiant); title "Données obtenues par PROC FASTCLUST avec &N clusters"; proc fastclus data=classif.&tablein maxclusters=&n maxiter=15 CONV= mean=classif.&tableout.fastmean&n cluster=cluster radius=0 replace=full IMPUTE SUMMARY ; var &variables; id &identifiant; %MEND MyFastClus; %MyFastClus ( 40, table_stdize, table_, AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3, ID); /*bien voir si la convergence a lieu avant le maxiter sinon l'augment mais souvent à cause d'une mauvaise stdize; /****************************/ /* 3 - Cluster - METHODE */ /* sur les N de Fastclus */ /****************************/ %macro cluster(table_fastmean, variables, methode); title "Données obtenues par PROC CLUSTER afin de pouvoir choisir les meilleurs clusters"; Master_2_SRO_Data-Mining 36

37 proc cluster data=classif.&table_fastmean outtree=classif.table_cluster method=&methode CCC pseudo; var &variables; id cluster; proc gplot data=classif.table_cluster; symbol1 v=dot ; plot _RSQ_*_NCL SPRSQ_*_NCL CCC_*_NCL PSF_*_NCL PST2_*_NCL_ ; axis1 order=(0 to.2 by 0.02); PROC TREE DATA=classif.table_cluster HEIGHT=H HORIZONTAL haxis=axis1; Id Cluster ; axis1 order=(0 to.2 by 0.02); PROC TREE DATA=classif.table_cluster HEIGHT=RSQ HORIZONTAL haxis=axis1 ; Id Cluster ; %mend cluster; %cluster( table_fastmean40, AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3, ward); *on identifie clairement 9 clusters grâce aux stats et a l'arbres /****************************/ /* 4 - Calcul des centroïds */ /* sur nos 9 clusters */ /****************************/ %macro centroid(table, variables, N); goption reset=all; title; options nodate; proc tree DATA=classif.&table NOPRINT OUT=classif.table_Seed N=&N ; COPY &variables; proc means data=classif.table_seed noprint; *permet obtenir l table pour le seed; class cluster; var &variables; output out=classif.table_means mean=&variables; data classif.table_means; SET classif.table_means; If _type_=0 then delete; %mend centroid; %centroid (table_cluster, AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3, 9); %print (table_means); /*********************************/ /* 5 - rafaire FASTCLUS ******/ /* avec les 9 centroids optimaux*/ /*********************************/ %macro fastclus(n, tablein, tableout, variables, identifiant); goption reset=all; title "Données obtenues par PROC FASTCLUS avec &N clusters"; Master_2_SRO_Data-Mining 37

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

SAS de base : gestion des données et procédures élémentaires

SAS de base : gestion des données et procédures élémentaires 1 SAS de base : gestion des données et procédures élémentaires SAS de base : gestion des données et procédures élémentaires Résumé Description des commandes (module SAS de base) les plus utiles de l étape

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Scénario: Données bancaires et segmentation de clientèle

Scénario: Données bancaires et segmentation de clientèle Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Séance 11 : Typologies

Séance 11 : Typologies Séance 11 : Typologies Sommaire Proc CLUSTER : Typologie hiérarchique... 3 Proc FASTCLUS : Typologie nodale... 8 Proc MODECLUS : Typologie non paramétrique... 11 - Les phénomènes observés (attitudes, comportements,

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

L export de SAS vers Excel expliqué à ma fille

L export de SAS vers Excel expliqué à ma fille L export de SAS vers Excel expliqué à ma fille SAS est un logiciel merveilleux, mais tous n y ont pas accès. Pour contenter la soif de données de vos collègues qui n auraient pas d autre outil à disposition,

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» 46, rue de la Tour 75116 Paris tél. (33) 01 73 00 55 00 fax (33) 01 73 00 55 01 www.softcomputing.com Sommaire

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Why Software Projects Escalate: The Importance of Project Management Constructs

Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

ANALYSE DU RISQUE DE CRÉDIT

ANALYSE DU RISQUE DE CRÉDIT ANALYSE DU RISQUE DE CRÉDIT Banque & Marchés Cécile Kharoubi Professeur de Finance ESCP Europe Philippe Thomas Professeur de Finance ESCP Europe TABLE DES MATIÈRES Introduction... 15 Chapitre 1 Le risque

Plus en détail

INITIATION AU LOGICIEL SAS

INITIATION AU LOGICIEL SAS INITIATION AU LOGICIEL SAS (version 9.1.3 sous Windows) Hélène HAMISULTANE Bibliographie : Initiation au logiciel SAS(9) pour Windows, Coqué N. (juin 2006). www.agroparistech.fr/img/pdf/polysas.pdf SAS

Plus en détail

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun> 94 Programmation en OCaml 5.4.8. Concaténation de deux listes Définissons maintenant la fonction concat qui met bout à bout deux listes. Ainsi, si l1 et l2 sont deux listes quelconques, concat l1 l2 constitue

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Plan de la séance 3 : Le risque de crédit (1) Les opérations de crédit Définition d un crédit La décision de crédit Les crédits aux petites

Plus en détail

S84-1 LA GRC ET LE SI (Système d Information) 841 - Qualification des données clientèle. 842 - La segmentation de la clientèle

S84-1 LA GRC ET LE SI (Système d Information) 841 - Qualification des données clientèle. 842 - La segmentation de la clientèle S84-1 LA GRC ET LE SI (Système d Information) 841 - Qualification des données clientèle 842 - La segmentation de la clientèle 843 - Les actions personnalisées utilisation des procédures de consultation

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

1 Imputation par la moyenne

1 Imputation par la moyenne Introduction au data mining L3 MIS - STA 1616-2010 V. Monbet Données manquantes L'objectif de ce TD est de manipuler et de comparer plusieurs méthodes d'imputation de données manquantes. La première partie

Plus en détail

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Scénario: Score d appétence de la carte visa premier

Scénario: Score d appétence de la carte visa premier Scénario: Score d appétence de la carte visa premier Résumé Cette aventure reprend rapidement l exploration des données bancaires avant d aborder systématiquement la construction de modèles de prévision

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Crédit : Comment vous êtes coté

Crédit : Comment vous êtes coté Crédit : Comment vous êtes coté Comprendre et gérer votre situation à l égard du crédit à titre de consommateur et d entreprise D-IN0440F-0201 Introduction Nous vivons dans un monde en évolution constante

Plus en détail

Complet Intuitif Efficace. Références

Complet Intuitif Efficace. Références Logiciel de référence en Analyse de Données, Data Mining et Text Mining pour transformer vos données en connaissance Complet Intuitif Efficace Dans un environnement convivial et intuitif, disposez de toute

Plus en détail

«Credit scoring» : une approche objective dans l'octroi de crédit?

«Credit scoring» : une approche objective dans l'octroi de crédit? «Credit scoring» : une approche objective dans l'octroi de crédit? Le credit scoring, ou encore scoring d'octroi, est un des outils mis en oeuvre lors de l'analyse risque d'une demande de crédit par les

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui

Plus en détail

Analyse prédictive. L essor et la valeur de l analyse prédictive dans la prise de décisions

Analyse prédictive. L essor et la valeur de l analyse prédictive dans la prise de décisions ÉTUDE TECHNIQUE Analyse prédictive L essor et la valeur de l analyse prédictive dans la prise de décisions «Donnez-moi un point d appui et un levier et je soulèverai le monde.» Archimède, 250 av. J.-C.

Plus en détail

Localisation des fonctions

Localisation des fonctions MODALISA 7 Localisation des fonctions Vous trouverez dans ce document la position des principales fonctions ventilées selon l organisation de Modalisa en onglets. Sommaire A. Fonctions communes à tous

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

Le scoring est-il la nouvelle révolution du microcrédit?

Le scoring est-il la nouvelle révolution du microcrédit? Retour au sommaire Le scoring est-il la nouvelle révolution du microcrédit? BIM n 32-01 octobre 2002 Frédéric DE SOUSA-SANTOS Le BIM de cette semaine se propose de vous présenter un ouvrage de Mark Schreiner

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved. Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic SAS dans

Plus en détail

Etudes marketing et connaissance client

Etudes marketing et connaissance client Master deuxième année Mention : Statistique et Traitement de Données Etudes marketing et connaissance client Imane Hammouali Tuteur de stage: M. Sébastien Confesson Stage effectué au Service Etudes Marketing

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE L ENQUETE PAR SONDAGE : LA METHODE La définition La méthode Le questionnaire Les biais La passation du questionnaire La validité des réponses Les échelles de mesure Les échelles d évaluation Les échelles

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique 4-530-03

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique 4-530-03 Gestion des opérations et de la logistique Séance 4 4-530-03 Gestion de la capacité Points importants présentés au dernier cours Les principaux types d aménagement Étude du travail et l amélioration des

Plus en détail

Modélisation de la réforme des pensions

Modélisation de la réforme des pensions Modèle PROST de la Banque Mondiale Modélisation de la réforme des pensions Mécanisme de simulation des options de réforme des retraites, de la Banque Mondiale L es politiques de pension d aujourd hui peuvent

Plus en détail

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation Complex Event Processing Traitement de flux de données en temps réel Romain Colle R&D Project Manager Quartet FS Plan Génération et exploitation de données CEP et applications Flux de données et notifications

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

ESIEA PARIS 2011-2012

ESIEA PARIS 2011-2012 ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

L analyse de la gestion de la clientèle

L analyse de la gestion de la clientèle chapitre 1 - La connaissance du client * Techniques utilisées : observation, recherche documentaire, études de cas, études qualitatives (entretiens de groupes ou individuels, tests projectifs, analyses

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

Construction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012

Construction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012 Construction de bases biométriques pour l assurance dépendance SCOR inform - Novembre 2012 Construction de bases biométriques pour l assurance dépendance Auteur Laure de Montesquieu Responsable Centre

Plus en détail