Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Dimension: px
Commencer à balayer dès la page:

Download "Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH"

Transcription

1 Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1

2 Table des matières PARTIE 1 1. Résumé (Abstract). 2. Introduction Le datamining.. 4. Analyse exploratoire Régression logistique. 6. Arbres de Décision 7. Réseaux de neurones PARTIE 2 1. Présentations des données.. 2. Méthodes de classification. 3. Détection des incidents Conclusion... Rapport HTML.. Annexe. Master_2_SRO_Data-Mining 2

3 PARTIE 1 1.Résumé L objectif est d exploiter la méthodologie et les outils du Data Mining pour construire un score de crédit en utilisant SAS Entreprise Miner ; mais aussi faire une macro SAS qui permet de construire une typologie de la clientèle particulière d une banque. Pour cela, nous disposons d un échantillon de 5960 individus et de 13 variables que nous avons importé de la bibliothèque SAS la base de données SAMPSIO.HMEQ. Nous avons utilisé plusieurs méthodes statistiques (régression logistique, arbres de décision et réseaux de neurones pour la première partie et les techniques de classification pour le second) afin de construire ce score et générer cette Macro. Les résultats ont montré l importance des variables DEBTINC (Taux de Dette-àrevenu), DELINQ (Nombre de crédit non remboursé), et CLAGE (du crédit le moins récent, en mois) dans la prédiction du défaut de paiement. Le modèle retenu comme optimal est un modèle d arbre de décision qui permet de prédire correctement dans plus de 85% des cas les bons payeurs. Mots clés : Crédit scoring, Régression logistique, Arbres de décision, Réseaux de neurones. Master_2_SRO_Data-Mining 3

4 2. Introduction Aujourd hui, les accords de «Bâle 2» sur la solvabilité des banques imposent à ces dernières de calculer des probabilités de défauts et le montant des pertes en cas de défauts en utilisant des techniques de scoring. Le terme Crédit Scoring désigne un ensemble d aide à la décision et de techniques sous jacentes utilisées par les organismes financiers pour évaluer le risque de non remboursement d un prêt (Thomas et al. 2002). Le crédit scoring utilise des mesures quantitatives de performances des prêts futurs avec des caractéristiques similaires. Le crédit scoring n approuve, ni rejette une demande de prêt, il peut plutôt prédire la probabilité d occurrence de mauvaise performance (défaut) telle que définie le prêteur (Caire et Kossmann, 2003). Le scoring permet de résoudre un problème qui peut paraître simple en apparence puisqu il s agit en effet, de classer les clients des banques entre les «bons» et les «mauvais» payeurs. Pour cela on utilisera les techniques de Data Mining sous SAS Enterprise Miner 4.3, plusieurs méthodes vont être étudiées (Régression Logistique, Arbres de décisions et Réseaux de neurones). Cependant, les approches traditionnelles de l inférence statistique échouent avec les grosses bases de données, car en présence de milliers ou de million de cas et de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de redondance parmi les variables, certaines relations seront fausses, et même les relations les plus faibles paraîtront statistiquement importantes dans tout test statistique. L objectif est de construire un modèle dont le pouvoir de prédiction est satisfaisant. La base d étude du projet concerne une entreprise de services financiers qui offre à ses clients, qui ont un prêt hypothécaire avec elle, la possibilité d avoir une marge de crédit. Dans le passé, plusieurs de ses clients ont obtenu et utilisé la marge de crédit et un bon pourcentage d entre eux (environ 20%) ont eu des défauts de paiement. Master_2_SRO_Data-Mining 4

5 Qu est-ce que le data mining? Le data mining est l exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques, et l'utilisation industrielle ou opérationnelle de ce savoir. Elle est utilisée dans le monde professionnel pour résoudre des problématiques très diverses, allant de la gestion de relation client à la maintenance préventive, en passant par la détection de fraudes ou encore la prévision d audience TV. Les plus concernés sont les secteurs où d importants volumes de données doivent être analysés en vue de prendre des décisions. Le data mining permet aussi de limiter la subjectivité humaine dans les processus de décision, et aussi, grâce à la puissance grandissante des outils informatiques de traiter de plus en plus rapidement de grands nombres de dossiers. A quoi sert le data mining? 3. Data Mining Les banques, C est dans le secteur bancaire qu est né le scoring de risque, au milieu du 20éme siècle, où les moyens de calcul étaient très rudimentaires. Depuis de multiples techniques de data mining (Scoring, classification, association des produits ) ont envahi la banque. Cet essor du data mining dans l activité bancaire s explique par la conjonction de plusieurs éléments : le développement des nouvelles technologies de communication (Internet, téléphonie mobile ) et de traitement de l information (Entrepôts de données), les attentes accrues de qualité de service des clients, la concurrence exercée sur les banques à réseau par les sociétés de crédit et les «nouveaux entrants» (La grande distribution, les compagnies d assurance ). La grande distribution développe ses cartes de crédit privatives, lui permettant de se constituer de grandes bases de données (près de 3 millions de porteurs pour la carte Pass de carrefour) enrichies par les informations comportementales provenant de tickets de caisses. En outre, les services associés à ces cartes (caisse réservées, promotions exclusives ) sont facteurs de fidélisation, ce qui n est pas négligeable à l heure de la concurrence des «hard discounters». Master_2_SRO_Data-Mining 5

6 En assurance de biens et de personnes, les études de ventes croisées (cross-selling), de montées en gamme (up-selling). Le besoin du data mining dans ce domaine s est exacerbé avec le développement de la concurrence des nouveaux entrants que sont les banques qui pratiquent ce qu on appelle la bancassurance. 4. Analyse exploratoire Présentation des données La table d étude contient des données propres aux clients et celles relatives aux crédits, elle est constituée de variables géographiques, démographiques et financières permettant ainsi la construction et la comparaison des modèles en concurrence. BAD : Variable cible binaire : BAD = 1 : Bon client (client ayant remboursé son prêt BAD = 0 : Mauvais client (client ayant commis une fraude ou défaut de remboursement) CLAGE : Durée du crédit le moins récent, en mois CLNO : Nombre de crédit DEBTINC : Taux de Dette-à-revenu DELINQ : Nombre de crédit non remboursé DEROG : Nombre d'états dérogatoires principaux JOB : Catégorie professionnelle du client LOAN : Montant du crédit YOJ : Ancienneté du job le plus récent VALUE : La valeur de la propriété MORTDUE : Montant dû sur l'hypothèque existante NINQ : Nombre d'enquêtes récentes de degré de solvabilité REASON : DebtCon = Fusion de dette Le tableau 1 ci-dessous représente les rôles, les formats et les descriptions des variables de notre base d étude, on peut se rendre compte que la variable BAD a un rôle target car c est la variable qu on modélise, cependant, donc on a du modifier son rôle de input à target : Master_2_SRO_Data-Mining 6

7 Tableau 1 Statistiques descriptives Analyse de la variable cible à travers sa distribution sur la figure ci-dessous : Figure 1 Master_2_SRO_Data-Mining 7

8 20% des observations représentent des prêts pour lesquels le client n ont pas payé leur prêts ( BAD=1 ), contre 80% des observations correspondant aux clients ayant payés leurs crédits ( BAD=0 ), pour les autres variables voir l annexe. Sur le tableau 2 ci-dessus nous avons les statistiques descriptives des variables quantitatives de la base travail : Tableau 2 Name Min Max Mean Std Missing Skewness Kurtosis Dev. % LOAN % MORTDUE % VALUE % YOJ % CLAGE % NINQ % CLNO % DEBTINC % L analyse de ces résultats n indique pas des aberrations sauf pour la variable DEBTINC dont le pourcentage des valeurs manquantes est relativement élevé (21%). Pour les variables qualitatives constituées de différentes classes, nous étudions le pourcentage des valeurs manquantes, et l option «Order» qui nous indique l ordre de tri de chacune des variables ainsi nous remarquons que pour toutes les variables la commande de tri est croissante sauf pour la variable cible binaire à savoir BAD la commande de tri est décroissante, donc l événement qui sera modéliser correspond à BAD=1. Name Values Missing % Order BAD 2 0% Descending REASON 2 5% Ascending JOB 6 5% Ascending DEROG 10 12% Ascending DELINQ 10 9% Ascending Master_2_SRO_Data-Mining 8

9 Partitionnement de la base de travail Entreprise Miner partitionne par défaut la base en trois sous échantillons aléatoires: apprentissage représentant 40% de l échantillon de base, l échantillon de validation avec 30% de la base d étude et l échantillon de test constituant 30% de l échantillon de base, la méthode utilisée est le tirage aléatoire, ainsi toutes les observations de la base d étude ont la même chance d être sélectionnées. 5. Régression logistique Principe : Dans la régression logistique binaire (dichotomique), on considère une variable cible (Bad) binaire (Bad=1 ou 0), et des variables explicatives Xj continues, binaires ou qualitatives (dont les indicatrices ramènent au cas d une variable binaire). L objectif de la régression logistique est celui de toute régression : modéliser l espérance conditionnelle E (Y X=x). On veut connaître la valeur moyenne de Y pour toute valeur de X. Pour une valeur Y valant 0 ou 1, cette moyenne est la probabilité qu Y=1 (loi Bernoulli). On a donc : E (Y X=x)= Prob (Y=1 X=x). En résumé, la régression logistique avec fonction de lien Logit consiste à écrire : π(x) = Prob (Y=1 X=x) Sous la forme Log ( ) = β0+β1*x1+ +βp*xp. Les avantages de la régression logistique sont très nombreux, cependant, on va citer quelques un : 1. Les coefficients sont facilement interprétables en termes de ratios du risque. Master_2_SRO_Data-Mining 9

10 2. Elle permet de détecter certain phénomène non linéaires. 3. Elle modélise directement une probabilité. 4. Elle détecte des phénomènes globaux (contrairement aux arbres de décision qui ne détecte que les phénomènes locaux). Cependant la régression logistique a des inconvénients non négligeables : 1. Elle ignore les valeurs manquantes (Sauf discrétisation, regroupement des valeurs manquantes dans une classe spécifique). 2. Elle est sensible aux individus hors norme (Sauf discrétisation). Sélection automatique des variables Afin de déterminer le meilleur score, nous avons utilisé sous, la sélection automatique des variables explicatives afin de retenir dans le modèle final que les variables pertinentes parmi notre liste de variables candidates. Il existe 3 techniques différentes permettant la sélection des variables : Backward : Cette procédure estime le modèle avec la totalité des variables explicatives. A l aide d un test de Wald, la moins significative est retirée dès lors que son seuil de significativité est supérieur à la valeur exigée (par slstay=). La procédure s arrête lorsque plus aucune n est autorisée à sortir. Forward : Cette procédure estime le modèle avec constante et les k 0 premières explicatives de la liste de k variables, où k 0 est fixé par l option start= k 0 ou include= k 0. Par défaut, k 0 = 0. Ensuite la procédure recherche parmi les k k0 variables restantes la plus significative et l ajoute au modèle si son seuil de significativité est inférieur au seuil fixé par slentry=. Une fois entrée dans le modèle la variable n est jamais retirée. Master_2_SRO_Data-Mining 10

11 Stepwise : La procédure s exécute comme avec l option forward à la différence qu une variable entrée à une étape de la sélection peut sortir du modèle si à une étape ultérieure, et donc après prise en compte de nouvelles explicatives, son seuil de significativité passe au-dessus de la valeur requise par slstay. On laissera les valeurs par défaut des différentes méthodes à savoir 0.05 comme seuil de significativité et k0=0 pour la méthode Forward. Ces trois méthodes donnent les mêmes résultats, cependant on retiendra la méthode Stepwise qui combine les deux autres. Mise en place d un modèle de régression logistique On relie le nœud de partition et celui de régression au nœud de cloison de données. Le diagramme apparaît maintenant comme suit : Résultats Ci-dessous la courbe Lift associée à la régression Logistique par défaut, on constate que le modèle n est pas du tout bon car, la courbe présente une allure non habituelle. Master_2_SRO_Data-Mining 11

12 Figure2 Ce problème peut être dû au pourcentage assez élevé de valeurs manquantes dans certaines variables, car la régression logistique ne tient pas compte de ces valeurs manquantes, D où la nécessité d exécuter l'imputation avant d'adapter un modèle de régression. Pour se faire nous utilisons le nœud de remplacement. Remplacement de Données : Le nœud de remplacement nous permet de substituer les valeurs manquantes pour chacune des variables. Ce remplacement est nécessaire pour utiliser toutes les observations dans l échantillon d apprentissage quand on établit un modèle de régression ou de réseau neurone car ceux là ignorent toutes les observations manquantes. Tandis que les arbres de décision manipulent des valeurs manquantes directement. Il est plus approprié de comparer les modèles qui sont établis sur le même ensemble d'observations. Par défaut, Entreprise miner emploie un échantillon provenant de l échantillon d apprentissage pour choisir les valeurs pour le remplacement des données manquantes. Master_2_SRO_Data-Mining 12

13 Le principe de base d imputation des données manquantes se présente comme suit : Les observations ayant une valeur manquante pour une variable d'intervalle cette dernière est substituée avec la moyenne dans l'échantillon pour la variable correspondante. Les données manquantes correspondantes aux variables binaire, nominale, ou ordinale sont substituées la modalité la plus fréquente de la variable correspondante dans l'échantillon. Le nouveau diagramme apparaître comme suit Après avoir exécuté notre modèle, on obtient la courbe Lift ci-dessous : Figure3 Le diagramme cumulatif de %Response est construit de la façon suivante : Master_2_SRO_Data-Mining 13

14 La réponse d'intérêt est le défaut de paiement (BAD=1). Pour chaque client, le modèle de régression adapté prévoit une probabilité que le client fasse défaut. Les observations sont triées selon la probabilité prévue la plus élevée à la probabilité la plus basse. Les observations sont alors groupées dans des cases, chacune contient approximativement 10% des données. En utilisant la variable cible BAD, on compte le pourcentage des répondants réels dans chaque case. Si le modèle est bon, alors la proportion de clients ayant remboursé leur crédit sera relativement haute dans les cases dont la probabilité prévue est haute. La courbe de réponse cumulative qui est montrée ci-dessus trace le pourcentage des répondants. Dans le 10% principal, presque deux-tiers des individus s'était transféré sur un prêt. Dans le 20% principal, un peu plus de la moitié s'était transféré sur le prêt. La ligne bleue horizontale représente la cadence de ligne de base (approximativement 20%) pour la comparaison. La ligne de base est une évaluation du pourcentage des contrevenants qu on compterait si on devait prendre un échantillon aléatoire. Le traçage de défaut représente des pourcentages cumulatifs, mais on peut également voir la proportion de ceux qui se sont transférés dans chaque coffre par le choix de l option Non-Cumulatif de lift chart. La comparaison des diagrammes se rapporte à ceux qui se sont transférés sur un prêt comme contrevenants ou répondants. Dans la courbe précédente, le pourcentage des contrevenants était 67.56% dans le premier décile (10%). En d'autres termes, 67.56% de ceux dans le premier décile ont eu l'événement de cible d'intérêt (BAD=1). Master_2_SRO_Data-Mining 14

15 Non Cumulative %Response Cumulative %Response 6. Arbres de décision Principes La technique de l arbre de décision est employée en prédiction pour détecter des critères permettant de rétablir les individus d une population en n classes (Souvent n=2 comme le cas ici) prédéfinies. Cette technique est nonparamétrique, ce qui signifie qu elle ne suppose pas que les variables explicatives suivent des lois de probabilité particulières. Mise en place d un arbre de décision On ajoute le nœud correspondant à l arbre de décision qu on relie au nœud de cloison de données d une part et d autre part à celui de l évaluation le processus apparaît maintenant comme suit : Master_2_SRO_Data-Mining 15

16 Résultats On peut constater ainsi que le modèle d'arbre surpasse considérablement les deux modèles de régressions, comme on peut le voir sur la lift chart ci-dessous : Figure4 Master_2_SRO_Data-Mining 16

17 Ce résultat peut être expliqué par le fait que les arbres de décision manipulent parfaitement les observations manquantes, contrairement aux modèles de régression logistique qui les ignorent, mais dans le deuxième modèle de régression, on a remplacé les observations manquantes, cela étant fait ce deuxième modèle ne surpasse pas l arbre de décision, cela peut être dû au fait que les arbres de décision sont peu perturbés par la présence des observations hors normes, qui peut être isolés dans de petits nœuds et n influent pas l ensemble du classement, contrairement à ce qui se passe dans les techniques paramétriques et neuronales, l arbre de décision est une technique nonparamétrique ce qui signifie qu elle ne suppose pas que les variables explicatives suivent des lois de probabilité particulières, ces variables peuvent être colinéaires. Si elles ne sont pas discriminantes, l arbre n en est pas affecté, puisqu il se contente de ne pas les sélectionner. De plus la réponse de la cible peut être non linéaire, voire non monotone, en fonction des variables explicatives, il peut exister entre plusieurs variables explicatives et la cible des interactions qui seront détectées par l arbre. 7. Réseaux de neurones Il est aujourd hui impossible de parler du data mining sans parler des réseaux de neurones, qui sont à la fois une technique de descriptive et prédictive (Perceptrons, Réseaux à fonction radiale de base). Ils se sont largement répandus grâce à leur puissance de modélisation, ils peuvent approcher n importe quelle fonction suffisamment régulière, qui fait merveille dans une grande variété de problème, face à des phénomènes complexes. Cependant leur utilisation est par fois freinée par les difficultés qu elle présente : le coté «Boîte noire» des réseaux, la délicatesse des réglages à effectuer, la puissance informatique requise et les risques de sur apprentissage et de convergence vers une solution globalement non optimale. Mise en place d un réseau de neurone Un nœud de réseau neurone par défaut qu on relie au nœud de remplacement et puis nœud d'évaluation, le processus devient maintenant comme suit : Master_2_SRO_Data-Mining 17

18 Résultats Le nœud de réseau neurone de défaut adapte un modèle multicouche du perceptron (MLP) sans les connexions directes. Dans cet exemple, le nœud de réseau neurone est équipé d'une seule couche cachée. Par défaut, Le tabulateur de poids affiche les poids (évaluations de paramètre) des connexions. L'affichage suivant montre les poids des connexions de chaque variable à une seule couche cachée. Chaque niveau de chaque variable de classe est également relié à la couche cachée. Le nœud de réseau neurone ajuste itérativement les poids des connexions pour réduire au minimum la fonction erreur. Ci-dessous le comparatif des quatre modèles sur la courbe Lift : Figure 5 Master_2_SRO_Data-Mining 18

19 Le réseau de neurone n améliore pas la qualité de prédiction, il reste presque au même niveau que la régression logistique, cependant l arbre reste toujours le plus performent parmi tous les modèles qu on a mis en œuvre. Master_2_SRO_Data-Mining 19

20 PARTIE 2 A travers cette étude nous souhaitons construire une typologie de la clientèle particulière d une banque. Nous désirons en particulier connaître les caractéristiques de clients qui lui disposent d un compte d épargne auprès d elle ainsi que ceux qui ont connu un ou des incidents de paiement. Elle dispose des variables suivantes sur un échantillon de 682 de ses clients. 1 PRESENTATION DES DONNEES : ID Nominal Identifiant client AGE Interval Age en année Sexe Nominal 1 : homme, 2 : femme Statut Nominal 1 : Célibataire,2 : Marié 3 : Divorce ou veuf Proprio Nominal 0 : locataire de son logement principal 1 : propriétaire de son logement principal Ancien Interval Ancienneté du client dans la banque, en années Solde Interval Solde mensuel moyen du compte courant CEparg Nominal 0 : ne dispose pas d un compte d épargne 1 : possède un compte d épargne Incid Nominal 0 : n a pas jamais connu d incident de paiement 1 : a déjà connu un (ou des) incident de paiement Master_2_SRO_Data-Mining 20

21 2 - METHODE DE CLASSIFICATION : Cette méthode est faite en trois étapes : Etape 1 : standardisation nos variables L'intérêt de cette étape est de pouvoir comparer la variable standardisée à plusieurs variables numériques présentant des unités de mesures différentes. La variable qualitative multinomiale STATUT a été recodée à l aide de trois nouvelles variables. Formant ainsi une matrice où la distance entre ces variables est la même. Trois de nos variables sont de types intervalle, nous avons alors employé la méthode RANGE(une méthode qui est utilisée avec la macro stdize pour standardiser). Nous nous sommes intéressés à la corrélation qui pouvait exister entre nos variables : Master_2_SRO_Data-Mining 21

22 En lisant la sortie les covariances entre les variables, nous pouvons constater que la covariance la plus forte est de 0,58 qui existe entre l âge et l ancienneté du client dans la banque. L étude des corrélations nous montre que les incidents dépendent fortement de l ancienneté des clients, plus ils sont jeunes, plus ils ont de chance de connaitre l incident. Etape 2 : Nous commençons cette étape avec 40 clusters,puis la macro cluster permet d identifier 9 clusters au regard du critère PSF qui marque un pic à cette valeur. Etape 3 : une dernière étape est de faire l étude avec ses neuf clusters qui portent les plus d informations. Interprétation des classes : Cluster 1 : regroupe que des locataires plus jeunes que dans tous les autres clusters et qui sont de nouveaux clients de la banque, faible solde à la banque Cluster 2 : regroupe que des femme locataires Cluster 3 : regroupe que des propriétaires, ayant toujours connu un incident de paiements et qui sont de nouveaux clients de la banque Cluster 4 : jamais connu un incident de paiements, faible solde à la banque Master_2_SRO_Data-Mining 22

23 Cluster 5 : regroupe que des homme propriétaires n ayant jamais demandé de crédit à la consommation ni connu un incident de paiements et ayant un solde élevé Cluster 6 : regroupe que des propriétaires divorcés ou veuf étant âgés et qui sont d anciens clients de la banque n ayant jamais connu un incident de paiements Cluster 7 : femmes mariées n ayant jamais demandé de crédit à la consommation et jamais connu un incident de paiements Cluster 8 : regroupe que des locataires masculins et ayant un solde élevé à la banque Cluster 9 : regroupe que des propriétaires âgés ayant déjà demandé un crédit à la consommation mais n ayant jamais connu un incident de paiements, ce sont également d anciens clients de la banque. 3- LA DETECTION DES INCIDENTS Nous avons réaliser une proc logistic en mettant l incident en variable dépendante afin d identifier les variables exogène qui ont un rôle positif ou négatif sur la probabilité de connaitre l incident de paiement. Master_2_SRO_Data-Mining 23

24 L étude des corrélations nous montre que les incidents dépendent fortement de l ancienneté des clients, plus ils sont jeunes, plus ils ont de chance de connaitre l incident. Enfin le fait d avoir un important solde en banque diminue la probabilité d incident. Master_2_SRO_Data-Mining 24

25 Conclusion Cette étude avait pour objectif de développer le meilleur modèle de crédit scoring permettant de prédire la probabilité de défaut des clients d une banque. Pour ce faire 3 outils statistiques (régression logistique, arbres de décision et réseaux de neurones) ont été utilisés pour conclure au meilleur modèle prédictif permettant de distinguer les bons clients des mauvais, après analyse des résultats obtenus nous avons sélectionné le modèle issue de l arbre de décision comme le modèle le plus performant. Cependant, le score de risque bancaire pour un prêt n est qu un élément dans le processus de décision car comme toute méthode statistique, le scoring commet des erreurs et un individu qui a la malchance d avoir un profil proche de celui de mauvais payeurs sera considéré comme tel mais ce type de méthodes commet moins d erreurs et est plus objectif que les jugements d expert. Aujourd hui, la discrimination entre défaillants et non-défaillants n est plus le seul objectif des banques, surtout pour des prêts à long terme. En effet, il est autant intéressant pour les banques de connaître quand la défaillance va avoir lieu que de connaître si elle va effectivement avoir lieu. Actuellement, de nombreux travaux s orientent vers l utilisation de modèles de survie pour données censurées pour prévoir la date de défaillance de l emprunteur. Master_2_SRO_Data-Mining 25

26 Rapport HTML On rajoute le nœud du rapport HTML et on le relie à l ensemble du diagramme comme sur le diagramme ci-dessous : Master_2_SRO_Data-Mining 26

27 Annexe Master_2_SRO_Data-Mining 27

28 Master_2_SRO_Data-Mining 28

29 Master_2_SRO_Data-Mining 29

30 Master_2_SRO_Data-Mining 30

31 Master_2_SRO_Data-Mining 31

32 1-la variable sexe par classes : 2-les propriétaires par classes : 3-les incidents par classes : Master_2_SRO_Data-Mining 32

33 4-la variable âge par classes présentée par un box plot : 5-la variable ancienneté par classes présentée par un box plot : Master_2_SRO_Data-Mining 33

34 6-la variable solde présentée par un box plot : Master_2_SRO_Data-Mining 34

35 Le programme SAS qui nous a permis de faire cette classification : /*debut Programme SAS :*/ libname classif "C:\Users\Mahamat Oumar\Desktop\DM"; /***********************************/ /* Codage des données */ /* pour variables qualitatives */ /***********************************/ data classif.banque1; set classif.banque; run; proc print; run; /*---- Dummy pour STATUT ----*/ if STATUT = '1' then do ; S1 = 1/sqrt(2) ; S2 = 0 ; S3 = 0 ; end ; else if STATUT = '2' then do ; S2 = 1/sqrt(2) ; S1 = 0 ; S3 = 0 ; end ; else if STATUT = '3' then do ; S3 = 1/sqrt(2) ; S1 = 0 ; S2 = 0 ; *2=N(n modalité)-1; end ; /*---- Dummy pour SEXE ----*/ if SEXE = 1 then SEXE = 0; if SEXE = 2 then SEXE = 1; /***************************************************************/ /* 0 - Proc print qui sert à afficher la table passer en entré */ /***************************************************************/ %macro print(nom_table); ods html; proc print data=classif.&nom_table; ods html close; %mend print; %print(banque); %print(banque1); %print(table_stdize); /*************************/ /* 1 - Standardisation */ /* Proc STDIZE */ /*************************/ Master_2_SRO_Data-Mining 35

36 %macro stdize(nom_table,variables,methode); title "&variables sont standardisées par PROC STDIZE avec la méthode &methode"; proc stdize data=classif.&nom_table out=classif.table_stdize pstat method=&methode; var &variables ; %mend; %stdize(banque1, AGE ANCIEN SOLDE, RANGE); data classif.table_stdize; set classif.table_stdize; drop STATUT; run; /***************************/ /* 2 - Données corrélées */ /***************************/ proc corr data=classif.table_stdize; var AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3; run; /************************************************************************** **********************************/ /* 3 - commençons avec 40 cluster et choisissons les classes qui portent plus d'information- Fastclus */ /************************************************************************** *********************************/ %MACRO MyFastClus (N, tablein, tableout, variables, identifiant); title "Données obtenues par PROC FASTCLUST avec &N clusters"; proc fastclus data=classif.&tablein maxclusters=&n maxiter=15 CONV= mean=classif.&tableout.fastmean&n cluster=cluster radius=0 replace=full IMPUTE SUMMARY ; var &variables; id &identifiant; %MEND MyFastClus; %MyFastClus ( 40, table_stdize, table_, AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3, ID); /*bien voir si la convergence a lieu avant le maxiter sinon l'augment mais souvent à cause d'une mauvaise stdize; /****************************/ /* 3 - Cluster - METHODE */ /* sur les N de Fastclus */ /****************************/ %macro cluster(table_fastmean, variables, methode); title "Données obtenues par PROC CLUSTER afin de pouvoir choisir les meilleurs clusters"; Master_2_SRO_Data-Mining 36

37 proc cluster data=classif.&table_fastmean outtree=classif.table_cluster method=&methode CCC pseudo; var &variables; id cluster; proc gplot data=classif.table_cluster; symbol1 v=dot ; plot _RSQ_*_NCL SPRSQ_*_NCL CCC_*_NCL PSF_*_NCL PST2_*_NCL_ ; axis1 order=(0 to.2 by 0.02); PROC TREE DATA=classif.table_cluster HEIGHT=H HORIZONTAL haxis=axis1; Id Cluster ; axis1 order=(0 to.2 by 0.02); PROC TREE DATA=classif.table_cluster HEIGHT=RSQ HORIZONTAL haxis=axis1 ; Id Cluster ; %mend cluster; %cluster( table_fastmean40, AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3, ward); *on identifie clairement 9 clusters grâce aux stats et a l'arbres /****************************/ /* 4 - Calcul des centroïds */ /* sur nos 9 clusters */ /****************************/ %macro centroid(table, variables, N); goption reset=all; title; options nodate; proc tree DATA=classif.&table NOPRINT OUT=classif.table_Seed N=&N ; COPY &variables; proc means data=classif.table_seed noprint; *permet obtenir l table pour le seed; class cluster; var &variables; output out=classif.table_means mean=&variables; data classif.table_means; SET classif.table_means; If _type_=0 then delete; %mend centroid; %centroid (table_cluster, AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3, 9); %print (table_means); /*********************************/ /* 5 - rafaire FASTCLUS ******/ /* avec les 9 centroids optimaux*/ /*********************************/ %macro fastclus(n, tablein, tableout, variables, identifiant); goption reset=all; title "Données obtenues par PROC FASTCLUS avec &N clusters"; Master_2_SRO_Data-Mining 37

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Apprentissage Statistique. Bureau d étude :

Apprentissage Statistique. Bureau d étude : Apprentissage Statistique Bureau d étude : Score d appétence en GRC Hélène Milhem IUP SID M2 2011/2012 Institut de Mathématiques de Toulouse UMR CNRS C5219 Equipe de Statistique et Probabilités Université

Plus en détail

Projet OAD Crédit-Scoring Deutsche Bank

Projet OAD Crédit-Scoring Deutsche Bank Année scolaire 2009/2010 Projet Modélisation de 3 ème année Projet OAD Crédit-Scoring Deutsche Bank Réalisé par : Guillaume BARANES-BERREBI Manon ROUSSEAU Sous la direction de Farid BENINEL Guillaume BARANES-BERREBI

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 8. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 8. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 8 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Données qualitatives, modèles probit et logit

Données qualitatives, modèles probit et logit Données qualitatives, modèles probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours de Christophe Hurlin. On est confronté à des données qualitatives en micro-économie

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

Projet Statistiques. - Rapport -

Projet Statistiques. - Rapport - Erich FERRAGUTI Teddy HENNART Projet Statistiques - Rapport - A l attention de Julien JACQUES Le vendredi 15 mai 2009 Sommaire 1. Introduction... 4 1.1. But... 4 1.2. Cadre... 4 1.3. Contenu... 4 2. Sujet...

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Choisissez la formation. Qui vous intéresse! SPSS Maghreb 72,Av.des Nations Unies Rabat-Agdal-Maroc. Tél : 037-67.08.66/67 Fax : 037-67.08.

Choisissez la formation. Qui vous intéresse! SPSS Maghreb 72,Av.des Nations Unies Rabat-Agdal-Maroc. Tél : 037-67.08.66/67 Fax : 037-67.08. SPSS Maghreb 72,Av.des Nations Unies Rabat-Agdal-Maroc Tél : 037-67.08.66/67 Fax : 037-67.08.69 Choisissez la formation spssmaroc@maghrebnet.net.ma Qui vous intéresse! Site web : www.spss.com/localoffices/morocco

Plus en détail

TP 1. Introduction au logiciel SAS Analyse Statistique Univariée

TP 1. Introduction au logiciel SAS Analyse Statistique Univariée IMIS : Master 1 Université Paris Est Marne la Vallée TP 1. Introduction au logiciel SAS Analyse Statistique Univariée 1. Premier contact avec SAS 1. Lancez le logiciel sas. Vous voyez apparaître les fenètres

Plus en détail

Économétrie 2 : données qualitatives, probit et logit

Économétrie 2 : données qualitatives, probit et logit URCA Hugo Harari-Kermadec 2008-2009 harari@ecogest.ens-cachan.fr Économétrie 2 : données qualitatives, probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours

Plus en détail

La régression logistique généralisée avec la procédure LOGISTIC

La régression logistique généralisée avec la procédure LOGISTIC La régression logistique généralisée avec la procédure LOGISTIC 1 Sommaire I / Régression logistique généralisée 3 a. Introduction 3 b. Présentation de l exemple à étudier 3 II / Modélisation avec la proc

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Université de Caen Basse-Normandie 8 janvier 2013 M2-DECIM Fouilles de données

Université de Caen Basse-Normandie 8 janvier 2013 M2-DECIM Fouilles de données Université de Caen Basse-Normandie 8 janvier 13 M2-DECIM Fouilles de données 1 Votre banque va t-elle vous prêter de l argent? Sommaire 1.1 Description.............................................. 1 1.2

Plus en détail

Data Mining. Modèle d attrition Business Understanding Phase. Study of Churn

Data Mining. Modèle d attrition Business Understanding Phase. Study of Churn IUT de Caen - Département STID Responsable : Alain LUCAS Data Mining Modèle d attrition Business Understanding Phase STID 2ème année Lors d une réunion en septembre 2003 avec les responsables des directions

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Traitement informatique d un tableau de données statistiques. Classes de logiciels de statistique.

Traitement informatique d un tableau de données statistiques. Classes de logiciels de statistique. Traitement informatique d un tableau de données statistiques. Classes de logiciels de statistique. B. Govaerts - Institut de Statistique - UCL STAT2430 Traitements de données et classes de logiciels Page

Plus en détail

SAS - Compléments. (notes de cours)

SAS - Compléments. (notes de cours) 1 SAS - Compléments (notes de cours) SAS est un ensemble logiciel d'une grande richesse. On présente ici quelques commandes de base de statistique descriptive univariée et bivariée. Cet exposé ne prétend

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Pierre-Louis GONZALEZ

Pierre-Louis GONZALEZ SEGMENTATION Pierre-Louis GONZALEZ 1 I. Les méthodes de segmentation. Introduction Les méthodes de segmentation cherchent à résoudre les problèmes de discrimination et de régression en divisant de façon

Plus en détail

TP 1. Introduction au logiciel SAS Analyse Statistique Univariée

TP 1. Introduction au logiciel SAS Analyse Statistique Univariée DESS de Mathématiques Université Paris 6 TP 1. Introduction au logiciel SAS Analyse Statistique Univariée 1. Premier contact avec SAS 1. Connectez-vous sur ibm1. Lancez le logiciel : sas & Vous voyez apparaître

Plus en détail

Les données manquantes en statistique

Les données manquantes en statistique Les données manquantes en statistique N. MEYER Laboratoire de Biostatistique -Faculté de Médecine Dép. Santé Publique CHU - STRASBOURG Séminaire de Statistique - 7 novembre 2006 Les données manquantes

Plus en détail

Les techniques d exploitation de données (Data Mining)

Les techniques d exploitation de données (Data Mining) Les techniques d exploitation de données (Data Mining) 1 Présenté par : Emer Mestiri, M.sc Finance, Data Scientist Conseiller Gestion de risque de crédit, Mouvement Desjardins Sommaire 2 I. Logiciel SAS

Plus en détail

SAS de base : gestion des données et procédures élémentaires

SAS de base : gestion des données et procédures élémentaires 1 SAS de base : gestion des données et procédures élémentaires SAS de base : gestion des données et procédures élémentaires Résumé Description des commandes (module SAS de base) les plus utiles de l étape

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Formation sous SAS. Project - 27.09.2011

Formation sous SAS. Project - 27.09.2011 Formation sous SAS. Project - 27.09.2011 Ce document rassemble les informations fournies lors de la formation doctorale organisée par l'association PROJECT. Deux parties le composent: La partie procédures

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : Applied Multivariate Statistical Analysis»,

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

TABLEAU 5 Nombre moyen (et écarts types) de mots produits selon le niveau scolaire et les trois conditions de révision

TABLEAU 5 Nombre moyen (et écarts types) de mots produits selon le niveau scolaire et les trois conditions de révision Dans ce tableau, si le chercheur ne s intéresse pas aux notes item par item mais simplement à la note globale, alors il conservera seulement les première et dernière colonnes et calculera des statistiques

Plus en détail

Introduction au logiciel SAS.

Introduction au logiciel SAS. Introduction au logiciel SAS. 1. Introduction Documentation: en ligne SAS version 8 : http://v8doc.sas.com/ en ligne SAS version 9 : http://support.sas.com/onlinedoc/913/docmainpage.jsp polycopier de P.

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

INTRODUCTION AU LOGICIEL SAS. Julien JACQUES http://eric.univ-lyon2.fr/ jjacques/

INTRODUCTION AU LOGICIEL SAS. Julien JACQUES http://eric.univ-lyon2.fr/ jjacques/ INTRODUCTION AU LOGICIEL SAS Julien JACQUES http://eric.univ-lyon2.fr/ jjacques/ Table des matières 1 Préliminaires 4 2 Introduction à SAS 4 2.1 Les différentes fenêtres........................................

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Introduction au logiciel SAS Julien JACQUES http ://math.univ-lille1.fr/ jacques/ POLYTECH LILLE DÉPARTEMENT G.I.S.

Introduction au logiciel SAS Julien JACQUES http ://math.univ-lille1.fr/ jacques/ POLYTECH LILLE DÉPARTEMENT G.I.S. Introduction au logiciel SAS Julien JACQUES http ://math.univ-lille1.fr/ jacques/ POLYTECH LILLE DÉPARTEMENT G.I.S. Table des matières 1 Préliminaires 3 2 Introduction à SAS 3 2.1 Les différentes fenêtres........................................

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» 46, rue de la Tour 75116 Paris tél. (33) 01 73 00 55 00 fax (33) 01 73 00 55 01 www.softcomputing.com Sommaire

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

TECHNIQUES DE SCORING

TECHNIQUES DE SCORING TECHNIQUES DE SCORING Projet Tutoré 2 ième année IUP-IES 2007/2008 Baha-Eddine Aouni Carminda Cid Mael Jauniaux Table des Matières 1 INTRODUCTION 4 2 AVANT L ESTIMATION 5 2.1 NETTOYAGE ET DATA SPLITTING

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Compte Rendu du Projet de Modélisation Stastistique

Compte Rendu du Projet de Modélisation Stastistique Master 1 Ingeniérie Mathématiques année 2008-2009 Compte Rendu du Projet de Modélisation Stastistique Blaise Pierre-Jean Masse Antoine Quignon Fabien Table des matières 1 Introduction 3 2 Présentation

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2 UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 Master d économie Cours de M. Desgraupes MATHS/STATS Document 4 : Les tests statistiques 1 Généralités sur les tests

Plus en détail

Préparation des données. Auteur : Dan Noël Date : 24.04.2009

Préparation des données. Auteur : Dan Noël Date : 24.04.2009 Préparation des données Auteur : Dan Noël Date : 24.04.2009 Objectifs du module Comprendre les données et passer en revue les étapes principales de la préparation des données afin de maximiser la performance

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Plan de la séance 3 : Le risque de crédit (1) Les opérations de crédit Définition d un crédit La décision de crédit Les crédits aux petites

Plus en détail

UTFPR. Nada Benlahbib. [DATA MINING] Fertility Data Set

UTFPR. Nada Benlahbib. [DATA MINING] Fertility Data Set UTFPR [DATA MINING] Fertility Data Set Sommaire Introduction... 2 1. Description de la base de données... 3 1.1. Origine de la base... 3 1.2. Description des attributs... 3 1.3. Exploration des données...

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

INTERNATIONAL CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS (ICMPA) UNESCO CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS

INTERNATIONAL CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS (ICMPA) UNESCO CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS INTERNATIONAL CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS (ICMPA) UNESCO CHAIR IN MATHEMATICAL PHYSICS AND APPLICATIONS established in 2006 at the University of Abomey-Calavi (Republic of Benin) UNITWIN/UNESCO

Plus en détail

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Scoring - Modélisation Data Management, Data Mining, Text Mining 1 Guide du Data Miner Scoring - Modélisation Le logiciel décrit dans le manuel est diffusé dans le cadre d un accord

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

TP Bonus : Simulation de variables aléatoires

TP Bonus : Simulation de variables aléatoires IMIS : Master 1 Université Paris Est Marne la Vallée TP Bonus : Siulation de variables aléatoires 1. Siulation de lois Dans les applications, on a souvent besoin de générer de façon artificielle (à l aide

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7.

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7. UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre Fiche N 7 (avec corrigé) L objet de ce TD est de vous initier à la démarche et à quelques

Plus en détail

Why Software Projects Escalate: The Importance of Project Management Constructs

Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 6 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Examen d accès - 28 Septembre 2012

Examen d accès - 28 Septembre 2012 Examen d accès - 28 Septembre 2012 Aucun document autorisé - Calculatrice fournie par le centre d examen Cet examen est un questionnaire à choix multiples constitué de 50 questions. Plusieurs réponses

Plus en détail

Chacune des valeurs d une variable en est une modalité particulière.

Chacune des valeurs d une variable en est une modalité particulière. Psychologie générale Jean Paschoud STATISTIQUE Sommaire Rôle de la statistique Variables Échelles de mesure Résumer, décrire Comparer Rôle de la statistique La statistique est avant tout un outil permettant

Plus en détail

Apprentissage supervisé

Apprentissage supervisé Apprentissage supervisé 1 Apprendre aux ordinateurs à apprendre Objectif : appliquer la démarche de l apprentissage par l exemple à l ordinateur. Montrer des exemples à l ordinateur en lui disant de quoi

Plus en détail

Introduction au système SAS Progiciel de traitement statistique des données

Introduction au système SAS Progiciel de traitement statistique des données Introduction au système SAS Progiciel de traitement statistique des données École de psychologie Université de Moncton Septembre 2013 Table des matières Avant-propos... 4 Chapitre 1 - Présentation... 6

Plus en détail

Module 3 : Introduction à la Modélisation SOUS MODELER

Module 3 : Introduction à la Modélisation SOUS MODELER Module 3 : Introduction à la Modélisation SOUS MODELER 1 Techniques prédictives Passé pour prédire l avenir 2 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur

Plus en détail

MASTER «Sciences de la Vie et de la Santé» Mention «Santé Publique»

MASTER «Sciences de la Vie et de la Santé» Mention «Santé Publique» M1_presentation_generale_4juil05.doc 1/11 MASTER «Sciences de la Vie et de la Santé» Mention «Santé Publique» La mention s articule autour de 6 spécialités : Recherche en éthique : Pr Christian HERVE (herve@necker.fr)

Plus en détail

ANALYSE DU RISQUE DE CRÉDIT

ANALYSE DU RISQUE DE CRÉDIT ANALYSE DU RISQUE DE CRÉDIT Banque & Marchés Cécile Kharoubi Professeur de Finance ESCP Europe Philippe Thomas Professeur de Finance ESCP Europe TABLE DES MATIÈRES Introduction... 15 Chapitre 1 Le risque

Plus en détail

Analyse des données individuelles groupées

Analyse des données individuelles groupées Analyse des données individuelles groupées Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses

Plus en détail

De la proc Print à ODS Escapechar un résumé des techniques contournables et incontournables pour le reporting avec SAS 9

De la proc Print à ODS Escapechar un résumé des techniques contournables et incontournables pour le reporting avec SAS 9 De la proc Print à ODS Escapechar un résumé des techniques contournables et incontournables pour le reporting avec SAS 9 http://www.od-datamining.com Sommaire 0- Principe et évolutions de l ODS 1- Proc

Plus en détail

Phase A : Business understanding. Phase B : Data understanding

Phase A : Business understanding. Phase B : Data understanding IUT de Caen - Département STID Responsable : Alain LUCAS Data Mining Fiche de TP n o 1 - Profiling STID ème année Dans le cadre d un projet de Data Mining, il est relativement rare, sauf peut-être dans

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Initiation à SAS PC. Loïc Desquilbet, PhD. Département des Productions Animales et de Santé Publique. Ecole Nationale Vétérinaire d Alfort.

Initiation à SAS PC. Loïc Desquilbet, PhD. Département des Productions Animales et de Santé Publique. Ecole Nationale Vétérinaire d Alfort. Initiation à SAS PC Loïc Desquilbet, PhD Département des Productions Animales et de Santé Publique Ecole Nationale Vétérinaire d Alfort ldesquilbet@vet-alfort.fr Version v1 Présentation générale de SAS

Plus en détail

Analyse des données «Hamburgers» à l aide de SPSS (v2, janvier 2011) Auteur : André Berchtold

Analyse des données «Hamburgers» à l aide de SPSS (v2, janvier 2011) Auteur : André Berchtold Analyse des données «Hamburgers» à l aide de SPSS (v2, janvier 2011) Auteur : André Berchtold Le site web «The Fast Food Explorer» (www.fatcalories.com) propose des données relatives à la composition des

Plus en détail

Scénario: Données bancaires et segmentation de clientèle

Scénario: Données bancaires et segmentation de clientèle Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé

Plus en détail

INTRODUCTION A L ETUDE DES VARIABLES QUALITATIVES

INTRODUCTION A L ETUDE DES VARIABLES QUALITATIVES INTRODUCTION A L ETUDE DES VARIABLES QUALITATIVES Plan Introduction Définition Catégories de variables qualitatives Modèles pour Données avec Troncature Les Modèles pour Données Censurées Définition de

Plus en détail

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus²

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Développement Parc Altaïs 74650 CHAVANOD Tél : 33 / 4.50.69.82.98. Fax : 33 / 4.50.69.82.78.

Plus en détail

La distinction. entre charges opérationnelles et charges de structure

La distinction. entre charges opérationnelles et charges de structure La distinction 7 entre charges opérationnelles et charges de structure OBJECTIF Maîtriser les concepts de base en matière de variabilité des charges Identifier les situations où la décomposition entre

Plus en détail