Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Dimension: px
Commencer à balayer dès la page:

Download "Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH"

Transcription

1 Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1

2 Table des matières PARTIE 1 1. Résumé (Abstract). 2. Introduction Le datamining.. 4. Analyse exploratoire Régression logistique. 6. Arbres de Décision 7. Réseaux de neurones PARTIE 2 1. Présentations des données.. 2. Méthodes de classification. 3. Détection des incidents Conclusion... Rapport HTML.. Annexe. Master_2_SRO_Data-Mining 2

3 PARTIE 1 1.Résumé L objectif est d exploiter la méthodologie et les outils du Data Mining pour construire un score de crédit en utilisant SAS Entreprise Miner ; mais aussi faire une macro SAS qui permet de construire une typologie de la clientèle particulière d une banque. Pour cela, nous disposons d un échantillon de 5960 individus et de 13 variables que nous avons importé de la bibliothèque SAS la base de données SAMPSIO.HMEQ. Nous avons utilisé plusieurs méthodes statistiques (régression logistique, arbres de décision et réseaux de neurones pour la première partie et les techniques de classification pour le second) afin de construire ce score et générer cette Macro. Les résultats ont montré l importance des variables DEBTINC (Taux de Dette-àrevenu), DELINQ (Nombre de crédit non remboursé), et CLAGE (du crédit le moins récent, en mois) dans la prédiction du défaut de paiement. Le modèle retenu comme optimal est un modèle d arbre de décision qui permet de prédire correctement dans plus de 85% des cas les bons payeurs. Mots clés : Crédit scoring, Régression logistique, Arbres de décision, Réseaux de neurones. Master_2_SRO_Data-Mining 3

4 2. Introduction Aujourd hui, les accords de «Bâle 2» sur la solvabilité des banques imposent à ces dernières de calculer des probabilités de défauts et le montant des pertes en cas de défauts en utilisant des techniques de scoring. Le terme Crédit Scoring désigne un ensemble d aide à la décision et de techniques sous jacentes utilisées par les organismes financiers pour évaluer le risque de non remboursement d un prêt (Thomas et al. 2002). Le crédit scoring utilise des mesures quantitatives de performances des prêts futurs avec des caractéristiques similaires. Le crédit scoring n approuve, ni rejette une demande de prêt, il peut plutôt prédire la probabilité d occurrence de mauvaise performance (défaut) telle que définie le prêteur (Caire et Kossmann, 2003). Le scoring permet de résoudre un problème qui peut paraître simple en apparence puisqu il s agit en effet, de classer les clients des banques entre les «bons» et les «mauvais» payeurs. Pour cela on utilisera les techniques de Data Mining sous SAS Enterprise Miner 4.3, plusieurs méthodes vont être étudiées (Régression Logistique, Arbres de décisions et Réseaux de neurones). Cependant, les approches traditionnelles de l inférence statistique échouent avec les grosses bases de données, car en présence de milliers ou de million de cas et de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de redondance parmi les variables, certaines relations seront fausses, et même les relations les plus faibles paraîtront statistiquement importantes dans tout test statistique. L objectif est de construire un modèle dont le pouvoir de prédiction est satisfaisant. La base d étude du projet concerne une entreprise de services financiers qui offre à ses clients, qui ont un prêt hypothécaire avec elle, la possibilité d avoir une marge de crédit. Dans le passé, plusieurs de ses clients ont obtenu et utilisé la marge de crédit et un bon pourcentage d entre eux (environ 20%) ont eu des défauts de paiement. Master_2_SRO_Data-Mining 4

5 Qu est-ce que le data mining? Le data mining est l exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques, et l'utilisation industrielle ou opérationnelle de ce savoir. Elle est utilisée dans le monde professionnel pour résoudre des problématiques très diverses, allant de la gestion de relation client à la maintenance préventive, en passant par la détection de fraudes ou encore la prévision d audience TV. Les plus concernés sont les secteurs où d importants volumes de données doivent être analysés en vue de prendre des décisions. Le data mining permet aussi de limiter la subjectivité humaine dans les processus de décision, et aussi, grâce à la puissance grandissante des outils informatiques de traiter de plus en plus rapidement de grands nombres de dossiers. A quoi sert le data mining? 3. Data Mining Les banques, C est dans le secteur bancaire qu est né le scoring de risque, au milieu du 20éme siècle, où les moyens de calcul étaient très rudimentaires. Depuis de multiples techniques de data mining (Scoring, classification, association des produits ) ont envahi la banque. Cet essor du data mining dans l activité bancaire s explique par la conjonction de plusieurs éléments : le développement des nouvelles technologies de communication (Internet, téléphonie mobile ) et de traitement de l information (Entrepôts de données), les attentes accrues de qualité de service des clients, la concurrence exercée sur les banques à réseau par les sociétés de crédit et les «nouveaux entrants» (La grande distribution, les compagnies d assurance ). La grande distribution développe ses cartes de crédit privatives, lui permettant de se constituer de grandes bases de données (près de 3 millions de porteurs pour la carte Pass de carrefour) enrichies par les informations comportementales provenant de tickets de caisses. En outre, les services associés à ces cartes (caisse réservées, promotions exclusives ) sont facteurs de fidélisation, ce qui n est pas négligeable à l heure de la concurrence des «hard discounters». Master_2_SRO_Data-Mining 5

6 En assurance de biens et de personnes, les études de ventes croisées (cross-selling), de montées en gamme (up-selling). Le besoin du data mining dans ce domaine s est exacerbé avec le développement de la concurrence des nouveaux entrants que sont les banques qui pratiquent ce qu on appelle la bancassurance. 4. Analyse exploratoire Présentation des données La table d étude contient des données propres aux clients et celles relatives aux crédits, elle est constituée de variables géographiques, démographiques et financières permettant ainsi la construction et la comparaison des modèles en concurrence. BAD : Variable cible binaire : BAD = 1 : Bon client (client ayant remboursé son prêt BAD = 0 : Mauvais client (client ayant commis une fraude ou défaut de remboursement) CLAGE : Durée du crédit le moins récent, en mois CLNO : Nombre de crédit DEBTINC : Taux de Dette-à-revenu DELINQ : Nombre de crédit non remboursé DEROG : Nombre d'états dérogatoires principaux JOB : Catégorie professionnelle du client LOAN : Montant du crédit YOJ : Ancienneté du job le plus récent VALUE : La valeur de la propriété MORTDUE : Montant dû sur l'hypothèque existante NINQ : Nombre d'enquêtes récentes de degré de solvabilité REASON : DebtCon = Fusion de dette Le tableau 1 ci-dessous représente les rôles, les formats et les descriptions des variables de notre base d étude, on peut se rendre compte que la variable BAD a un rôle target car c est la variable qu on modélise, cependant, donc on a du modifier son rôle de input à target : Master_2_SRO_Data-Mining 6

7 Tableau 1 Statistiques descriptives Analyse de la variable cible à travers sa distribution sur la figure ci-dessous : Figure 1 Master_2_SRO_Data-Mining 7

8 20% des observations représentent des prêts pour lesquels le client n ont pas payé leur prêts ( BAD=1 ), contre 80% des observations correspondant aux clients ayant payés leurs crédits ( BAD=0 ), pour les autres variables voir l annexe. Sur le tableau 2 ci-dessus nous avons les statistiques descriptives des variables quantitatives de la base travail : Tableau 2 Name Min Max Mean Std Missing Skewness Kurtosis Dev. % LOAN % MORTDUE % VALUE % YOJ % CLAGE % NINQ % CLNO % DEBTINC % L analyse de ces résultats n indique pas des aberrations sauf pour la variable DEBTINC dont le pourcentage des valeurs manquantes est relativement élevé (21%). Pour les variables qualitatives constituées de différentes classes, nous étudions le pourcentage des valeurs manquantes, et l option «Order» qui nous indique l ordre de tri de chacune des variables ainsi nous remarquons que pour toutes les variables la commande de tri est croissante sauf pour la variable cible binaire à savoir BAD la commande de tri est décroissante, donc l événement qui sera modéliser correspond à BAD=1. Name Values Missing % Order BAD 2 0% Descending REASON 2 5% Ascending JOB 6 5% Ascending DEROG 10 12% Ascending DELINQ 10 9% Ascending Master_2_SRO_Data-Mining 8

9 Partitionnement de la base de travail Entreprise Miner partitionne par défaut la base en trois sous échantillons aléatoires: apprentissage représentant 40% de l échantillon de base, l échantillon de validation avec 30% de la base d étude et l échantillon de test constituant 30% de l échantillon de base, la méthode utilisée est le tirage aléatoire, ainsi toutes les observations de la base d étude ont la même chance d être sélectionnées. 5. Régression logistique Principe : Dans la régression logistique binaire (dichotomique), on considère une variable cible (Bad) binaire (Bad=1 ou 0), et des variables explicatives Xj continues, binaires ou qualitatives (dont les indicatrices ramènent au cas d une variable binaire). L objectif de la régression logistique est celui de toute régression : modéliser l espérance conditionnelle E (Y X=x). On veut connaître la valeur moyenne de Y pour toute valeur de X. Pour une valeur Y valant 0 ou 1, cette moyenne est la probabilité qu Y=1 (loi Bernoulli). On a donc : E (Y X=x)= Prob (Y=1 X=x). En résumé, la régression logistique avec fonction de lien Logit consiste à écrire : π(x) = Prob (Y=1 X=x) Sous la forme Log ( ) = β0+β1*x1+ +βp*xp. Les avantages de la régression logistique sont très nombreux, cependant, on va citer quelques un : 1. Les coefficients sont facilement interprétables en termes de ratios du risque. Master_2_SRO_Data-Mining 9

10 2. Elle permet de détecter certain phénomène non linéaires. 3. Elle modélise directement une probabilité. 4. Elle détecte des phénomènes globaux (contrairement aux arbres de décision qui ne détecte que les phénomènes locaux). Cependant la régression logistique a des inconvénients non négligeables : 1. Elle ignore les valeurs manquantes (Sauf discrétisation, regroupement des valeurs manquantes dans une classe spécifique). 2. Elle est sensible aux individus hors norme (Sauf discrétisation). Sélection automatique des variables Afin de déterminer le meilleur score, nous avons utilisé sous, la sélection automatique des variables explicatives afin de retenir dans le modèle final que les variables pertinentes parmi notre liste de variables candidates. Il existe 3 techniques différentes permettant la sélection des variables : Backward : Cette procédure estime le modèle avec la totalité des variables explicatives. A l aide d un test de Wald, la moins significative est retirée dès lors que son seuil de significativité est supérieur à la valeur exigée (par slstay=). La procédure s arrête lorsque plus aucune n est autorisée à sortir. Forward : Cette procédure estime le modèle avec constante et les k 0 premières explicatives de la liste de k variables, où k 0 est fixé par l option start= k 0 ou include= k 0. Par défaut, k 0 = 0. Ensuite la procédure recherche parmi les k k0 variables restantes la plus significative et l ajoute au modèle si son seuil de significativité est inférieur au seuil fixé par slentry=. Une fois entrée dans le modèle la variable n est jamais retirée. Master_2_SRO_Data-Mining 10

11 Stepwise : La procédure s exécute comme avec l option forward à la différence qu une variable entrée à une étape de la sélection peut sortir du modèle si à une étape ultérieure, et donc après prise en compte de nouvelles explicatives, son seuil de significativité passe au-dessus de la valeur requise par slstay. On laissera les valeurs par défaut des différentes méthodes à savoir 0.05 comme seuil de significativité et k0=0 pour la méthode Forward. Ces trois méthodes donnent les mêmes résultats, cependant on retiendra la méthode Stepwise qui combine les deux autres. Mise en place d un modèle de régression logistique On relie le nœud de partition et celui de régression au nœud de cloison de données. Le diagramme apparaît maintenant comme suit : Résultats Ci-dessous la courbe Lift associée à la régression Logistique par défaut, on constate que le modèle n est pas du tout bon car, la courbe présente une allure non habituelle. Master_2_SRO_Data-Mining 11

12 Figure2 Ce problème peut être dû au pourcentage assez élevé de valeurs manquantes dans certaines variables, car la régression logistique ne tient pas compte de ces valeurs manquantes, D où la nécessité d exécuter l'imputation avant d'adapter un modèle de régression. Pour se faire nous utilisons le nœud de remplacement. Remplacement de Données : Le nœud de remplacement nous permet de substituer les valeurs manquantes pour chacune des variables. Ce remplacement est nécessaire pour utiliser toutes les observations dans l échantillon d apprentissage quand on établit un modèle de régression ou de réseau neurone car ceux là ignorent toutes les observations manquantes. Tandis que les arbres de décision manipulent des valeurs manquantes directement. Il est plus approprié de comparer les modèles qui sont établis sur le même ensemble d'observations. Par défaut, Entreprise miner emploie un échantillon provenant de l échantillon d apprentissage pour choisir les valeurs pour le remplacement des données manquantes. Master_2_SRO_Data-Mining 12

13 Le principe de base d imputation des données manquantes se présente comme suit : Les observations ayant une valeur manquante pour une variable d'intervalle cette dernière est substituée avec la moyenne dans l'échantillon pour la variable correspondante. Les données manquantes correspondantes aux variables binaire, nominale, ou ordinale sont substituées la modalité la plus fréquente de la variable correspondante dans l'échantillon. Le nouveau diagramme apparaître comme suit Après avoir exécuté notre modèle, on obtient la courbe Lift ci-dessous : Figure3 Le diagramme cumulatif de %Response est construit de la façon suivante : Master_2_SRO_Data-Mining 13

14 La réponse d'intérêt est le défaut de paiement (BAD=1). Pour chaque client, le modèle de régression adapté prévoit une probabilité que le client fasse défaut. Les observations sont triées selon la probabilité prévue la plus élevée à la probabilité la plus basse. Les observations sont alors groupées dans des cases, chacune contient approximativement 10% des données. En utilisant la variable cible BAD, on compte le pourcentage des répondants réels dans chaque case. Si le modèle est bon, alors la proportion de clients ayant remboursé leur crédit sera relativement haute dans les cases dont la probabilité prévue est haute. La courbe de réponse cumulative qui est montrée ci-dessus trace le pourcentage des répondants. Dans le 10% principal, presque deux-tiers des individus s'était transféré sur un prêt. Dans le 20% principal, un peu plus de la moitié s'était transféré sur le prêt. La ligne bleue horizontale représente la cadence de ligne de base (approximativement 20%) pour la comparaison. La ligne de base est une évaluation du pourcentage des contrevenants qu on compterait si on devait prendre un échantillon aléatoire. Le traçage de défaut représente des pourcentages cumulatifs, mais on peut également voir la proportion de ceux qui se sont transférés dans chaque coffre par le choix de l option Non-Cumulatif de lift chart. La comparaison des diagrammes se rapporte à ceux qui se sont transférés sur un prêt comme contrevenants ou répondants. Dans la courbe précédente, le pourcentage des contrevenants était 67.56% dans le premier décile (10%). En d'autres termes, 67.56% de ceux dans le premier décile ont eu l'événement de cible d'intérêt (BAD=1). Master_2_SRO_Data-Mining 14

15 Non Cumulative %Response Cumulative %Response 6. Arbres de décision Principes La technique de l arbre de décision est employée en prédiction pour détecter des critères permettant de rétablir les individus d une population en n classes (Souvent n=2 comme le cas ici) prédéfinies. Cette technique est nonparamétrique, ce qui signifie qu elle ne suppose pas que les variables explicatives suivent des lois de probabilité particulières. Mise en place d un arbre de décision On ajoute le nœud correspondant à l arbre de décision qu on relie au nœud de cloison de données d une part et d autre part à celui de l évaluation le processus apparaît maintenant comme suit : Master_2_SRO_Data-Mining 15

16 Résultats On peut constater ainsi que le modèle d'arbre surpasse considérablement les deux modèles de régressions, comme on peut le voir sur la lift chart ci-dessous : Figure4 Master_2_SRO_Data-Mining 16

17 Ce résultat peut être expliqué par le fait que les arbres de décision manipulent parfaitement les observations manquantes, contrairement aux modèles de régression logistique qui les ignorent, mais dans le deuxième modèle de régression, on a remplacé les observations manquantes, cela étant fait ce deuxième modèle ne surpasse pas l arbre de décision, cela peut être dû au fait que les arbres de décision sont peu perturbés par la présence des observations hors normes, qui peut être isolés dans de petits nœuds et n influent pas l ensemble du classement, contrairement à ce qui se passe dans les techniques paramétriques et neuronales, l arbre de décision est une technique nonparamétrique ce qui signifie qu elle ne suppose pas que les variables explicatives suivent des lois de probabilité particulières, ces variables peuvent être colinéaires. Si elles ne sont pas discriminantes, l arbre n en est pas affecté, puisqu il se contente de ne pas les sélectionner. De plus la réponse de la cible peut être non linéaire, voire non monotone, en fonction des variables explicatives, il peut exister entre plusieurs variables explicatives et la cible des interactions qui seront détectées par l arbre. 7. Réseaux de neurones Il est aujourd hui impossible de parler du data mining sans parler des réseaux de neurones, qui sont à la fois une technique de descriptive et prédictive (Perceptrons, Réseaux à fonction radiale de base). Ils se sont largement répandus grâce à leur puissance de modélisation, ils peuvent approcher n importe quelle fonction suffisamment régulière, qui fait merveille dans une grande variété de problème, face à des phénomènes complexes. Cependant leur utilisation est par fois freinée par les difficultés qu elle présente : le coté «Boîte noire» des réseaux, la délicatesse des réglages à effectuer, la puissance informatique requise et les risques de sur apprentissage et de convergence vers une solution globalement non optimale. Mise en place d un réseau de neurone Un nœud de réseau neurone par défaut qu on relie au nœud de remplacement et puis nœud d'évaluation, le processus devient maintenant comme suit : Master_2_SRO_Data-Mining 17

18 Résultats Le nœud de réseau neurone de défaut adapte un modèle multicouche du perceptron (MLP) sans les connexions directes. Dans cet exemple, le nœud de réseau neurone est équipé d'une seule couche cachée. Par défaut, Le tabulateur de poids affiche les poids (évaluations de paramètre) des connexions. L'affichage suivant montre les poids des connexions de chaque variable à une seule couche cachée. Chaque niveau de chaque variable de classe est également relié à la couche cachée. Le nœud de réseau neurone ajuste itérativement les poids des connexions pour réduire au minimum la fonction erreur. Ci-dessous le comparatif des quatre modèles sur la courbe Lift : Figure 5 Master_2_SRO_Data-Mining 18

19 Le réseau de neurone n améliore pas la qualité de prédiction, il reste presque au même niveau que la régression logistique, cependant l arbre reste toujours le plus performent parmi tous les modèles qu on a mis en œuvre. Master_2_SRO_Data-Mining 19

20 PARTIE 2 A travers cette étude nous souhaitons construire une typologie de la clientèle particulière d une banque. Nous désirons en particulier connaître les caractéristiques de clients qui lui disposent d un compte d épargne auprès d elle ainsi que ceux qui ont connu un ou des incidents de paiement. Elle dispose des variables suivantes sur un échantillon de 682 de ses clients. 1 PRESENTATION DES DONNEES : ID Nominal Identifiant client AGE Interval Age en année Sexe Nominal 1 : homme, 2 : femme Statut Nominal 1 : Célibataire,2 : Marié 3 : Divorce ou veuf Proprio Nominal 0 : locataire de son logement principal 1 : propriétaire de son logement principal Ancien Interval Ancienneté du client dans la banque, en années Solde Interval Solde mensuel moyen du compte courant CEparg Nominal 0 : ne dispose pas d un compte d épargne 1 : possède un compte d épargne Incid Nominal 0 : n a pas jamais connu d incident de paiement 1 : a déjà connu un (ou des) incident de paiement Master_2_SRO_Data-Mining 20

21 2 - METHODE DE CLASSIFICATION : Cette méthode est faite en trois étapes : Etape 1 : standardisation nos variables L'intérêt de cette étape est de pouvoir comparer la variable standardisée à plusieurs variables numériques présentant des unités de mesures différentes. La variable qualitative multinomiale STATUT a été recodée à l aide de trois nouvelles variables. Formant ainsi une matrice où la distance entre ces variables est la même. Trois de nos variables sont de types intervalle, nous avons alors employé la méthode RANGE(une méthode qui est utilisée avec la macro stdize pour standardiser). Nous nous sommes intéressés à la corrélation qui pouvait exister entre nos variables : Master_2_SRO_Data-Mining 21

22 En lisant la sortie les covariances entre les variables, nous pouvons constater que la covariance la plus forte est de 0,58 qui existe entre l âge et l ancienneté du client dans la banque. L étude des corrélations nous montre que les incidents dépendent fortement de l ancienneté des clients, plus ils sont jeunes, plus ils ont de chance de connaitre l incident. Etape 2 : Nous commençons cette étape avec 40 clusters,puis la macro cluster permet d identifier 9 clusters au regard du critère PSF qui marque un pic à cette valeur. Etape 3 : une dernière étape est de faire l étude avec ses neuf clusters qui portent les plus d informations. Interprétation des classes : Cluster 1 : regroupe que des locataires plus jeunes que dans tous les autres clusters et qui sont de nouveaux clients de la banque, faible solde à la banque Cluster 2 : regroupe que des femme locataires Cluster 3 : regroupe que des propriétaires, ayant toujours connu un incident de paiements et qui sont de nouveaux clients de la banque Cluster 4 : jamais connu un incident de paiements, faible solde à la banque Master_2_SRO_Data-Mining 22

23 Cluster 5 : regroupe que des homme propriétaires n ayant jamais demandé de crédit à la consommation ni connu un incident de paiements et ayant un solde élevé Cluster 6 : regroupe que des propriétaires divorcés ou veuf étant âgés et qui sont d anciens clients de la banque n ayant jamais connu un incident de paiements Cluster 7 : femmes mariées n ayant jamais demandé de crédit à la consommation et jamais connu un incident de paiements Cluster 8 : regroupe que des locataires masculins et ayant un solde élevé à la banque Cluster 9 : regroupe que des propriétaires âgés ayant déjà demandé un crédit à la consommation mais n ayant jamais connu un incident de paiements, ce sont également d anciens clients de la banque. 3- LA DETECTION DES INCIDENTS Nous avons réaliser une proc logistic en mettant l incident en variable dépendante afin d identifier les variables exogène qui ont un rôle positif ou négatif sur la probabilité de connaitre l incident de paiement. Master_2_SRO_Data-Mining 23

24 L étude des corrélations nous montre que les incidents dépendent fortement de l ancienneté des clients, plus ils sont jeunes, plus ils ont de chance de connaitre l incident. Enfin le fait d avoir un important solde en banque diminue la probabilité d incident. Master_2_SRO_Data-Mining 24

25 Conclusion Cette étude avait pour objectif de développer le meilleur modèle de crédit scoring permettant de prédire la probabilité de défaut des clients d une banque. Pour ce faire 3 outils statistiques (régression logistique, arbres de décision et réseaux de neurones) ont été utilisés pour conclure au meilleur modèle prédictif permettant de distinguer les bons clients des mauvais, après analyse des résultats obtenus nous avons sélectionné le modèle issue de l arbre de décision comme le modèle le plus performant. Cependant, le score de risque bancaire pour un prêt n est qu un élément dans le processus de décision car comme toute méthode statistique, le scoring commet des erreurs et un individu qui a la malchance d avoir un profil proche de celui de mauvais payeurs sera considéré comme tel mais ce type de méthodes commet moins d erreurs et est plus objectif que les jugements d expert. Aujourd hui, la discrimination entre défaillants et non-défaillants n est plus le seul objectif des banques, surtout pour des prêts à long terme. En effet, il est autant intéressant pour les banques de connaître quand la défaillance va avoir lieu que de connaître si elle va effectivement avoir lieu. Actuellement, de nombreux travaux s orientent vers l utilisation de modèles de survie pour données censurées pour prévoir la date de défaillance de l emprunteur. Master_2_SRO_Data-Mining 25

26 Rapport HTML On rajoute le nœud du rapport HTML et on le relie à l ensemble du diagramme comme sur le diagramme ci-dessous : Master_2_SRO_Data-Mining 26

27 Annexe Master_2_SRO_Data-Mining 27

28 Master_2_SRO_Data-Mining 28

29 Master_2_SRO_Data-Mining 29

30 Master_2_SRO_Data-Mining 30

31 Master_2_SRO_Data-Mining 31

32 1-la variable sexe par classes : 2-les propriétaires par classes : 3-les incidents par classes : Master_2_SRO_Data-Mining 32

33 4-la variable âge par classes présentée par un box plot : 5-la variable ancienneté par classes présentée par un box plot : Master_2_SRO_Data-Mining 33

34 6-la variable solde présentée par un box plot : Master_2_SRO_Data-Mining 34

35 Le programme SAS qui nous a permis de faire cette classification : /*debut Programme SAS :*/ libname classif "C:\Users\Mahamat Oumar\Desktop\DM"; /***********************************/ /* Codage des données */ /* pour variables qualitatives */ /***********************************/ data classif.banque1; set classif.banque; run; proc print; run; /*---- Dummy pour STATUT ----*/ if STATUT = '1' then do ; S1 = 1/sqrt(2) ; S2 = 0 ; S3 = 0 ; end ; else if STATUT = '2' then do ; S2 = 1/sqrt(2) ; S1 = 0 ; S3 = 0 ; end ; else if STATUT = '3' then do ; S3 = 1/sqrt(2) ; S1 = 0 ; S2 = 0 ; *2=N(n modalité)-1; end ; /*---- Dummy pour SEXE ----*/ if SEXE = 1 then SEXE = 0; if SEXE = 2 then SEXE = 1; /***************************************************************/ /* 0 - Proc print qui sert à afficher la table passer en entré */ /***************************************************************/ %macro print(nom_table); ods html; proc print data=classif.&nom_table; ods html close; %mend print; %print(banque); %print(banque1); %print(table_stdize); /*************************/ /* 1 - Standardisation */ /* Proc STDIZE */ /*************************/ Master_2_SRO_Data-Mining 35

36 %macro stdize(nom_table,variables,methode); title "&variables sont standardisées par PROC STDIZE avec la méthode &methode"; proc stdize data=classif.&nom_table out=classif.table_stdize pstat method=&methode; var &variables ; %mend; %stdize(banque1, AGE ANCIEN SOLDE, RANGE); data classif.table_stdize; set classif.table_stdize; drop STATUT; run; /***************************/ /* 2 - Données corrélées */ /***************************/ proc corr data=classif.table_stdize; var AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3; run; /************************************************************************** **********************************/ /* 3 - commençons avec 40 cluster et choisissons les classes qui portent plus d'information- Fastclus */ /************************************************************************** *********************************/ %MACRO MyFastClus (N, tablein, tableout, variables, identifiant); title "Données obtenues par PROC FASTCLUST avec &N clusters"; proc fastclus data=classif.&tablein maxclusters=&n maxiter=15 CONV= mean=classif.&tableout.fastmean&n cluster=cluster radius=0 replace=full IMPUTE SUMMARY ; var &variables; id &identifiant; %MEND MyFastClus; %MyFastClus ( 40, table_stdize, table_, AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3, ID); /*bien voir si la convergence a lieu avant le maxiter sinon l'augment mais souvent à cause d'une mauvaise stdize; /****************************/ /* 3 - Cluster - METHODE */ /* sur les N de Fastclus */ /****************************/ %macro cluster(table_fastmean, variables, methode); title "Données obtenues par PROC CLUSTER afin de pouvoir choisir les meilleurs clusters"; Master_2_SRO_Data-Mining 36

37 proc cluster data=classif.&table_fastmean outtree=classif.table_cluster method=&methode CCC pseudo; var &variables; id cluster; proc gplot data=classif.table_cluster; symbol1 v=dot ; plot _RSQ_*_NCL SPRSQ_*_NCL CCC_*_NCL PSF_*_NCL PST2_*_NCL_ ; axis1 order=(0 to.2 by 0.02); PROC TREE DATA=classif.table_cluster HEIGHT=H HORIZONTAL haxis=axis1; Id Cluster ; axis1 order=(0 to.2 by 0.02); PROC TREE DATA=classif.table_cluster HEIGHT=RSQ HORIZONTAL haxis=axis1 ; Id Cluster ; %mend cluster; %cluster( table_fastmean40, AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3, ward); *on identifie clairement 9 clusters grâce aux stats et a l'arbres /****************************/ /* 4 - Calcul des centroïds */ /* sur nos 9 clusters */ /****************************/ %macro centroid(table, variables, N); goption reset=all; title; options nodate; proc tree DATA=classif.&table NOPRINT OUT=classif.table_Seed N=&N ; COPY &variables; proc means data=classif.table_seed noprint; *permet obtenir l table pour le seed; class cluster; var &variables; output out=classif.table_means mean=&variables; data classif.table_means; SET classif.table_means; If _type_=0 then delete; %mend centroid; %centroid (table_cluster, AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3, 9); %print (table_means); /*********************************/ /* 5 - rafaire FASTCLUS ******/ /* avec les 9 centroids optimaux*/ /*********************************/ %macro fastclus(n, tablein, tableout, variables, identifiant); goption reset=all; title "Données obtenues par PROC FASTCLUS avec &N clusters"; Master_2_SRO_Data-Mining 37

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Data Mining. Modèle d attrition Modeling Phase & Evaluation Phase. Modeling. IUT de Caen - Département STID Responsable : Alain LUCAS

Data Mining. Modèle d attrition Modeling Phase & Evaluation Phase. Modeling. IUT de Caen - Département STID Responsable : Alain LUCAS IUT de Caen - Département STID Responsable : Alain LUCAS Data Mining Modèle d attrition Modeling Phase & Evaluation Phase STID 2ème année Le travail de compréhension et d appropriation des données («Data

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

Guide de démarrage avec SAS Enterprise Miner 6.1

Guide de démarrage avec SAS Enterprise Miner 6.1 Guide de démarrage avec SAS Enterprise Miner 6.1 Guide de démarrage avec SAS Enterprise Miner 6.1... 1 Introduction au Data Mining... 1 Cas HMEQ :... 2 1. Démarrer SAS Enterprise Miner... 2 2. Définition

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Les Réseaux de Neurones avec

Les Réseaux de Neurones avec Les Réseaux de Neurones avec Au cours des deux dernières décennies, l intérêt pour les réseaux de neurones s est accentué. Cela a commencé par les succès rencontrés par cette puissante technique dans beaucoup

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 8. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 8. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 8 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

UTFPR. Nada Benlahbib. [DATA MINING] Fertility Data Set

UTFPR. Nada Benlahbib. [DATA MINING] Fertility Data Set UTFPR [DATA MINING] Fertility Data Set Sommaire Introduction... 2 1. Description de la base de données... 3 1.1. Origine de la base... 3 1.2. Description des attributs... 3 1.3. Exploration des données...

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

SAS - Compléments. (notes de cours)

SAS - Compléments. (notes de cours) 1 SAS - Compléments (notes de cours) SAS est un ensemble logiciel d'une grande richesse. On présente ici quelques commandes de base de statistique descriptive univariée et bivariée. Cet exposé ne prétend

Plus en détail

Module 3 : Introduction à la Modélisation SOUS MODELER

Module 3 : Introduction à la Modélisation SOUS MODELER Module 3 : Introduction à la Modélisation SOUS MODELER 1 Techniques prédictives Passé pour prédire l avenir 2 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

V ERSION EXPERIMENTALE

V ERSION EXPERIMENTALE V ERSION EXPERIMENTALE Cette version de Sipina v 3.0 n est pas, et ne sera jamais, définitive, elle sert d outil de recherche, elle a plus une vocation d outil d expérimentation que de logiciel dédié au

Plus en détail

Estimation de la variance à l aide des poids de bootstrap Guide de l usager du programme BOOTVARF_V30.SAS (VERSION 3.0)

Estimation de la variance à l aide des poids de bootstrap Guide de l usager du programme BOOTVARF_V30.SAS (VERSION 3.0) Estimation de la variance à l aide des poids de bootstrap Guide de l usager du programme BOOTVARF_V30.SAS (VERSION 3.0) 1. Introduction Ce guide s adresse aux utilisateurs du programme SAS BOOTVARF_V30.SAS

Plus en détail

Préparation des données. Auteur : Dan Noël Date : 24.04.2009

Préparation des données. Auteur : Dan Noël Date : 24.04.2009 Préparation des données Auteur : Dan Noël Date : 24.04.2009 Objectifs du module Comprendre les données et passer en revue les étapes principales de la préparation des données afin de maximiser la performance

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Projet OAD Crédit-Scoring Deutsche Bank

Projet OAD Crédit-Scoring Deutsche Bank Année scolaire 2009/2010 Projet Modélisation de 3 ème année Projet OAD Crédit-Scoring Deutsche Bank Réalisé par : Guillaume BARANES-BERREBI Manon ROUSSEAU Sous la direction de Farid BENINEL Guillaume BARANES-BERREBI

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Données qualitatives, modèles probit et logit

Données qualitatives, modèles probit et logit Données qualitatives, modèles probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours de Christophe Hurlin. On est confronté à des données qualitatives en micro-économie

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

Apprentissage Statistique. Bureau d étude :

Apprentissage Statistique. Bureau d étude : Apprentissage Statistique Bureau d étude : Score d appétence en GRC Hélène Milhem IUP SID M2 2011/2012 Institut de Mathématiques de Toulouse UMR CNRS C5219 Equipe de Statistique et Probabilités Université

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Thomas André Manuel Brisville. Data Mining. Compte-rendu de l activité d évaluation 11/02/2015 UTFPR

Thomas André Manuel Brisville. Data Mining. Compte-rendu de l activité d évaluation 11/02/2015 UTFPR Thomas André Manuel Brisville Data Mining Compte-rendu de l activité d évaluation 11/02/2015 UTFPR 1 Table des matières 2 Introduction... 2 3 La base de données utilisée... 3 3.1 Origine de la base...

Plus en détail

Introduction au logiciel SAS. Olivier Godechot

Introduction au logiciel SAS. Olivier Godechot Introduction au logiciel SAS Olivier Godechot SAS (9.13). Plan d attaque À quoi ressemble le logiciel? Manipuler les données (étape data) Quelques procédures statistiques de base (étape proc) Fusion des

Plus en détail

Introduction à Rcommander

Introduction à Rcommander Introduction à Rcommander Pauline Scherdel Septembre 2014 Table des matières 1 Introduction à Rcmdr sous R 2 2 Interagir avec R 3 3 Installer et charger le package Rcmdr sous R 3 4 Importation des données

Plus en détail

TP 1. Introduction au logiciel SAS Analyse Statistique Univariée

TP 1. Introduction au logiciel SAS Analyse Statistique Univariée IMIS : Master 1 Université Paris Est Marne la Vallée TP 1. Introduction au logiciel SAS Analyse Statistique Univariée 1. Premier contact avec SAS 1. Lancez le logiciel sas. Vous voyez apparaître les fenètres

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

INTRODUCTION AU DATA MINING. Cina MOTAMED

INTRODUCTION AU DATA MINING. Cina MOTAMED INTRODUCTION AU DATA MINING Cina MOTAMED 2 Data Mining : contexte Âge numérique : explosion des volumes de données Transactions commerciales Opérations bancaires Navigation Internet Indicateurs démographiques

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

ANALYSE DU RISQUE DE CRÉDIT

ANALYSE DU RISQUE DE CRÉDIT ANALYSE DU RISQUE DE CRÉDIT Banque & Marchés Cécile Kharoubi Professeur de Finance ESCP Europe Philippe Thomas Professeur de Finance ESCP Europe TABLE DES MATIÈRES Introduction... 15 Chapitre 1 Le risque

Plus en détail

Why Software Projects Escalate: The Importance of Project Management Constructs

Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

Les variables indépendantes catégorielles

Les variables indépendantes catégorielles Les variables indépendantes catégorielles Jean-François Bickel Statistique II SP08 Jusqu à maintenant, nous avons considéré comme variables indépendantes uniquement des variables intervalles (âge) ou traitées

Plus en détail

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : Applied Multivariate Statistical Analysis»,

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

Caisse d Epargne Rhône Alpes Licence Econométrie Lyon 2

Caisse d Epargne Rhône Alpes Licence Econométrie Lyon 2 Caisse d Epargne Rhône Alpes Licence Econométrie Lyon 2 22 Novembre 2013 - Valérie Rousvoal Direction Etudes Commerciales Sommaire de la rencontre Présentation de la Caisse d épargne Rhône Alpes Présentation

Plus en détail

Le Saux Loïc Tanguy Brewal. Enquête d opinion sur la dégradation de la qualité de la télévision française dans le temps

Le Saux Loïc Tanguy Brewal. Enquête d opinion sur la dégradation de la qualité de la télévision française dans le temps Le Saux Loïc Tanguy Brewal Enquête d opinion sur la dégradation de la qualité de la télévision française dans le temps Traitement des enquêtes M1 ISC 2007/2008 Sommaire Introduction... 3 I ANALYSE DESCRIPTIVE

Plus en détail

Crédit Bureaux. des PME. Alger, le 12 mars 2009 Margherita GALLARELLO

Crédit Bureaux. des PME. Alger, le 12 mars 2009 Margherita GALLARELLO Le rôle des Crédit Bureaux pour l accès au crédit des PME 2009 Agenda L activité des Crédit Bureaux Sujets critiques pour les PME Crédit Bureaux: quels avantages pour les PME? Exemple d évaluation Conclusion

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

INTRODUCTION A L ETUDE DES VARIABLES QUALITATIVES

INTRODUCTION A L ETUDE DES VARIABLES QUALITATIVES INTRODUCTION A L ETUDE DES VARIABLES QUALITATIVES Plan Introduction Définition Catégories de variables qualitatives Modèles pour Données avec Troncature Les Modèles pour Données Censurées Définition de

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

La régression logistique généralisée avec la procédure LOGISTIC

La régression logistique généralisée avec la procédure LOGISTIC La régression logistique généralisée avec la procédure LOGISTIC 1 Sommaire I / Régression logistique généralisée 3 a. Introduction 3 b. Présentation de l exemple à étudier 3 II / Modélisation avec la proc

Plus en détail

MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE

MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE MODELISATION DE DONNÉES QUALITATIVES PREMIÈRE PARTIE Pierre-Louis Gonzalez 1 I INTRODUCTION 1 variable qualitative. Tri à plat. Représentations graphiques. Modélisation : loi binomiale loi multinomiale

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

Étude auprès de la génération X. Le paiement virtuel et la gestion des finances personnelles

Étude auprès de la génération X. Le paiement virtuel et la gestion des finances personnelles Étude auprès de la génération X Le paiement virtuel et la gestion des finances Rapport Présenté à Madame Martine Robergeau Agente de Développement et des Communications 11 octobre 2011 Réf. : 1855_201109/EL/cp

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Université Ibn Zohr Faculté des Sciences Juridiques, Économiques et Sociales Exposé sous le thème : Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Plan : Introduction : L

Plus en détail

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés Les nouveaux enjeux et défis du marché immobilier : comment y contribuer? Chaire Ivanhoé Cambridge ESG UQÀM Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES STATISTIQUES I. Séries statistiques simples... 1 A. Définitions... 1 1. Population... 1 2. Caractère statistique... 1 B. Séries classées / représentations graphiques.... 2 1. Séries classées... 2 2. Représentations

Plus en détail

Traitement des données avec EXCEL 2007

Traitement des données avec EXCEL 2007 Traitement des données avec EXCEL 2007 Vincent Jalby Octobre 2010 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation (questionnaire),

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

TABLEAU 5 Nombre moyen (et écarts types) de mots produits selon le niveau scolaire et les trois conditions de révision

TABLEAU 5 Nombre moyen (et écarts types) de mots produits selon le niveau scolaire et les trois conditions de révision Dans ce tableau, si le chercheur ne s intéresse pas aux notes item par item mais simplement à la note globale, alors il conservera seulement les première et dernière colonnes et calculera des statistiques

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Plan de la séance 3 : Le risque de crédit (1) Les opérations de crédit Définition d un crédit La décision de crédit Les crédits aux petites

Plus en détail

GÉDIA AUDIT & SURVEILLANCE DES COÛTS D ENTRÉE DES ARTICLES FABRIQUÉS

GÉDIA AUDIT & SURVEILLANCE DES COÛTS D ENTRÉE DES ARTICLES FABRIQUÉS GÉDIA AUDIT & SURVEILLANCE DES COÛTS D ENTRÉE DES ARTICLES FABRIQUÉS 1. Pourquoi il est indispensable de surveiller les coûts d entrées des articles fabriqués 1.1. La règle de base de valorisation du stock

Plus en détail

La distinction. entre charges opérationnelles et charges de structure

La distinction. entre charges opérationnelles et charges de structure La distinction 7 entre charges opérationnelles et charges de structure OBJECTIF Maîtriser les concepts de base en matière de variabilité des charges Identifier les situations où la décomposition entre

Plus en détail

Méthodes de prévision des ventes

Méthodes de prévision des ventes Méthodes de prévision des ventes Il est important pour toute organisation qui souhaite survivre dans un environnement concurrentiel d adopter des démarches de prévision des ventes pour anticiper et agir

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Scoring - Modélisation Data Management, Data Mining, Text Mining 1 Guide du Data Miner Scoring - Modélisation Le logiciel décrit dans le manuel est diffusé dans le cadre d un accord

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Fiche 1. 1.1 Créer un tableau SAS

Fiche 1. 1.1 Créer un tableau SAS Fiche 1 1.1 Créer un tableau SAS data infoperso; input id prenom $ sexe $ age; cards; 1 Josee F 22 2 Michael H 64 3 Cedric H 37 4 Nicole F 32 /*Il arrive souvent de vouloir générer des variables qui sont

Plus en détail

Construction à partir d une régression logistique

Construction à partir d une régression logistique Construction à partir d une régression logistique Ricco RAKOTOMALALA Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 PLAN 1. Position du problème Grille de score?

Plus en détail

Projet Statistiques. - Rapport -

Projet Statistiques. - Rapport - Erich FERRAGUTI Teddy HENNART Projet Statistiques - Rapport - A l attention de Julien JACQUES Le vendredi 15 mai 2009 Sommaire 1. Introduction... 4 1.1. But... 4 1.2. Cadre... 4 1.3. Contenu... 4 2. Sujet...

Plus en détail

Déclassement d'actifs et stock brut de capital

Déclassement d'actifs et stock brut de capital Extrait de : La mesure du capital - Manuel de l'ocde 2009 Deuxième édition Accéder à cette publication : http://dx.doi.org/10.1787/9789264067752-fr Déclassement d'actifs et stock brut de capital Merci

Plus en détail

Pierre-Louis GONZALEZ

Pierre-Louis GONZALEZ SEGMENTATION Pierre-Louis GONZALEZ 1 I. Les méthodes de segmentation. Introduction Les méthodes de segmentation cherchent à résoudre les problèmes de discrimination et de régression en divisant de façon

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

5. Information et accès aux moyens de paiement

5. Information et accès aux moyens de paiement 5. Information et accès aux moyens de paiement Cette dernière partie mobilise des méthodes d analyse des données, permettant de mieux comprendre comment s articulent d une part l accès aux différents services

Plus en détail

UE ADP1 Durée de l'épreuve : 1 heure 30 mn. Aucun document n'est autorisé. Seule la calculette (sans sa documentation) est autorisée.

UE ADP1 Durée de l'épreuve : 1 heure 30 mn. Aucun document n'est autorisé. Seule la calculette (sans sa documentation) est autorisée. Université René Descartes- Paris V Licence de Psychologie Année L1, Semestre S1-2005 /2006 Page 1/5 UE ADP1 Durée de l'épreuve : 1 heure 30 mn. Aucun document n'est autorisé. Seule la calculette (sans

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Économétrie 2 : données qualitatives, probit et logit

Économétrie 2 : données qualitatives, probit et logit URCA Hugo Harari-Kermadec 2008-2009 harari@ecogest.ens-cachan.fr Économétrie 2 : données qualitatives, probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours

Plus en détail

11. Tests d hypothèses (partie 1/2)

11. Tests d hypothèses (partie 1/2) 11. Tests d hypothèses (partie 1/2) MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v1) MTH2302D: tests d hypothèses 1/30 Plan 1. Introduction 2. Hypothèses et erreurs 3. Tests d hypothèses

Plus en détail

SERVICE DE PILOTAGE DU DISPOSITIF DE SORTIE DES EMPRUNTS A RISQUE

SERVICE DE PILOTAGE DU DISPOSITIF DE SORTIE DES EMPRUNTS A RISQUE SERVICE DE PILOTAGE DU DISPOSITIF DE SORTIE DES EMPRUNTS A RISQUE DOCTRINE D EMPLOI APPROUVEE PAR LE C.N.O.S. DU 13 NOVEMBRE 2014 Principes : Le fonds de soutien créé par la loi de finances initiale pour

Plus en détail

Étapes du développement et de l utilisation d un modèle de simulation

Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Formulation du problème Cueillette et analyse de données Conception

Plus en détail

2015 ENQUÊTE AUPRÈS DES EMPRUNTEURS HYPOTHÉCAIRES

2015 ENQUÊTE AUPRÈS DES EMPRUNTEURS HYPOTHÉCAIRES 2015 ENQUÊTE AUPRÈS DES EMPRUNTEURS HYPOTHÉCAIRES La clé qui ouvre de nouvelles portes AU CŒUR DE L HABITATION ENQUÊTE 2015 AUPRÈS DES EMPRUNTEURS HYPOTHÉCAIRES ENQUÊTE 2015 AUPRÈS DES EMPRUNTEURS HYPOTHÉCAIRES

Plus en détail