Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH
|
|
- Arthur Fontaine
- il y a 8 ans
- Total affichages :
Transcription
1 Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1
2 Table des matières PARTIE 1 1. Résumé (Abstract). 2. Introduction Le datamining.. 4. Analyse exploratoire Régression logistique. 6. Arbres de Décision 7. Réseaux de neurones PARTIE 2 1. Présentations des données.. 2. Méthodes de classification. 3. Détection des incidents Conclusion... Rapport HTML.. Annexe. Master_2_SRO_Data-Mining 2
3 PARTIE 1 1.Résumé L objectif est d exploiter la méthodologie et les outils du Data Mining pour construire un score de crédit en utilisant SAS Entreprise Miner ; mais aussi faire une macro SAS qui permet de construire une typologie de la clientèle particulière d une banque. Pour cela, nous disposons d un échantillon de 5960 individus et de 13 variables que nous avons importé de la bibliothèque SAS la base de données SAMPSIO.HMEQ. Nous avons utilisé plusieurs méthodes statistiques (régression logistique, arbres de décision et réseaux de neurones pour la première partie et les techniques de classification pour le second) afin de construire ce score et générer cette Macro. Les résultats ont montré l importance des variables DEBTINC (Taux de Dette-àrevenu), DELINQ (Nombre de crédit non remboursé), et CLAGE (du crédit le moins récent, en mois) dans la prédiction du défaut de paiement. Le modèle retenu comme optimal est un modèle d arbre de décision qui permet de prédire correctement dans plus de 85% des cas les bons payeurs. Mots clés : Crédit scoring, Régression logistique, Arbres de décision, Réseaux de neurones. Master_2_SRO_Data-Mining 3
4 2. Introduction Aujourd hui, les accords de «Bâle 2» sur la solvabilité des banques imposent à ces dernières de calculer des probabilités de défauts et le montant des pertes en cas de défauts en utilisant des techniques de scoring. Le terme Crédit Scoring désigne un ensemble d aide à la décision et de techniques sous jacentes utilisées par les organismes financiers pour évaluer le risque de non remboursement d un prêt (Thomas et al. 2002). Le crédit scoring utilise des mesures quantitatives de performances des prêts futurs avec des caractéristiques similaires. Le crédit scoring n approuve, ni rejette une demande de prêt, il peut plutôt prédire la probabilité d occurrence de mauvaise performance (défaut) telle que définie le prêteur (Caire et Kossmann, 2003). Le scoring permet de résoudre un problème qui peut paraître simple en apparence puisqu il s agit en effet, de classer les clients des banques entre les «bons» et les «mauvais» payeurs. Pour cela on utilisera les techniques de Data Mining sous SAS Enterprise Miner 4.3, plusieurs méthodes vont être étudiées (Régression Logistique, Arbres de décisions et Réseaux de neurones). Cependant, les approches traditionnelles de l inférence statistique échouent avec les grosses bases de données, car en présence de milliers ou de million de cas et de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de redondance parmi les variables, certaines relations seront fausses, et même les relations les plus faibles paraîtront statistiquement importantes dans tout test statistique. L objectif est de construire un modèle dont le pouvoir de prédiction est satisfaisant. La base d étude du projet concerne une entreprise de services financiers qui offre à ses clients, qui ont un prêt hypothécaire avec elle, la possibilité d avoir une marge de crédit. Dans le passé, plusieurs de ses clients ont obtenu et utilisé la marge de crédit et un bon pourcentage d entre eux (environ 20%) ont eu des défauts de paiement. Master_2_SRO_Data-Mining 4
5 Qu est-ce que le data mining? Le data mining est l exploration de données, aussi connue sous les noms fouille de données, data mining (forage de données) ou encore Extraction de Connaissances à partir de Données (ECD en français, KDD en Anglais), a pour objet l extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques, et l'utilisation industrielle ou opérationnelle de ce savoir. Elle est utilisée dans le monde professionnel pour résoudre des problématiques très diverses, allant de la gestion de relation client à la maintenance préventive, en passant par la détection de fraudes ou encore la prévision d audience TV. Les plus concernés sont les secteurs où d importants volumes de données doivent être analysés en vue de prendre des décisions. Le data mining permet aussi de limiter la subjectivité humaine dans les processus de décision, et aussi, grâce à la puissance grandissante des outils informatiques de traiter de plus en plus rapidement de grands nombres de dossiers. A quoi sert le data mining? 3. Data Mining Les banques, C est dans le secteur bancaire qu est né le scoring de risque, au milieu du 20éme siècle, où les moyens de calcul étaient très rudimentaires. Depuis de multiples techniques de data mining (Scoring, classification, association des produits ) ont envahi la banque. Cet essor du data mining dans l activité bancaire s explique par la conjonction de plusieurs éléments : le développement des nouvelles technologies de communication (Internet, téléphonie mobile ) et de traitement de l information (Entrepôts de données), les attentes accrues de qualité de service des clients, la concurrence exercée sur les banques à réseau par les sociétés de crédit et les «nouveaux entrants» (La grande distribution, les compagnies d assurance ). La grande distribution développe ses cartes de crédit privatives, lui permettant de se constituer de grandes bases de données (près de 3 millions de porteurs pour la carte Pass de carrefour) enrichies par les informations comportementales provenant de tickets de caisses. En outre, les services associés à ces cartes (caisse réservées, promotions exclusives ) sont facteurs de fidélisation, ce qui n est pas négligeable à l heure de la concurrence des «hard discounters». Master_2_SRO_Data-Mining 5
6 En assurance de biens et de personnes, les études de ventes croisées (cross-selling), de montées en gamme (up-selling). Le besoin du data mining dans ce domaine s est exacerbé avec le développement de la concurrence des nouveaux entrants que sont les banques qui pratiquent ce qu on appelle la bancassurance. 4. Analyse exploratoire Présentation des données La table d étude contient des données propres aux clients et celles relatives aux crédits, elle est constituée de variables géographiques, démographiques et financières permettant ainsi la construction et la comparaison des modèles en concurrence. BAD : Variable cible binaire : BAD = 1 : Bon client (client ayant remboursé son prêt BAD = 0 : Mauvais client (client ayant commis une fraude ou défaut de remboursement) CLAGE : Durée du crédit le moins récent, en mois CLNO : Nombre de crédit DEBTINC : Taux de Dette-à-revenu DELINQ : Nombre de crédit non remboursé DEROG : Nombre d'états dérogatoires principaux JOB : Catégorie professionnelle du client LOAN : Montant du crédit YOJ : Ancienneté du job le plus récent VALUE : La valeur de la propriété MORTDUE : Montant dû sur l'hypothèque existante NINQ : Nombre d'enquêtes récentes de degré de solvabilité REASON : DebtCon = Fusion de dette Le tableau 1 ci-dessous représente les rôles, les formats et les descriptions des variables de notre base d étude, on peut se rendre compte que la variable BAD a un rôle target car c est la variable qu on modélise, cependant, donc on a du modifier son rôle de input à target : Master_2_SRO_Data-Mining 6
7 Tableau 1 Statistiques descriptives Analyse de la variable cible à travers sa distribution sur la figure ci-dessous : Figure 1 Master_2_SRO_Data-Mining 7
8 20% des observations représentent des prêts pour lesquels le client n ont pas payé leur prêts ( BAD=1 ), contre 80% des observations correspondant aux clients ayant payés leurs crédits ( BAD=0 ), pour les autres variables voir l annexe. Sur le tableau 2 ci-dessus nous avons les statistiques descriptives des variables quantitatives de la base travail : Tableau 2 Name Min Max Mean Std Missing Skewness Kurtosis Dev. % LOAN % MORTDUE % VALUE % YOJ % CLAGE % NINQ % CLNO % DEBTINC % L analyse de ces résultats n indique pas des aberrations sauf pour la variable DEBTINC dont le pourcentage des valeurs manquantes est relativement élevé (21%). Pour les variables qualitatives constituées de différentes classes, nous étudions le pourcentage des valeurs manquantes, et l option «Order» qui nous indique l ordre de tri de chacune des variables ainsi nous remarquons que pour toutes les variables la commande de tri est croissante sauf pour la variable cible binaire à savoir BAD la commande de tri est décroissante, donc l événement qui sera modéliser correspond à BAD=1. Name Values Missing % Order BAD 2 0% Descending REASON 2 5% Ascending JOB 6 5% Ascending DEROG 10 12% Ascending DELINQ 10 9% Ascending Master_2_SRO_Data-Mining 8
9 Partitionnement de la base de travail Entreprise Miner partitionne par défaut la base en trois sous échantillons aléatoires: apprentissage représentant 40% de l échantillon de base, l échantillon de validation avec 30% de la base d étude et l échantillon de test constituant 30% de l échantillon de base, la méthode utilisée est le tirage aléatoire, ainsi toutes les observations de la base d étude ont la même chance d être sélectionnées. 5. Régression logistique Principe : Dans la régression logistique binaire (dichotomique), on considère une variable cible (Bad) binaire (Bad=1 ou 0), et des variables explicatives Xj continues, binaires ou qualitatives (dont les indicatrices ramènent au cas d une variable binaire). L objectif de la régression logistique est celui de toute régression : modéliser l espérance conditionnelle E (Y X=x). On veut connaître la valeur moyenne de Y pour toute valeur de X. Pour une valeur Y valant 0 ou 1, cette moyenne est la probabilité qu Y=1 (loi Bernoulli). On a donc : E (Y X=x)= Prob (Y=1 X=x). En résumé, la régression logistique avec fonction de lien Logit consiste à écrire : π(x) = Prob (Y=1 X=x) Sous la forme Log ( ) = β0+β1*x1+ +βp*xp. Les avantages de la régression logistique sont très nombreux, cependant, on va citer quelques un : 1. Les coefficients sont facilement interprétables en termes de ratios du risque. Master_2_SRO_Data-Mining 9
10 2. Elle permet de détecter certain phénomène non linéaires. 3. Elle modélise directement une probabilité. 4. Elle détecte des phénomènes globaux (contrairement aux arbres de décision qui ne détecte que les phénomènes locaux). Cependant la régression logistique a des inconvénients non négligeables : 1. Elle ignore les valeurs manquantes (Sauf discrétisation, regroupement des valeurs manquantes dans une classe spécifique). 2. Elle est sensible aux individus hors norme (Sauf discrétisation). Sélection automatique des variables Afin de déterminer le meilleur score, nous avons utilisé sous, la sélection automatique des variables explicatives afin de retenir dans le modèle final que les variables pertinentes parmi notre liste de variables candidates. Il existe 3 techniques différentes permettant la sélection des variables : Backward : Cette procédure estime le modèle avec la totalité des variables explicatives. A l aide d un test de Wald, la moins significative est retirée dès lors que son seuil de significativité est supérieur à la valeur exigée (par slstay=). La procédure s arrête lorsque plus aucune n est autorisée à sortir. Forward : Cette procédure estime le modèle avec constante et les k 0 premières explicatives de la liste de k variables, où k 0 est fixé par l option start= k 0 ou include= k 0. Par défaut, k 0 = 0. Ensuite la procédure recherche parmi les k k0 variables restantes la plus significative et l ajoute au modèle si son seuil de significativité est inférieur au seuil fixé par slentry=. Une fois entrée dans le modèle la variable n est jamais retirée. Master_2_SRO_Data-Mining 10
11 Stepwise : La procédure s exécute comme avec l option forward à la différence qu une variable entrée à une étape de la sélection peut sortir du modèle si à une étape ultérieure, et donc après prise en compte de nouvelles explicatives, son seuil de significativité passe au-dessus de la valeur requise par slstay. On laissera les valeurs par défaut des différentes méthodes à savoir 0.05 comme seuil de significativité et k0=0 pour la méthode Forward. Ces trois méthodes donnent les mêmes résultats, cependant on retiendra la méthode Stepwise qui combine les deux autres. Mise en place d un modèle de régression logistique On relie le nœud de partition et celui de régression au nœud de cloison de données. Le diagramme apparaît maintenant comme suit : Résultats Ci-dessous la courbe Lift associée à la régression Logistique par défaut, on constate que le modèle n est pas du tout bon car, la courbe présente une allure non habituelle. Master_2_SRO_Data-Mining 11
12 Figure2 Ce problème peut être dû au pourcentage assez élevé de valeurs manquantes dans certaines variables, car la régression logistique ne tient pas compte de ces valeurs manquantes, D où la nécessité d exécuter l'imputation avant d'adapter un modèle de régression. Pour se faire nous utilisons le nœud de remplacement. Remplacement de Données : Le nœud de remplacement nous permet de substituer les valeurs manquantes pour chacune des variables. Ce remplacement est nécessaire pour utiliser toutes les observations dans l échantillon d apprentissage quand on établit un modèle de régression ou de réseau neurone car ceux là ignorent toutes les observations manquantes. Tandis que les arbres de décision manipulent des valeurs manquantes directement. Il est plus approprié de comparer les modèles qui sont établis sur le même ensemble d'observations. Par défaut, Entreprise miner emploie un échantillon provenant de l échantillon d apprentissage pour choisir les valeurs pour le remplacement des données manquantes. Master_2_SRO_Data-Mining 12
13 Le principe de base d imputation des données manquantes se présente comme suit : Les observations ayant une valeur manquante pour une variable d'intervalle cette dernière est substituée avec la moyenne dans l'échantillon pour la variable correspondante. Les données manquantes correspondantes aux variables binaire, nominale, ou ordinale sont substituées la modalité la plus fréquente de la variable correspondante dans l'échantillon. Le nouveau diagramme apparaître comme suit Après avoir exécuté notre modèle, on obtient la courbe Lift ci-dessous : Figure3 Le diagramme cumulatif de %Response est construit de la façon suivante : Master_2_SRO_Data-Mining 13
14 La réponse d'intérêt est le défaut de paiement (BAD=1). Pour chaque client, le modèle de régression adapté prévoit une probabilité que le client fasse défaut. Les observations sont triées selon la probabilité prévue la plus élevée à la probabilité la plus basse. Les observations sont alors groupées dans des cases, chacune contient approximativement 10% des données. En utilisant la variable cible BAD, on compte le pourcentage des répondants réels dans chaque case. Si le modèle est bon, alors la proportion de clients ayant remboursé leur crédit sera relativement haute dans les cases dont la probabilité prévue est haute. La courbe de réponse cumulative qui est montrée ci-dessus trace le pourcentage des répondants. Dans le 10% principal, presque deux-tiers des individus s'était transféré sur un prêt. Dans le 20% principal, un peu plus de la moitié s'était transféré sur le prêt. La ligne bleue horizontale représente la cadence de ligne de base (approximativement 20%) pour la comparaison. La ligne de base est une évaluation du pourcentage des contrevenants qu on compterait si on devait prendre un échantillon aléatoire. Le traçage de défaut représente des pourcentages cumulatifs, mais on peut également voir la proportion de ceux qui se sont transférés dans chaque coffre par le choix de l option Non-Cumulatif de lift chart. La comparaison des diagrammes se rapporte à ceux qui se sont transférés sur un prêt comme contrevenants ou répondants. Dans la courbe précédente, le pourcentage des contrevenants était 67.56% dans le premier décile (10%). En d'autres termes, 67.56% de ceux dans le premier décile ont eu l'événement de cible d'intérêt (BAD=1). Master_2_SRO_Data-Mining 14
15 Non Cumulative %Response Cumulative %Response 6. Arbres de décision Principes La technique de l arbre de décision est employée en prédiction pour détecter des critères permettant de rétablir les individus d une population en n classes (Souvent n=2 comme le cas ici) prédéfinies. Cette technique est nonparamétrique, ce qui signifie qu elle ne suppose pas que les variables explicatives suivent des lois de probabilité particulières. Mise en place d un arbre de décision On ajoute le nœud correspondant à l arbre de décision qu on relie au nœud de cloison de données d une part et d autre part à celui de l évaluation le processus apparaît maintenant comme suit : Master_2_SRO_Data-Mining 15
16 Résultats On peut constater ainsi que le modèle d'arbre surpasse considérablement les deux modèles de régressions, comme on peut le voir sur la lift chart ci-dessous : Figure4 Master_2_SRO_Data-Mining 16
17 Ce résultat peut être expliqué par le fait que les arbres de décision manipulent parfaitement les observations manquantes, contrairement aux modèles de régression logistique qui les ignorent, mais dans le deuxième modèle de régression, on a remplacé les observations manquantes, cela étant fait ce deuxième modèle ne surpasse pas l arbre de décision, cela peut être dû au fait que les arbres de décision sont peu perturbés par la présence des observations hors normes, qui peut être isolés dans de petits nœuds et n influent pas l ensemble du classement, contrairement à ce qui se passe dans les techniques paramétriques et neuronales, l arbre de décision est une technique nonparamétrique ce qui signifie qu elle ne suppose pas que les variables explicatives suivent des lois de probabilité particulières, ces variables peuvent être colinéaires. Si elles ne sont pas discriminantes, l arbre n en est pas affecté, puisqu il se contente de ne pas les sélectionner. De plus la réponse de la cible peut être non linéaire, voire non monotone, en fonction des variables explicatives, il peut exister entre plusieurs variables explicatives et la cible des interactions qui seront détectées par l arbre. 7. Réseaux de neurones Il est aujourd hui impossible de parler du data mining sans parler des réseaux de neurones, qui sont à la fois une technique de descriptive et prédictive (Perceptrons, Réseaux à fonction radiale de base). Ils se sont largement répandus grâce à leur puissance de modélisation, ils peuvent approcher n importe quelle fonction suffisamment régulière, qui fait merveille dans une grande variété de problème, face à des phénomènes complexes. Cependant leur utilisation est par fois freinée par les difficultés qu elle présente : le coté «Boîte noire» des réseaux, la délicatesse des réglages à effectuer, la puissance informatique requise et les risques de sur apprentissage et de convergence vers une solution globalement non optimale. Mise en place d un réseau de neurone Un nœud de réseau neurone par défaut qu on relie au nœud de remplacement et puis nœud d'évaluation, le processus devient maintenant comme suit : Master_2_SRO_Data-Mining 17
18 Résultats Le nœud de réseau neurone de défaut adapte un modèle multicouche du perceptron (MLP) sans les connexions directes. Dans cet exemple, le nœud de réseau neurone est équipé d'une seule couche cachée. Par défaut, Le tabulateur de poids affiche les poids (évaluations de paramètre) des connexions. L'affichage suivant montre les poids des connexions de chaque variable à une seule couche cachée. Chaque niveau de chaque variable de classe est également relié à la couche cachée. Le nœud de réseau neurone ajuste itérativement les poids des connexions pour réduire au minimum la fonction erreur. Ci-dessous le comparatif des quatre modèles sur la courbe Lift : Figure 5 Master_2_SRO_Data-Mining 18
19 Le réseau de neurone n améliore pas la qualité de prédiction, il reste presque au même niveau que la régression logistique, cependant l arbre reste toujours le plus performent parmi tous les modèles qu on a mis en œuvre. Master_2_SRO_Data-Mining 19
20 PARTIE 2 A travers cette étude nous souhaitons construire une typologie de la clientèle particulière d une banque. Nous désirons en particulier connaître les caractéristiques de clients qui lui disposent d un compte d épargne auprès d elle ainsi que ceux qui ont connu un ou des incidents de paiement. Elle dispose des variables suivantes sur un échantillon de 682 de ses clients. 1 PRESENTATION DES DONNEES : ID Nominal Identifiant client AGE Interval Age en année Sexe Nominal 1 : homme, 2 : femme Statut Nominal 1 : Célibataire,2 : Marié 3 : Divorce ou veuf Proprio Nominal 0 : locataire de son logement principal 1 : propriétaire de son logement principal Ancien Interval Ancienneté du client dans la banque, en années Solde Interval Solde mensuel moyen du compte courant CEparg Nominal 0 : ne dispose pas d un compte d épargne 1 : possède un compte d épargne Incid Nominal 0 : n a pas jamais connu d incident de paiement 1 : a déjà connu un (ou des) incident de paiement Master_2_SRO_Data-Mining 20
21 2 - METHODE DE CLASSIFICATION : Cette méthode est faite en trois étapes : Etape 1 : standardisation nos variables L'intérêt de cette étape est de pouvoir comparer la variable standardisée à plusieurs variables numériques présentant des unités de mesures différentes. La variable qualitative multinomiale STATUT a été recodée à l aide de trois nouvelles variables. Formant ainsi une matrice où la distance entre ces variables est la même. Trois de nos variables sont de types intervalle, nous avons alors employé la méthode RANGE(une méthode qui est utilisée avec la macro stdize pour standardiser). Nous nous sommes intéressés à la corrélation qui pouvait exister entre nos variables : Master_2_SRO_Data-Mining 21
22 En lisant la sortie les covariances entre les variables, nous pouvons constater que la covariance la plus forte est de 0,58 qui existe entre l âge et l ancienneté du client dans la banque. L étude des corrélations nous montre que les incidents dépendent fortement de l ancienneté des clients, plus ils sont jeunes, plus ils ont de chance de connaitre l incident. Etape 2 : Nous commençons cette étape avec 40 clusters,puis la macro cluster permet d identifier 9 clusters au regard du critère PSF qui marque un pic à cette valeur. Etape 3 : une dernière étape est de faire l étude avec ses neuf clusters qui portent les plus d informations. Interprétation des classes : Cluster 1 : regroupe que des locataires plus jeunes que dans tous les autres clusters et qui sont de nouveaux clients de la banque, faible solde à la banque Cluster 2 : regroupe que des femme locataires Cluster 3 : regroupe que des propriétaires, ayant toujours connu un incident de paiements et qui sont de nouveaux clients de la banque Cluster 4 : jamais connu un incident de paiements, faible solde à la banque Master_2_SRO_Data-Mining 22
23 Cluster 5 : regroupe que des homme propriétaires n ayant jamais demandé de crédit à la consommation ni connu un incident de paiements et ayant un solde élevé Cluster 6 : regroupe que des propriétaires divorcés ou veuf étant âgés et qui sont d anciens clients de la banque n ayant jamais connu un incident de paiements Cluster 7 : femmes mariées n ayant jamais demandé de crédit à la consommation et jamais connu un incident de paiements Cluster 8 : regroupe que des locataires masculins et ayant un solde élevé à la banque Cluster 9 : regroupe que des propriétaires âgés ayant déjà demandé un crédit à la consommation mais n ayant jamais connu un incident de paiements, ce sont également d anciens clients de la banque. 3- LA DETECTION DES INCIDENTS Nous avons réaliser une proc logistic en mettant l incident en variable dépendante afin d identifier les variables exogène qui ont un rôle positif ou négatif sur la probabilité de connaitre l incident de paiement. Master_2_SRO_Data-Mining 23
24 L étude des corrélations nous montre que les incidents dépendent fortement de l ancienneté des clients, plus ils sont jeunes, plus ils ont de chance de connaitre l incident. Enfin le fait d avoir un important solde en banque diminue la probabilité d incident. Master_2_SRO_Data-Mining 24
25 Conclusion Cette étude avait pour objectif de développer le meilleur modèle de crédit scoring permettant de prédire la probabilité de défaut des clients d une banque. Pour ce faire 3 outils statistiques (régression logistique, arbres de décision et réseaux de neurones) ont été utilisés pour conclure au meilleur modèle prédictif permettant de distinguer les bons clients des mauvais, après analyse des résultats obtenus nous avons sélectionné le modèle issue de l arbre de décision comme le modèle le plus performant. Cependant, le score de risque bancaire pour un prêt n est qu un élément dans le processus de décision car comme toute méthode statistique, le scoring commet des erreurs et un individu qui a la malchance d avoir un profil proche de celui de mauvais payeurs sera considéré comme tel mais ce type de méthodes commet moins d erreurs et est plus objectif que les jugements d expert. Aujourd hui, la discrimination entre défaillants et non-défaillants n est plus le seul objectif des banques, surtout pour des prêts à long terme. En effet, il est autant intéressant pour les banques de connaître quand la défaillance va avoir lieu que de connaître si elle va effectivement avoir lieu. Actuellement, de nombreux travaux s orientent vers l utilisation de modèles de survie pour données censurées pour prévoir la date de défaillance de l emprunteur. Master_2_SRO_Data-Mining 25
26 Rapport HTML On rajoute le nœud du rapport HTML et on le relie à l ensemble du diagramme comme sur le diagramme ci-dessous : Master_2_SRO_Data-Mining 26
27 Annexe Master_2_SRO_Data-Mining 27
28 Master_2_SRO_Data-Mining 28
29 Master_2_SRO_Data-Mining 29
30 Master_2_SRO_Data-Mining 30
31 Master_2_SRO_Data-Mining 31
32 1-la variable sexe par classes : 2-les propriétaires par classes : 3-les incidents par classes : Master_2_SRO_Data-Mining 32
33 4-la variable âge par classes présentée par un box plot : 5-la variable ancienneté par classes présentée par un box plot : Master_2_SRO_Data-Mining 33
34 6-la variable solde présentée par un box plot : Master_2_SRO_Data-Mining 34
35 Le programme SAS qui nous a permis de faire cette classification : /*debut Programme SAS :*/ libname classif "C:\Users\Mahamat Oumar\Desktop\DM"; /***********************************/ /* Codage des données */ /* pour variables qualitatives */ /***********************************/ data classif.banque1; set classif.banque; run; proc print; run; /*---- Dummy pour STATUT ----*/ if STATUT = '1' then do ; S1 = 1/sqrt(2) ; S2 = 0 ; S3 = 0 ; end ; else if STATUT = '2' then do ; S2 = 1/sqrt(2) ; S1 = 0 ; S3 = 0 ; end ; else if STATUT = '3' then do ; S3 = 1/sqrt(2) ; S1 = 0 ; S2 = 0 ; *2=N(n modalité)-1; end ; /*---- Dummy pour SEXE ----*/ if SEXE = 1 then SEXE = 0; if SEXE = 2 then SEXE = 1; /***************************************************************/ /* 0 - Proc print qui sert à afficher la table passer en entré */ /***************************************************************/ %macro print(nom_table); ods html; proc print data=classif.&nom_table; ods html close; %mend print; %print(banque); %print(banque1); %print(table_stdize); /*************************/ /* 1 - Standardisation */ /* Proc STDIZE */ /*************************/ Master_2_SRO_Data-Mining 35
36 %macro stdize(nom_table,variables,methode); title "&variables sont standardisées par PROC STDIZE avec la méthode &methode"; proc stdize data=classif.&nom_table out=classif.table_stdize pstat method=&methode; var &variables ; %mend; %stdize(banque1, AGE ANCIEN SOLDE, RANGE); data classif.table_stdize; set classif.table_stdize; drop STATUT; run; /***************************/ /* 2 - Données corrélées */ /***************************/ proc corr data=classif.table_stdize; var AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3; run; /************************************************************************** **********************************/ /* 3 - commençons avec 40 cluster et choisissons les classes qui portent plus d'information- Fastclus */ /************************************************************************** *********************************/ %MACRO MyFastClus (N, tablein, tableout, variables, identifiant); title "Données obtenues par PROC FASTCLUST avec &N clusters"; proc fastclus data=classif.&tablein maxclusters=&n maxiter=15 CONV= mean=classif.&tableout.fastmean&n cluster=cluster radius=0 replace=full IMPUTE SUMMARY ; var &variables; id &identifiant; %MEND MyFastClus; %MyFastClus ( 40, table_stdize, table_, AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3, ID); /*bien voir si la convergence a lieu avant le maxiter sinon l'augment mais souvent à cause d'une mauvaise stdize; /****************************/ /* 3 - Cluster - METHODE */ /* sur les N de Fastclus */ /****************************/ %macro cluster(table_fastmean, variables, methode); title "Données obtenues par PROC CLUSTER afin de pouvoir choisir les meilleurs clusters"; Master_2_SRO_Data-Mining 36
37 proc cluster data=classif.&table_fastmean outtree=classif.table_cluster method=&methode CCC pseudo; var &variables; id cluster; proc gplot data=classif.table_cluster; symbol1 v=dot ; plot _RSQ_*_NCL SPRSQ_*_NCL CCC_*_NCL PSF_*_NCL PST2_*_NCL_ ; axis1 order=(0 to.2 by 0.02); PROC TREE DATA=classif.table_cluster HEIGHT=H HORIZONTAL haxis=axis1; Id Cluster ; axis1 order=(0 to.2 by 0.02); PROC TREE DATA=classif.table_cluster HEIGHT=RSQ HORIZONTAL haxis=axis1 ; Id Cluster ; %mend cluster; %cluster( table_fastmean40, AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3, ward); *on identifie clairement 9 clusters grâce aux stats et a l'arbres /****************************/ /* 4 - Calcul des centroïds */ /* sur nos 9 clusters */ /****************************/ %macro centroid(table, variables, N); goption reset=all; title; options nodate; proc tree DATA=classif.&table NOPRINT OUT=classif.table_Seed N=&N ; COPY &variables; proc means data=classif.table_seed noprint; *permet obtenir l table pour le seed; class cluster; var &variables; output out=classif.table_means mean=&variables; data classif.table_means; SET classif.table_means; If _type_=0 then delete; %mend centroid; %centroid (table_cluster, AGE SEXE PROPRIO ANCIEN SOLDE CREDIT INCID S1 S2 S3, 9); %print (table_means); /*********************************/ /* 5 - rafaire FASTCLUS ******/ /* avec les 9 centroids optimaux*/ /*********************************/ %macro fastclus(n, tablein, tableout, variables, identifiant); goption reset=all; title "Données obtenues par PROC FASTCLUS avec &N clusters"; Master_2_SRO_Data-Mining 37
1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Plus en détailSAS de base : gestion des données et procédures élémentaires
1 SAS de base : gestion des données et procédures élémentaires SAS de base : gestion des données et procédures élémentaires Résumé Description des commandes (module SAS de base) les plus utiles de l étape
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailSAS ENTERPRISE MINER POUR L'ACTUAIRE
SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de
Plus en détailManipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner
Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation
Plus en détailL'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailScénario: Données bancaires et segmentation de clientèle
Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailCALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING
CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de
Plus en détailStéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailSéance 11 : Typologies
Séance 11 : Typologies Sommaire Proc CLUSTER : Typologie hiérarchique... 3 Proc FASTCLUS : Typologie nodale... 8 Proc MODECLUS : Typologie non paramétrique... 11 - Les phénomènes observés (attitudes, comportements,
Plus en détailLES MODELES DE SCORE
LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailL export de SAS vers Excel expliqué à ma fille
L export de SAS vers Excel expliqué à ma fille SAS est un logiciel merveilleux, mais tous n y ont pas accès. Pour contenter la soif de données de vos collègues qui n auraient pas d autre outil à disposition,
Plus en détailPrincipe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailTechniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Plus en détailTravailler avec les télécommunications
Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la
Plus en détailLa segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Plus en détailIntroduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)
MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour
Plus en détailMémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»
Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» 46, rue de la Tour 75116 Paris tél. (33) 01 73 00 55 00 fax (33) 01 73 00 55 01 www.softcomputing.com Sommaire
Plus en détailAnalyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailWhy Software Projects Escalate: The Importance of Project Management Constructs
Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailOptimisation des ressources des produits automobile première
EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients
Plus en détailTraitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
Plus en détailSolutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision
Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous
Plus en détailStatistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Plus en détailANALYSE DU RISQUE DE CRÉDIT
ANALYSE DU RISQUE DE CRÉDIT Banque & Marchés Cécile Kharoubi Professeur de Finance ESCP Europe Philippe Thomas Professeur de Finance ESCP Europe TABLE DES MATIÈRES Introduction... 15 Chapitre 1 Le risque
Plus en détailINITIATION AU LOGICIEL SAS
INITIATION AU LOGICIEL SAS (version 9.1.3 sous Windows) Hélène HAMISULTANE Bibliographie : Initiation au logiciel SAS(9) pour Windows, Coqué N. (juin 2006). www.agroparistech.fr/img/pdf/polysas.pdf SAS
Plus en détail# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>
94 Programmation en OCaml 5.4.8. Concaténation de deux listes Définissons maintenant la fonction concat qui met bout à bout deux listes. Ainsi, si l1 et l2 sont deux listes quelconques, concat l1 l2 constitue
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Plan de la séance 3 : Le risque de crédit (1) Les opérations de crédit Définition d un crédit La décision de crédit Les crédits aux petites
Plus en détailS84-1 LA GRC ET LE SI (Système d Information) 841 - Qualification des données clientèle. 842 - La segmentation de la clientèle
S84-1 LA GRC ET LE SI (Système d Information) 841 - Qualification des données clientèle 842 - La segmentation de la clientèle 843 - Les actions personnalisées utilisation des procédures de consultation
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailLa survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Plus en détailBaccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Plus en détailExemples d application
AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif
Plus en détailDidacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).
1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence
Plus en détail1 Imputation par la moyenne
Introduction au data mining L3 MIS - STA 1616-2010 V. Monbet Données manquantes L'objectif de ce TD est de manipuler et de comparer plusieurs méthodes d'imputation de données manquantes. La première partie
Plus en détailIBM SPSS Direct Marketing 21
IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS
Plus en détailAgenda de la présentation
Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining
Plus en détailScénario: Score d appétence de la carte visa premier
Scénario: Score d appétence de la carte visa premier Résumé Cette aventure reprend rapidement l exploration des données bancaires avant d aborder systématiquement la construction de modèles de prévision
Plus en détailIBM SPSS Regression 21
IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics
Plus en détailÉtude de cas Assurance (d après une étude de Philippe Périé, CISIA)
Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailCrédit : Comment vous êtes coté
Crédit : Comment vous êtes coté Comprendre et gérer votre situation à l égard du crédit à titre de consommateur et d entreprise D-IN0440F-0201 Introduction Nous vivons dans un monde en évolution constante
Plus en détailComplet Intuitif Efficace. Références
Logiciel de référence en Analyse de Données, Data Mining et Text Mining pour transformer vos données en connaissance Complet Intuitif Efficace Dans un environnement convivial et intuitif, disposez de toute
Plus en détail«Credit scoring» : une approche objective dans l'octroi de crédit?
«Credit scoring» : une approche objective dans l'octroi de crédit? Le credit scoring, ou encore scoring d'octroi, est un des outils mis en oeuvre lors de l'analyse risque d'une demande de crédit par les
Plus en détailLIVRE BLANC Décembre 2014
PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis
Plus en détailFORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)
87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation
Plus en détailDonnées longitudinales et modèles de survie
ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan
Plus en détailUFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
Plus en détailLes algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailAnalyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin
Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailAnalyse prédictive. L essor et la valeur de l analyse prédictive dans la prise de décisions
ÉTUDE TECHNIQUE Analyse prédictive L essor et la valeur de l analyse prédictive dans la prise de décisions «Donnez-moi un point d appui et un levier et je soulèverai le monde.» Archimède, 250 av. J.-C.
Plus en détailLocalisation des fonctions
MODALISA 7 Localisation des fonctions Vous trouverez dans ce document la position des principales fonctions ventilées selon l organisation de Modalisa en onglets. Sommaire A. Fonctions communes à tous
Plus en détail$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Plus en détailRelation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
Plus en détailBaccalauréat ES Pondichéry 7 avril 2014 Corrigé
Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient
Plus en détailVI. Tests non paramétriques sur un échantillon
VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes
Plus en détailLE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION
LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs
Plus en détailLe scoring est-il la nouvelle révolution du microcrédit?
Retour au sommaire Le scoring est-il la nouvelle révolution du microcrédit? BIM n 32-01 octobre 2002 Frédéric DE SOUSA-SANTOS Le BIM de cette semaine se propose de vous présenter un ouvrage de Mark Schreiner
Plus en détailStatistique Descriptive Élémentaire
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier
Plus en détailPourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Plus en détailGrégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.
Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic SAS dans
Plus en détailEtudes marketing et connaissance client
Master deuxième année Mention : Statistique et Traitement de Données Etudes marketing et connaissance client Imane Hammouali Tuteur de stage: M. Sébastien Confesson Stage effectué au Service Etudes Marketing
Plus en détailEstimation et tests statistiques, TD 5. Solutions
ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études
Plus en détailMasters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»
Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :
Plus en détailTransmission d informations sur le réseau électrique
Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en
Plus en détailStéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Plus en détailQU EST-CE QUE LE DECISIONNEL?
La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce
Plus en détailLa définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE
L ENQUETE PAR SONDAGE : LA METHODE La définition La méthode Le questionnaire Les biais La passation du questionnaire La validité des réponses Les échelles de mesure Les échelles d évaluation Les échelles
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailIntroduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
Plus en détailSéance 4. Gestion de la capacité. Gestion des opérations et de la logistique 4-530-03
Gestion des opérations et de la logistique Séance 4 4-530-03 Gestion de la capacité Points importants présentés au dernier cours Les principaux types d aménagement Étude du travail et l amélioration des
Plus en détailModélisation de la réforme des pensions
Modèle PROST de la Banque Mondiale Modélisation de la réforme des pensions Mécanisme de simulation des options de réforme des retraites, de la Banque Mondiale L es politiques de pension d aujourd hui peuvent
Plus en détailPlan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation
Complex Event Processing Traitement de flux de données en temps réel Romain Colle R&D Project Manager Quartet FS Plan Génération et exploitation de données CEP et applications Flux de données et notifications
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailTableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1
UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés
Plus en détailExploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.
Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION
Plus en détailESIEA PARIS 2011-2012
ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire
Plus en détailExercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015
Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par
Plus en détailL analyse de la gestion de la clientèle
chapitre 1 - La connaissance du client * Techniques utilisées : observation, recherche documentaire, études de cas, études qualitatives (entretiens de groupes ou individuels, tests projectifs, analyses
Plus en détaildistribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position
Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons
Plus en détailConstruction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012
Construction de bases biométriques pour l assurance dépendance SCOR inform - Novembre 2012 Construction de bases biométriques pour l assurance dépendance Auteur Laure de Montesquieu Responsable Centre
Plus en détail