Module 3 : Introduction à la Modélisation SOUS MODELER

Documents pareils
données en connaissance et en actions?

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

INTRODUCTION AU DATA MINING

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Spécificités, Applications et Outils

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Complet Intuitif Efficace. Références

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Agenda de la présentation

Introduction au Data-Mining

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining -

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Introduction au datamining

Analyse de grandes bases de données en santé

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

1 Modélisation d être mauvais payeur

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Application de K-means à la définition du nombre de VM optimal dans un cloud

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Une Démarche pour la sélection d outils de cartographie des processus métiers

WEBSELL. Projet DATAMINING

4.2 Unités d enseignement du M1

ESIEA PARIS

Coup de Projecteur sur les Réseaux de Neurones

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Travailler avec les télécommunications

Guide d exploration de base de données de IBM SPSS Modeler 15

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Travaux pratiques avec RapidMiner

Le DataMining, qu est-ce que c est et comment l appréhender?

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La classification automatique de données quantitatives

Installation Client (licence réseau) de IBM SPSS Modeler 14.2

Scénario: Données bancaires et segmentation de clientèle

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

ACP Voitures 1- Méthode

Big Data et Graphes : Quelques pistes de recherche

TRANSPORT ET LOGISTIQUE :

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Statistiques Descriptives à une dimension

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Faire des modifications par lot

Application du data mining pour l évaluation de risque en assurance automobile

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Logiciel XLSTAT version rue Damrémont PARIS

Le ranking de Augure Influencers La méthodologie AIR en détails

PROTEGER SA CLE USB AVEC ROHOS MINI-DRIVE

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Apprentissage Automatique

Filière Informatique de gestion. Facturation par APDRG : prédiction des recettes des cas non codés

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Disparités entre les cantons dans tous les domaines examinés

CREER UNE ENTREPRISE A JERSEY

Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.

Que fait SAS Enterprise Miner?

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

NON-LINEARITE ET RESEAUX NEURONAUX

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Publications, ressources, liens, logiciels,

CONSEIL DE COORDIN AT I O N DU PROGRAM M E DE L ONUSID A

Mode d emploi Boutique en ligne janvier 2013

Adobe Photoshop. Bonnes pratiques pour une utilisation professionelle CHAPITRE 7

T de Student Khi-deux Corrélation

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Big Data et Graphes : Quelques pistes de recherche

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Cybermarché et analyse comportementale

Outils pour les réseaux de neurones et contenu du CD-Rom

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Resolution limit in community detection

Data Mining et Statistique

IBM SPSS Direct Marketing

Arbres binaires de décision

ResellerPro. Logiciel de gestion du réseau de distribution. Logiciel conçu et développé par Hermegie Technologies

F210. Automate de vision hautes fonctionnalités. Caractèristiques. Algorithmes vectoriels

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Stages de Formation en Statistique Appliquée et Logistique

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Les algorithmes de fouille de données

Microsoft Project UNIVERSITÉ HASSAN II AIN CHOCK

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

La méthode des scores, particulièrement de la Banque de France

Jeux sous forme extensive (Jeux dynamiques)

La question est : dans 450 combien de fois 23. L opération est donc la division. Le diviseur. Le quotient

IBM SPSS Direct Marketing 21

Valorisation d es des options Novembre 2007

Cours de Master Recherche

Cycle de formation certifiante Sphinx

Ricco Rakotomalala. SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel).

Stages de Formation en Statistique Appliquée et Logistique

Transcription:

Module 3 : Introduction à la Modélisation SOUS MODELER 1

Techniques prédictives Passé pour prédire l avenir 2

Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur pour permettre une validation indépendante des modèles. Parfois l algorithme divise automatiquement les données en données d apprentissage/test Prédire la cible qu est-ce que nous essayons de prédire? Rôle de chaque champs dans le modèle Directions (terminologie Modeler) IN, OUT, LES DEUX, AUCUNE Précision Combien de fois le modèle prédit correctement? Ou pour les nombres, moyenne d erreur, corrélation, Confiance à quel point cette prédiction peut être correcte? Parfois ce n est pas une probabilité, mais juste une indication Les questions de l équilibre Est-ce les oui / non sont de proportions égales 50/50? Quelle différence peut-il faire? 3

Modèles Prédictifs Certains modèles sont meilleurs que d autres : Précision Compréhension Modèles varient entre facile à comprendre à incompréhensible Arbre de Décision Règles d induction Modèles de Régression Réseaux de Neurones Simple Complexe 4

Atelier 3 : Modélisation sous clementine Atelier 1: Mise en œuvre de Réseaux de Neurones Atelier 2: Induction de Règles avec Clementine Atelier 3 : Combiner l Induction de Règles et les Réseaux de Neurones Atelier 4: Algorithmes de Classification Atelier 5 : Règles d associations 5

Algorithmes de Modélisation Analyse Factorielle PCA/Facteur Classification / prédiction R. Neuronnes, C5.0, CHAID, C&RT, Quest, Régression Logistique, Régression Linéaire, Segmentation Réseau de Kohonen, TwoStep, K-Means Association Apriori, GRI, CARMA, Séquence 6

Travail pratique 5 : Mise en œuvre de Réseaux de Neurones SPSS Maghreb 7

Utilisation d un R. neurones 8 Supposons vouloir construire un modèle pour prédire le Risque. Nettoyer votre espace de travail Sélectionner le nœud source SPSS et placez-le sur l espace de travail Sélectionner le fichier «Exemple.sav» Auditer les données et procéder à la préparation de données les valeurs manquantes des variables sexe (variable qualitative) et âge (variable quantitative) devront être remplacées respectivement par le mode et la moyenne Faites un recodage de la variable Risque en risque_rec de sorte à ne garder que deux modalités : mauvais et (Bon & Moyen)

Utilisation d un R. neurones Etape 2 : Partitionnement des données (70/30) Exécutez le nœud partition Les données seront divisées en deux ensembles apprentissage et test de proportion respective de 70% et 30%. Etape 3 : modélisation par un RN simple : paramétrage par défaut Charger le nœud RN Editez le nœud RN_SEQ relié au nœud Typer Le modèle de réseau de neurones choisi est le perceptron multicouche (MLP). vous pouvez choisir le modèle fonction radiale de base (RBF). Lancez le nœud réseau de neurones 9

Utilisation d un R. neurones Règles d arrêt Choix de la méthode : MLP 83% de précision globale 38 % de précision de la modalité mauvais 10

Utilisation d un R. neurones Importance des variables prédictives Prévision du risque et confiance générée par le RN sans equilibre 11

Analyse des résultats du RN Importance des variables prédictives Prévision du risque et confiance générée par le RN sans equilibre 12

Analyse des résultats du RN 13

Analyse des résultats du RN 14

Scénario 2 : Prévision du risque par RN après Equilibre de la cible Précision de la modalité mauvais risque améliorée : 73,6% 15

Scénario 2 : Prévision du risque par RN après Equilibre de la cible Précision globale peu améliorée 16

Scénario 2 : Prévision du risque par RN après Equilibre de la cible Calcul du score de risque par RN Score de risque élevé par RN 17

Scénario 2 : Prévision du risque par RN après Equilibre de la cible Ciblage des clients à fort potentiel de risque 18

Calcul de score Risque _RN Procédez à un recodage de la variable Risque : 1 risque mauvais 2 et 3 risque moyen et bon Refaire la modélisation en équilibrant par réduction Puis calculer le score de risque selon la formule suivante et produire la distribution du score par risque_rec 19

Travail pratique 6 : Induction de Règles Sous Modeler 20

Utilisation des Techniques d Induction de Règles 21 Attacher le noeud modèle C5.0 à la source de données exemple.sav et Typer Assurez-vous que risque = OUT et ID = AUCUN Exécuter le Modèle après la préparation des données Explorer le Modèle Arbre Montrer les Instances et Confidences Génération de règles à partir de l arbre

Utilisation des Techniques d Induction de Règles : comparaison RN, C5 SPSS Maghreb 22

Utilisation des Techniques d Induction de Règles : comparaison RN, C5 Un arbre de profondeur 2 est obtenu. Deux règles pour la prévision du risque mauvais sont générées : Règle 1 : Si le nombre de cartes de fidélité est au plus 3 et le nb de cartes de crédit est au moins 4 alors 66,6 % de chance que le client soit à risque. La règle est vérifiée par 95 cas. Règle 2 : Si le nb de carte de fidélité est au moins 4 alors la probabilité de risque est 81,4 % et 430 cas la vérifient. SPSS Maghreb 23

Utilisation des Techniques d Induction de Règles : comparaison RN, C5 Un arbre de profondeur 2 est obtenu. Deux règles pour la prévision du risque mauvais sont générées : Règle 1 : Si le nombre de cartes de fidélité est au plus 3 et le nb de cartes de crédit est au moins 4 alors 66,6 % de chance que le client soit à risque. La règle est vérifiée par 95 cas. Règle 2 : Si le nb de carte de fidélité est au moins 4 alors la probabilité de risque est 81,4 % et 430 cas la vérifient. SPSS Maghreb 24

création d un modèle de prévision par CHAID SPSS Maghreb 25

Résultats d un modèle de prévision par CHAID Deux règles sont générées pour le risque mauvais : Règle 1 : Si le nombre de cartes de crédits est 3 et le client est marié alors 95,2% de chance qu il soit à risque et 80 cas la vérifient. Règle 2 : Si le nombre de cartes de crédits est plus que 4 alors 67,3% de chance qu il soit à risque et 214 cas la vérifient. Evidemment les règles de C5 sont différentes de celles de CHAID malgré le fait que les deux modèles sont équivalents en terme de précision globale et spécifique. L homme métier choisira le modèle le plus simple à déployer. SPSS Maghreb 26

Travail pratique 7 : Combiner l Induction de Règles et les Réseaux de Neurones SPSS Maghreb 27

Rule Induction de Règles avant un R. Neurones R. Neurone (à l exception de Prune) concerve tous les inputs lors de la construction d un modèle. Utilisez les données Exemple.sav Exécuter le noeud C5.0 après typage Examiner le modèle C5 généré Sélectionner Générer puis Filtrer Clementine génère automatiquement un noeud filtrer Connecter le noeud Filtrer au flux et éditez-le pour l examiner SPSS Maghreb 28

Induction de règles après un R. de Neurones Utiliser le flux précédent Éditer le second noeud Typer $N-risque = OUT $NC-risque et RISK = NONE Attacher C5.0 et exécuter Réexaminer les résultats du modèle C5 Avez-vous une meilleure compréhension du modèle neuronale? SPSS Maghreb 29

Induction de règles après un R. de Neurones SPSS Maghreb 30

Induction de règles après un R. de Neurones Génération d un ensemble de règles SPSS Maghreb 31

Travail pratique 8 : Algorithmes de Classification SPSS Maghreb 32

Travail pratique 8 : Algorithmes de Classification SPSS Maghreb 33

CF. Atelier : Techniques non supervisées de classification Etape 1 de modélisation Etape 2 de description des classes Etape 3 de scroing par classes 34

CF. Atelier : Techniques non supervisées de classification 35 Chargez le fichier de données EXEMPLE.SAV Auditer les données et procéder à la préparation de données de manière similaire à la modélisation supervisée. On laissera le risque à trois modalités Typer les données en spécifiant les variables d entrée Charger le nœud 2_Step et Editez le

Navigation dans le nœud de classification 2_Step 36 C1 : 28,1% ; C2 : 50,7% la plus dominante ; C3 : 21,2% la plus faible Les variables ayant un pouvoir le plus discriminant dans la construction de ces trois classes sont selon l ordre décroissant d importance : Nombre de cartes de fidélités, nombre d enfants à charges, âge, type de rémunération et le sexe avec une très faible influence. Il est possible d affiner la description des classes par la description de leurs noyaux.

Navigation dans le nœud de classification 2_Step Il ressort que les trois classes sont bien discriminées en terme de statut marital, nb de cartes de fidélités, nb d enfants, autres emprunts mais pas suffisamment en salaire et selon le sexe. Au lieu de faire la description par navigation du modèle, il est possible d obtenir les noyaux des classes par agrégation par rapport au modèle à 3 classes et par agrégation globale pour avoir le centre de gravité de tous le nuage des clients comme le montre le flux suivant

Navigation dans le nœud de classification 2_Step

Navigation dans le nœud de classification 2_Step : 4 classes C4 se caractérise par des clients dont le salaire est élevé par rapport à la moyenne de l ensemble des clients (Cf. colonne global qui correspond au noyau de la population en entier). En terme de risque, cette classe contient des clients à très faible potentiel de risque. A la différence de la classe 3 dont le potentiel de risque est trop élevé. En se basant seulement sur cet indicateur, il s avère nécessaire de retenir la classification à 4 classes.

Navigation dans le nœud de classification 2_Step : 4 classes Description de la classfication à 4 classes

Navigation dans le nœud de classification 2_Step : 4 classes Description de la classfication à 4 classes

Utilisation d un R. de Kohonen Supposons vouloir trouver des groupes similaires de clients par rapport à leur comportement d achat. Sélectionner un nœud Délimité et placez-le sur l espace de travail Sélectionner le fichier «achat.txt» Attacher un nœud Typer Spécifier Direction IN pour les champs Produits AUCUN pour les autres champs Connecter une Table au noeud Typer et l executer Connecter un noeud Kohonen au noeud Typer. Editer ce noeud: Specifier Random Seed 100 Sous l option Expert, avec Largeur = 3 Longueur= 3 Executer SPSS Maghreb 42

Utilisation d un R. de Kohonen Connecter une Table au noeud Typer et l exécuter SPSS Maghreb 43

Utilisation d un R. de Kohonen Connecter un noeud Kohonen au noeud Typer. Editer ce noeud: Specifier Random Seed 1000 Sous l option Expert, avec Largeur = 3 Longueur= 3 Exécuter SPSS Maghreb 44

Comprendre Kohonen Attacher le modèle généré au flux précédent Attacher un noeud Nuage Champ X = $KX-Kohonen Champ Y = $KY-Kohonen Options Agitation Superposer? Calculer un nouveau champ Classe en utilisant l opérateur de concaténation >< SPSS Maghreb 45

Comprendre Kohonen Examiner le modèle généré à l aide de l Afficheur. SPSS Maghreb 46

Comprendre Kohonen Examiner le modèle généré à l aide de l Afficheur. Classe 22 (22%) Classe 00 (19%) Classe 02 (17%) Classe 20 (17%) Ce groupe est associé à Biscuits, Boisson et Congelé Ce groupe est principalement associé aux Plats_Prêts Ce groupe est principalement associé aux Conserves Ce groupe est principalement associé aux Biscuits, Boisson, Congelé et Pain SPSS Maghreb 47

Utiliser d autres champs pour produire un profil SPSS Maghreb 48

Comprendre Kohonen Examiner le modèle généré à l aide de l Afficheur. Classe 22 (22%) Classe 00 (19%) Classe 02 (17%) Classe 20 (17%) Ce groupe est associé à Biscuits, Boisson et Congelé. Il contient une forte % de clients sans enfants et de travailleurs Ce groupe est principalement associé aux Plats_Prêts tend à être composé de Jeunes (<40ans), sans enfants qui ont un travail Ce groupe est principalement associé aux Conserves et formé en grande partie de femmes de moins de 40 ans, sans travail et avec enfants Ce groupe est principalement associé aux Biscuits, Boisson, Congelé et Pain. SPSS Maghreb 49

Comprendre Kohonen par C5.0 Attacher un noeud Typer après Classe Définir Classe = OUT Attacher C5.0 après Typer Executer C5.0 et examiner les résultats SPSS Maghreb 50

Règles d Association I. BERRADA 51

Règles d association Qu est ce qui est lié à quoi? E.g. Panier de la ménagère : qu elles sont les éléments qui viennent ensemble? Diagramme peut montrer les liens dans les 2 sens Mais est-ce que fleur-pain-thé est une lient en 3-sens ou 3 liens à 2-sens? Les liens complexes / associations sont découverts grâce aux règles d association E.g. pain <= fleur & thé implique: si vous avez acheté des fleurs et du thé, vous allez probablement acheter du pain aussi Quelle Probabilité = Confiance, nombre de cas = support I. BERRADA 52

Règles d association Antécédents (ou conditions ) Ce qui doit être vérifié avant l application de la règle Conséquence (ou conclusion ) Ce qui tend à être vrai pour l application de la règle Support La proportion des observations qui vérifie la règle (Instances = combien d exemples) Confiance Lors de l exécution de la règle, combien de fois la conclusion est correcte? I. BERRADA 53

Pourquoi / quand utiliser les règles d associations? Analyse des «achats» Comprendre la comportement des achats Autres données similaires, e.g. produits dans une seule commande, Les options sélectionnés dans un compte mobile, pages web ou les sections accédées lors d une visite, Pour découvrir modèles prédictifs cachés Parfois les modèles prédictifs intéressant sont cachées La découverte d association permet de trouver plusieurs petits lots de règles et peut de découvrir les modèles masqués Exploration Générale Ne sais pas exactement qu est ce que je cherche, mais juste dis moi qui va avec quoi I. BERRADA 54

Règles d association dans Clementine Apriori algorithme connu, beaucoup d options, rapide Données catégorielles seulement GRI ( Generalised Rule Induction ) Peut être utilisé sur des variables continues Séquence association séquentiel Composant de SPSS, trouve des modèles séquentiels Souvent utilisé pour le web mining Capri association séquentiel Source externe produit à ajouter ne fait pas partie de Clementine de base Conçu spécialement pour le web-mining I. BERRADA 55

Noeud Apriori Charger le fichier de donnée Achat.txt Editer le noeud Typer et définir la Direction de tous les champs booléens produits Les deux. Les autres directions sont à Aucun Attacher le noeud PRIORI et executez-le. I. BERRADA 56

Modèles statistiques Régression linéaire (variable numérique seulement) Trouve des équations linéaires Régression logistique (variable catégorielle) Une équation pour chaque réponse possible Analyse factorielle / ACP Un modèle différent réduction de la complexité des données Réponds à la question: Quelles sont les dimensions de variation qui existe réellement dans les données (quelque soit le nombre de champs existants) I. BERRADA 57

Modélisation - Résumé Différents algorithmes Conviennent à différentes tâches Ont différentes forces et faiblesses Il est possible de connaître parfois lequel est le meilleur ou bien c est quoi la définition de meilleur Qu est ce qui rend un modèle utile? Plusieurs facteurs En général on doit essayer tous les algorithmes & approches pour avoir une bonne solution Souvent il est utile de combiner plusieurs algorithmes I. BERRADA 58