Module 3 : Introduction à la Modélisation SOUS MODELER 1
Techniques prédictives Passé pour prédire l avenir 2
Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur pour permettre une validation indépendante des modèles. Parfois l algorithme divise automatiquement les données en données d apprentissage/test Prédire la cible qu est-ce que nous essayons de prédire? Rôle de chaque champs dans le modèle Directions (terminologie Modeler) IN, OUT, LES DEUX, AUCUNE Précision Combien de fois le modèle prédit correctement? Ou pour les nombres, moyenne d erreur, corrélation, Confiance à quel point cette prédiction peut être correcte? Parfois ce n est pas une probabilité, mais juste une indication Les questions de l équilibre Est-ce les oui / non sont de proportions égales 50/50? Quelle différence peut-il faire? 3
Modèles Prédictifs Certains modèles sont meilleurs que d autres : Précision Compréhension Modèles varient entre facile à comprendre à incompréhensible Arbre de Décision Règles d induction Modèles de Régression Réseaux de Neurones Simple Complexe 4
Atelier 3 : Modélisation sous clementine Atelier 1: Mise en œuvre de Réseaux de Neurones Atelier 2: Induction de Règles avec Clementine Atelier 3 : Combiner l Induction de Règles et les Réseaux de Neurones Atelier 4: Algorithmes de Classification Atelier 5 : Règles d associations 5
Algorithmes de Modélisation Analyse Factorielle PCA/Facteur Classification / prédiction R. Neuronnes, C5.0, CHAID, C&RT, Quest, Régression Logistique, Régression Linéaire, Segmentation Réseau de Kohonen, TwoStep, K-Means Association Apriori, GRI, CARMA, Séquence 6
Travail pratique 5 : Mise en œuvre de Réseaux de Neurones SPSS Maghreb 7
Utilisation d un R. neurones 8 Supposons vouloir construire un modèle pour prédire le Risque. Nettoyer votre espace de travail Sélectionner le nœud source SPSS et placez-le sur l espace de travail Sélectionner le fichier «Exemple.sav» Auditer les données et procéder à la préparation de données les valeurs manquantes des variables sexe (variable qualitative) et âge (variable quantitative) devront être remplacées respectivement par le mode et la moyenne Faites un recodage de la variable Risque en risque_rec de sorte à ne garder que deux modalités : mauvais et (Bon & Moyen)
Utilisation d un R. neurones Etape 2 : Partitionnement des données (70/30) Exécutez le nœud partition Les données seront divisées en deux ensembles apprentissage et test de proportion respective de 70% et 30%. Etape 3 : modélisation par un RN simple : paramétrage par défaut Charger le nœud RN Editez le nœud RN_SEQ relié au nœud Typer Le modèle de réseau de neurones choisi est le perceptron multicouche (MLP). vous pouvez choisir le modèle fonction radiale de base (RBF). Lancez le nœud réseau de neurones 9
Utilisation d un R. neurones Règles d arrêt Choix de la méthode : MLP 83% de précision globale 38 % de précision de la modalité mauvais 10
Utilisation d un R. neurones Importance des variables prédictives Prévision du risque et confiance générée par le RN sans equilibre 11
Analyse des résultats du RN Importance des variables prédictives Prévision du risque et confiance générée par le RN sans equilibre 12
Analyse des résultats du RN 13
Analyse des résultats du RN 14
Scénario 2 : Prévision du risque par RN après Equilibre de la cible Précision de la modalité mauvais risque améliorée : 73,6% 15
Scénario 2 : Prévision du risque par RN après Equilibre de la cible Précision globale peu améliorée 16
Scénario 2 : Prévision du risque par RN après Equilibre de la cible Calcul du score de risque par RN Score de risque élevé par RN 17
Scénario 2 : Prévision du risque par RN après Equilibre de la cible Ciblage des clients à fort potentiel de risque 18
Calcul de score Risque _RN Procédez à un recodage de la variable Risque : 1 risque mauvais 2 et 3 risque moyen et bon Refaire la modélisation en équilibrant par réduction Puis calculer le score de risque selon la formule suivante et produire la distribution du score par risque_rec 19
Travail pratique 6 : Induction de Règles Sous Modeler 20
Utilisation des Techniques d Induction de Règles 21 Attacher le noeud modèle C5.0 à la source de données exemple.sav et Typer Assurez-vous que risque = OUT et ID = AUCUN Exécuter le Modèle après la préparation des données Explorer le Modèle Arbre Montrer les Instances et Confidences Génération de règles à partir de l arbre
Utilisation des Techniques d Induction de Règles : comparaison RN, C5 SPSS Maghreb 22
Utilisation des Techniques d Induction de Règles : comparaison RN, C5 Un arbre de profondeur 2 est obtenu. Deux règles pour la prévision du risque mauvais sont générées : Règle 1 : Si le nombre de cartes de fidélité est au plus 3 et le nb de cartes de crédit est au moins 4 alors 66,6 % de chance que le client soit à risque. La règle est vérifiée par 95 cas. Règle 2 : Si le nb de carte de fidélité est au moins 4 alors la probabilité de risque est 81,4 % et 430 cas la vérifient. SPSS Maghreb 23
Utilisation des Techniques d Induction de Règles : comparaison RN, C5 Un arbre de profondeur 2 est obtenu. Deux règles pour la prévision du risque mauvais sont générées : Règle 1 : Si le nombre de cartes de fidélité est au plus 3 et le nb de cartes de crédit est au moins 4 alors 66,6 % de chance que le client soit à risque. La règle est vérifiée par 95 cas. Règle 2 : Si le nb de carte de fidélité est au moins 4 alors la probabilité de risque est 81,4 % et 430 cas la vérifient. SPSS Maghreb 24
création d un modèle de prévision par CHAID SPSS Maghreb 25
Résultats d un modèle de prévision par CHAID Deux règles sont générées pour le risque mauvais : Règle 1 : Si le nombre de cartes de crédits est 3 et le client est marié alors 95,2% de chance qu il soit à risque et 80 cas la vérifient. Règle 2 : Si le nombre de cartes de crédits est plus que 4 alors 67,3% de chance qu il soit à risque et 214 cas la vérifient. Evidemment les règles de C5 sont différentes de celles de CHAID malgré le fait que les deux modèles sont équivalents en terme de précision globale et spécifique. L homme métier choisira le modèle le plus simple à déployer. SPSS Maghreb 26
Travail pratique 7 : Combiner l Induction de Règles et les Réseaux de Neurones SPSS Maghreb 27
Rule Induction de Règles avant un R. Neurones R. Neurone (à l exception de Prune) concerve tous les inputs lors de la construction d un modèle. Utilisez les données Exemple.sav Exécuter le noeud C5.0 après typage Examiner le modèle C5 généré Sélectionner Générer puis Filtrer Clementine génère automatiquement un noeud filtrer Connecter le noeud Filtrer au flux et éditez-le pour l examiner SPSS Maghreb 28
Induction de règles après un R. de Neurones Utiliser le flux précédent Éditer le second noeud Typer $N-risque = OUT $NC-risque et RISK = NONE Attacher C5.0 et exécuter Réexaminer les résultats du modèle C5 Avez-vous une meilleure compréhension du modèle neuronale? SPSS Maghreb 29
Induction de règles après un R. de Neurones SPSS Maghreb 30
Induction de règles après un R. de Neurones Génération d un ensemble de règles SPSS Maghreb 31
Travail pratique 8 : Algorithmes de Classification SPSS Maghreb 32
Travail pratique 8 : Algorithmes de Classification SPSS Maghreb 33
CF. Atelier : Techniques non supervisées de classification Etape 1 de modélisation Etape 2 de description des classes Etape 3 de scroing par classes 34
CF. Atelier : Techniques non supervisées de classification 35 Chargez le fichier de données EXEMPLE.SAV Auditer les données et procéder à la préparation de données de manière similaire à la modélisation supervisée. On laissera le risque à trois modalités Typer les données en spécifiant les variables d entrée Charger le nœud 2_Step et Editez le
Navigation dans le nœud de classification 2_Step 36 C1 : 28,1% ; C2 : 50,7% la plus dominante ; C3 : 21,2% la plus faible Les variables ayant un pouvoir le plus discriminant dans la construction de ces trois classes sont selon l ordre décroissant d importance : Nombre de cartes de fidélités, nombre d enfants à charges, âge, type de rémunération et le sexe avec une très faible influence. Il est possible d affiner la description des classes par la description de leurs noyaux.
Navigation dans le nœud de classification 2_Step Il ressort que les trois classes sont bien discriminées en terme de statut marital, nb de cartes de fidélités, nb d enfants, autres emprunts mais pas suffisamment en salaire et selon le sexe. Au lieu de faire la description par navigation du modèle, il est possible d obtenir les noyaux des classes par agrégation par rapport au modèle à 3 classes et par agrégation globale pour avoir le centre de gravité de tous le nuage des clients comme le montre le flux suivant
Navigation dans le nœud de classification 2_Step
Navigation dans le nœud de classification 2_Step : 4 classes C4 se caractérise par des clients dont le salaire est élevé par rapport à la moyenne de l ensemble des clients (Cf. colonne global qui correspond au noyau de la population en entier). En terme de risque, cette classe contient des clients à très faible potentiel de risque. A la différence de la classe 3 dont le potentiel de risque est trop élevé. En se basant seulement sur cet indicateur, il s avère nécessaire de retenir la classification à 4 classes.
Navigation dans le nœud de classification 2_Step : 4 classes Description de la classfication à 4 classes
Navigation dans le nœud de classification 2_Step : 4 classes Description de la classfication à 4 classes
Utilisation d un R. de Kohonen Supposons vouloir trouver des groupes similaires de clients par rapport à leur comportement d achat. Sélectionner un nœud Délimité et placez-le sur l espace de travail Sélectionner le fichier «achat.txt» Attacher un nœud Typer Spécifier Direction IN pour les champs Produits AUCUN pour les autres champs Connecter une Table au noeud Typer et l executer Connecter un noeud Kohonen au noeud Typer. Editer ce noeud: Specifier Random Seed 100 Sous l option Expert, avec Largeur = 3 Longueur= 3 Executer SPSS Maghreb 42
Utilisation d un R. de Kohonen Connecter une Table au noeud Typer et l exécuter SPSS Maghreb 43
Utilisation d un R. de Kohonen Connecter un noeud Kohonen au noeud Typer. Editer ce noeud: Specifier Random Seed 1000 Sous l option Expert, avec Largeur = 3 Longueur= 3 Exécuter SPSS Maghreb 44
Comprendre Kohonen Attacher le modèle généré au flux précédent Attacher un noeud Nuage Champ X = $KX-Kohonen Champ Y = $KY-Kohonen Options Agitation Superposer? Calculer un nouveau champ Classe en utilisant l opérateur de concaténation >< SPSS Maghreb 45
Comprendre Kohonen Examiner le modèle généré à l aide de l Afficheur. SPSS Maghreb 46
Comprendre Kohonen Examiner le modèle généré à l aide de l Afficheur. Classe 22 (22%) Classe 00 (19%) Classe 02 (17%) Classe 20 (17%) Ce groupe est associé à Biscuits, Boisson et Congelé Ce groupe est principalement associé aux Plats_Prêts Ce groupe est principalement associé aux Conserves Ce groupe est principalement associé aux Biscuits, Boisson, Congelé et Pain SPSS Maghreb 47
Utiliser d autres champs pour produire un profil SPSS Maghreb 48
Comprendre Kohonen Examiner le modèle généré à l aide de l Afficheur. Classe 22 (22%) Classe 00 (19%) Classe 02 (17%) Classe 20 (17%) Ce groupe est associé à Biscuits, Boisson et Congelé. Il contient une forte % de clients sans enfants et de travailleurs Ce groupe est principalement associé aux Plats_Prêts tend à être composé de Jeunes (<40ans), sans enfants qui ont un travail Ce groupe est principalement associé aux Conserves et formé en grande partie de femmes de moins de 40 ans, sans travail et avec enfants Ce groupe est principalement associé aux Biscuits, Boisson, Congelé et Pain. SPSS Maghreb 49
Comprendre Kohonen par C5.0 Attacher un noeud Typer après Classe Définir Classe = OUT Attacher C5.0 après Typer Executer C5.0 et examiner les résultats SPSS Maghreb 50
Règles d Association I. BERRADA 51
Règles d association Qu est ce qui est lié à quoi? E.g. Panier de la ménagère : qu elles sont les éléments qui viennent ensemble? Diagramme peut montrer les liens dans les 2 sens Mais est-ce que fleur-pain-thé est une lient en 3-sens ou 3 liens à 2-sens? Les liens complexes / associations sont découverts grâce aux règles d association E.g. pain <= fleur & thé implique: si vous avez acheté des fleurs et du thé, vous allez probablement acheter du pain aussi Quelle Probabilité = Confiance, nombre de cas = support I. BERRADA 52
Règles d association Antécédents (ou conditions ) Ce qui doit être vérifié avant l application de la règle Conséquence (ou conclusion ) Ce qui tend à être vrai pour l application de la règle Support La proportion des observations qui vérifie la règle (Instances = combien d exemples) Confiance Lors de l exécution de la règle, combien de fois la conclusion est correcte? I. BERRADA 53
Pourquoi / quand utiliser les règles d associations? Analyse des «achats» Comprendre la comportement des achats Autres données similaires, e.g. produits dans une seule commande, Les options sélectionnés dans un compte mobile, pages web ou les sections accédées lors d une visite, Pour découvrir modèles prédictifs cachés Parfois les modèles prédictifs intéressant sont cachées La découverte d association permet de trouver plusieurs petits lots de règles et peut de découvrir les modèles masqués Exploration Générale Ne sais pas exactement qu est ce que je cherche, mais juste dis moi qui va avec quoi I. BERRADA 54
Règles d association dans Clementine Apriori algorithme connu, beaucoup d options, rapide Données catégorielles seulement GRI ( Generalised Rule Induction ) Peut être utilisé sur des variables continues Séquence association séquentiel Composant de SPSS, trouve des modèles séquentiels Souvent utilisé pour le web mining Capri association séquentiel Source externe produit à ajouter ne fait pas partie de Clementine de base Conçu spécialement pour le web-mining I. BERRADA 55
Noeud Apriori Charger le fichier de donnée Achat.txt Editer le noeud Typer et définir la Direction de tous les champs booléens produits Les deux. Les autres directions sont à Aucun Attacher le noeud PRIORI et executez-le. I. BERRADA 56
Modèles statistiques Régression linéaire (variable numérique seulement) Trouve des équations linéaires Régression logistique (variable catégorielle) Une équation pour chaque réponse possible Analyse factorielle / ACP Un modèle différent réduction de la complexité des données Réponds à la question: Quelles sont les dimensions de variation qui existe réellement dans les données (quelque soit le nombre de champs existants) I. BERRADA 57
Modélisation - Résumé Différents algorithmes Conviennent à différentes tâches Ont différentes forces et faiblesses Il est possible de connaître parfois lequel est le meilleur ou bien c est quoi la définition de meilleur Qu est ce qui rend un modèle utile? Plusieurs facteurs En général on doit essayer tous les algorithmes & approches pour avoir une bonne solution Souvent il est utile de combiner plusieurs algorithmes I. BERRADA 58