Module 3 : Introduction à la Modélisation SOUS MODELER
|
|
- Virgile Jean-Pascal Fortin
- il y a 8 ans
- Total affichages :
Transcription
1 Module 3 : Introduction à la Modélisation SOUS MODELER 1
2 Techniques prédictives Passé pour prédire l avenir 2
3 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur pour permettre une validation indépendante des modèles. Parfois l algorithme divise automatiquement les données en données d apprentissage/test Prédire la cible qu est-ce que nous essayons de prédire? Rôle de chaque champs dans le modèle Directions (terminologie Modeler) IN, OUT, LES DEUX, AUCUNE Précision Combien de fois le modèle prédit correctement? Ou pour les nombres, moyenne d erreur, corrélation, Confiance à quel point cette prédiction peut être correcte? Parfois ce n est pas une probabilité, mais juste une indication Les questions de l équilibre Est-ce les oui / non sont de proportions égales 50/50? Quelle différence peut-il faire? 3
4 Modèles Prédictifs Certains modèles sont meilleurs que d autres : Précision Compréhension Modèles varient entre facile à comprendre à incompréhensible Arbre de Décision Règles d induction Modèles de Régression Réseaux de Neurones Simple Complexe 4
5 Atelier 3 : Modélisation sous clementine Atelier 1: Mise en œuvre de Réseaux de Neurones Atelier 2: Induction de Règles avec Clementine Atelier 3 : Combiner l Induction de Règles et les Réseaux de Neurones Atelier 4: Algorithmes de Classification Atelier 5 : Règles d associations 5
6 Algorithmes de Modélisation Analyse Factorielle PCA/Facteur Classification / prédiction R. Neuronnes, C5.0, CHAID, C&RT, Quest, Régression Logistique, Régression Linéaire, Segmentation Réseau de Kohonen, TwoStep, K-Means Association Apriori, GRI, CARMA, Séquence 6
7 Travail pratique 5 : Mise en œuvre de Réseaux de Neurones SPSS Maghreb 7
8 Utilisation d un R. neurones 8 Supposons vouloir construire un modèle pour prédire le Risque. Nettoyer votre espace de travail Sélectionner le nœud source SPSS et placez-le sur l espace de travail Sélectionner le fichier «Exemple.sav» Auditer les données et procéder à la préparation de données les valeurs manquantes des variables sexe (variable qualitative) et âge (variable quantitative) devront être remplacées respectivement par le mode et la moyenne Faites un recodage de la variable Risque en risque_rec de sorte à ne garder que deux modalités : mauvais et (Bon & Moyen)
9 Utilisation d un R. neurones Etape 2 : Partitionnement des données (70/30) Exécutez le nœud partition Les données seront divisées en deux ensembles apprentissage et test de proportion respective de 70% et 30%. Etape 3 : modélisation par un RN simple : paramétrage par défaut Charger le nœud RN Editez le nœud RN_SEQ relié au nœud Typer Le modèle de réseau de neurones choisi est le perceptron multicouche (MLP). vous pouvez choisir le modèle fonction radiale de base (RBF). Lancez le nœud réseau de neurones 9
10 Utilisation d un R. neurones Règles d arrêt Choix de la méthode : MLP 83% de précision globale 38 % de précision de la modalité mauvais 10
11 Utilisation d un R. neurones Importance des variables prédictives Prévision du risque et confiance générée par le RN sans equilibre 11
12 Analyse des résultats du RN Importance des variables prédictives Prévision du risque et confiance générée par le RN sans equilibre 12
13 Analyse des résultats du RN 13
14 Analyse des résultats du RN 14
15 Scénario 2 : Prévision du risque par RN après Equilibre de la cible Précision de la modalité mauvais risque améliorée : 73,6% 15
16 Scénario 2 : Prévision du risque par RN après Equilibre de la cible Précision globale peu améliorée 16
17 Scénario 2 : Prévision du risque par RN après Equilibre de la cible Calcul du score de risque par RN Score de risque élevé par RN 17
18 Scénario 2 : Prévision du risque par RN après Equilibre de la cible Ciblage des clients à fort potentiel de risque 18
19 Calcul de score Risque _RN Procédez à un recodage de la variable Risque : 1 risque mauvais 2 et 3 risque moyen et bon Refaire la modélisation en équilibrant par réduction Puis calculer le score de risque selon la formule suivante et produire la distribution du score par risque_rec 19
20 Travail pratique 6 : Induction de Règles Sous Modeler 20
21 Utilisation des Techniques d Induction de Règles 21 Attacher le noeud modèle C5.0 à la source de données exemple.sav et Typer Assurez-vous que risque = OUT et ID = AUCUN Exécuter le Modèle après la préparation des données Explorer le Modèle Arbre Montrer les Instances et Confidences Génération de règles à partir de l arbre
22 Utilisation des Techniques d Induction de Règles : comparaison RN, C5 SPSS Maghreb 22
23 Utilisation des Techniques d Induction de Règles : comparaison RN, C5 Un arbre de profondeur 2 est obtenu. Deux règles pour la prévision du risque mauvais sont générées : Règle 1 : Si le nombre de cartes de fidélité est au plus 3 et le nb de cartes de crédit est au moins 4 alors 66,6 % de chance que le client soit à risque. La règle est vérifiée par 95 cas. Règle 2 : Si le nb de carte de fidélité est au moins 4 alors la probabilité de risque est 81,4 % et 430 cas la vérifient. SPSS Maghreb 23
24 Utilisation des Techniques d Induction de Règles : comparaison RN, C5 Un arbre de profondeur 2 est obtenu. Deux règles pour la prévision du risque mauvais sont générées : Règle 1 : Si le nombre de cartes de fidélité est au plus 3 et le nb de cartes de crédit est au moins 4 alors 66,6 % de chance que le client soit à risque. La règle est vérifiée par 95 cas. Règle 2 : Si le nb de carte de fidélité est au moins 4 alors la probabilité de risque est 81,4 % et 430 cas la vérifient. SPSS Maghreb 24
25 création d un modèle de prévision par CHAID SPSS Maghreb 25
26 Résultats d un modèle de prévision par CHAID Deux règles sont générées pour le risque mauvais : Règle 1 : Si le nombre de cartes de crédits est 3 et le client est marié alors 95,2% de chance qu il soit à risque et 80 cas la vérifient. Règle 2 : Si le nombre de cartes de crédits est plus que 4 alors 67,3% de chance qu il soit à risque et 214 cas la vérifient. Evidemment les règles de C5 sont différentes de celles de CHAID malgré le fait que les deux modèles sont équivalents en terme de précision globale et spécifique. L homme métier choisira le modèle le plus simple à déployer. SPSS Maghreb 26
27 Travail pratique 7 : Combiner l Induction de Règles et les Réseaux de Neurones SPSS Maghreb 27
28 Rule Induction de Règles avant un R. Neurones R. Neurone (à l exception de Prune) concerve tous les inputs lors de la construction d un modèle. Utilisez les données Exemple.sav Exécuter le noeud C5.0 après typage Examiner le modèle C5 généré Sélectionner Générer puis Filtrer Clementine génère automatiquement un noeud filtrer Connecter le noeud Filtrer au flux et éditez-le pour l examiner SPSS Maghreb 28
29 Induction de règles après un R. de Neurones Utiliser le flux précédent Éditer le second noeud Typer $N-risque = OUT $NC-risque et RISK = NONE Attacher C5.0 et exécuter Réexaminer les résultats du modèle C5 Avez-vous une meilleure compréhension du modèle neuronale? SPSS Maghreb 29
30 Induction de règles après un R. de Neurones SPSS Maghreb 30
31 Induction de règles après un R. de Neurones Génération d un ensemble de règles SPSS Maghreb 31
32 Travail pratique 8 : Algorithmes de Classification SPSS Maghreb 32
33 Travail pratique 8 : Algorithmes de Classification SPSS Maghreb 33
34 CF. Atelier : Techniques non supervisées de classification Etape 1 de modélisation Etape 2 de description des classes Etape 3 de scroing par classes 34
35 CF. Atelier : Techniques non supervisées de classification 35 Chargez le fichier de données EXEMPLE.SAV Auditer les données et procéder à la préparation de données de manière similaire à la modélisation supervisée. On laissera le risque à trois modalités Typer les données en spécifiant les variables d entrée Charger le nœud 2_Step et Editez le
36 Navigation dans le nœud de classification 2_Step 36 C1 : 28,1% ; C2 : 50,7% la plus dominante ; C3 : 21,2% la plus faible Les variables ayant un pouvoir le plus discriminant dans la construction de ces trois classes sont selon l ordre décroissant d importance : Nombre de cartes de fidélités, nombre d enfants à charges, âge, type de rémunération et le sexe avec une très faible influence. Il est possible d affiner la description des classes par la description de leurs noyaux.
37 Navigation dans le nœud de classification 2_Step Il ressort que les trois classes sont bien discriminées en terme de statut marital, nb de cartes de fidélités, nb d enfants, autres emprunts mais pas suffisamment en salaire et selon le sexe. Au lieu de faire la description par navigation du modèle, il est possible d obtenir les noyaux des classes par agrégation par rapport au modèle à 3 classes et par agrégation globale pour avoir le centre de gravité de tous le nuage des clients comme le montre le flux suivant
38 Navigation dans le nœud de classification 2_Step
39 Navigation dans le nœud de classification 2_Step : 4 classes C4 se caractérise par des clients dont le salaire est élevé par rapport à la moyenne de l ensemble des clients (Cf. colonne global qui correspond au noyau de la population en entier). En terme de risque, cette classe contient des clients à très faible potentiel de risque. A la différence de la classe 3 dont le potentiel de risque est trop élevé. En se basant seulement sur cet indicateur, il s avère nécessaire de retenir la classification à 4 classes.
40 Navigation dans le nœud de classification 2_Step : 4 classes Description de la classfication à 4 classes
41 Navigation dans le nœud de classification 2_Step : 4 classes Description de la classfication à 4 classes
42 Utilisation d un R. de Kohonen Supposons vouloir trouver des groupes similaires de clients par rapport à leur comportement d achat. Sélectionner un nœud Délimité et placez-le sur l espace de travail Sélectionner le fichier «achat.txt» Attacher un nœud Typer Spécifier Direction IN pour les champs Produits AUCUN pour les autres champs Connecter une Table au noeud Typer et l executer Connecter un noeud Kohonen au noeud Typer. Editer ce noeud: Specifier Random Seed 100 Sous l option Expert, avec Largeur = 3 Longueur= 3 Executer SPSS Maghreb 42
43 Utilisation d un R. de Kohonen Connecter une Table au noeud Typer et l exécuter SPSS Maghreb 43
44 Utilisation d un R. de Kohonen Connecter un noeud Kohonen au noeud Typer. Editer ce noeud: Specifier Random Seed 1000 Sous l option Expert, avec Largeur = 3 Longueur= 3 Exécuter SPSS Maghreb 44
45 Comprendre Kohonen Attacher le modèle généré au flux précédent Attacher un noeud Nuage Champ X = $KX-Kohonen Champ Y = $KY-Kohonen Options Agitation Superposer? Calculer un nouveau champ Classe en utilisant l opérateur de concaténation >< SPSS Maghreb 45
46 Comprendre Kohonen Examiner le modèle généré à l aide de l Afficheur. SPSS Maghreb 46
47 Comprendre Kohonen Examiner le modèle généré à l aide de l Afficheur. Classe 22 (22%) Classe 00 (19%) Classe 02 (17%) Classe 20 (17%) Ce groupe est associé à Biscuits, Boisson et Congelé Ce groupe est principalement associé aux Plats_Prêts Ce groupe est principalement associé aux Conserves Ce groupe est principalement associé aux Biscuits, Boisson, Congelé et Pain SPSS Maghreb 47
48 Utiliser d autres champs pour produire un profil SPSS Maghreb 48
49 Comprendre Kohonen Examiner le modèle généré à l aide de l Afficheur. Classe 22 (22%) Classe 00 (19%) Classe 02 (17%) Classe 20 (17%) Ce groupe est associé à Biscuits, Boisson et Congelé. Il contient une forte % de clients sans enfants et de travailleurs Ce groupe est principalement associé aux Plats_Prêts tend à être composé de Jeunes (<40ans), sans enfants qui ont un travail Ce groupe est principalement associé aux Conserves et formé en grande partie de femmes de moins de 40 ans, sans travail et avec enfants Ce groupe est principalement associé aux Biscuits, Boisson, Congelé et Pain. SPSS Maghreb 49
50 Comprendre Kohonen par C5.0 Attacher un noeud Typer après Classe Définir Classe = OUT Attacher C5.0 après Typer Executer C5.0 et examiner les résultats SPSS Maghreb 50
51 Règles d Association I. BERRADA 51
52 Règles d association Qu est ce qui est lié à quoi? E.g. Panier de la ménagère : qu elles sont les éléments qui viennent ensemble? Diagramme peut montrer les liens dans les 2 sens Mais est-ce que fleur-pain-thé est une lient en 3-sens ou 3 liens à 2-sens? Les liens complexes / associations sont découverts grâce aux règles d association E.g. pain <= fleur & thé implique: si vous avez acheté des fleurs et du thé, vous allez probablement acheter du pain aussi Quelle Probabilité = Confiance, nombre de cas = support I. BERRADA 52
53 Règles d association Antécédents (ou conditions ) Ce qui doit être vérifié avant l application de la règle Conséquence (ou conclusion ) Ce qui tend à être vrai pour l application de la règle Support La proportion des observations qui vérifie la règle (Instances = combien d exemples) Confiance Lors de l exécution de la règle, combien de fois la conclusion est correcte? I. BERRADA 53
54 Pourquoi / quand utiliser les règles d associations? Analyse des «achats» Comprendre la comportement des achats Autres données similaires, e.g. produits dans une seule commande, Les options sélectionnés dans un compte mobile, pages web ou les sections accédées lors d une visite, Pour découvrir modèles prédictifs cachés Parfois les modèles prédictifs intéressant sont cachées La découverte d association permet de trouver plusieurs petits lots de règles et peut de découvrir les modèles masqués Exploration Générale Ne sais pas exactement qu est ce que je cherche, mais juste dis moi qui va avec quoi I. BERRADA 54
55 Règles d association dans Clementine Apriori algorithme connu, beaucoup d options, rapide Données catégorielles seulement GRI ( Generalised Rule Induction ) Peut être utilisé sur des variables continues Séquence association séquentiel Composant de SPSS, trouve des modèles séquentiels Souvent utilisé pour le web mining Capri association séquentiel Source externe produit à ajouter ne fait pas partie de Clementine de base Conçu spécialement pour le web-mining I. BERRADA 55
56 Noeud Apriori Charger le fichier de donnée Achat.txt Editer le noeud Typer et définir la Direction de tous les champs booléens produits Les deux. Les autres directions sont à Aucun Attacher le noeud PRIORI et executez-le. I. BERRADA 56
57 Modèles statistiques Régression linéaire (variable numérique seulement) Trouve des équations linéaires Régression logistique (variable catégorielle) Une équation pour chaque réponse possible Analyse factorielle / ACP Un modèle différent réduction de la complexité des données Réponds à la question: Quelles sont les dimensions de variation qui existe réellement dans les données (quelque soit le nombre de champs existants) I. BERRADA 57
58 Modélisation - Résumé Différents algorithmes Conviennent à différentes tâches Ont différentes forces et faiblesses Il est possible de connaître parfois lequel est le meilleur ou bien c est quoi la définition de meilleur Qu est ce qui rend un modèle utile? Plusieurs facteurs En général on doit essayer tous les algorithmes & approches pour avoir une bonne solution Souvent il est utile de combiner plusieurs algorithmes I. BERRADA 58
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailMasters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»
Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailOrganisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.
2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailComplet Intuitif Efficace. Références
Logiciel de référence en Analyse de Données, Data Mining et Text Mining pour transformer vos données en connaissance Complet Intuitif Efficace Dans un environnement convivial et intuitif, disposez de toute
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Plus en détailL utilisation d un réseau de neurones pour optimiser la gestion d un firewall
L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans
Plus en détailAgenda de la présentation
Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailStéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Présentation de l auteur En charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 à l Université
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailAnalyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Plus en détailSolutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision
Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailStéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Plus en détailApplication de K-means à la définition du nombre de VM optimal dans un cloud
Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février
Plus en détailIntroduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)
MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour
Plus en détailAméliorer les performances du site par l'utilisation de techniques de Web Mining
Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailGrégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.
Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic SAS dans
Plus en détailUne Démarche pour la sélection d outils de cartographie des processus métiers
Une Démarche pour la sélection d outils de cartographie des processus métiers Résumé El Haddadi Anass, Atahran Ahmed, Ebobissé Yves, B. Bounabat anass.elhaddadi@gmail.com, atahran.ahmed@gmail.com, ebobisseyves@yahoo.fr,
Plus en détailWEBSELL. Projet DATAMINING
WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ] SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1.
Plus en détail4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Plus en détailESIEA PARIS 2011-2012
ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailCOURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES
COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée
Plus en détailTravailler avec les télécommunications
Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la
Plus en détailGuide d exploration de base de données de IBM SPSS Modeler 15
Guide d exploration de base de données de IBM SPSS Modeler 15 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p.. Cette
Plus en détailDeuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1
Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1 V. Fiolet Université de Mons-Hainaut 2006-2007 Nous allons aujourd hui nous intéresser à la tâche de classification
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailLe DataMining, qu est-ce que c est et comment l appréhender?
Le DataMining, qu est-ce que c est et comment l appréhender? Extrait d une conversation téléphonique (réelle) : «Allô, monsieur Decourt? Je travaille pour X 1 et nous désirons rencontrer tous les habitants
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailInstallation Client (licence réseau) de IBM SPSS Modeler 14.2
Installation Client (licence réseau) de IBM SPSS Modeler 14.2 Les instructions suivantes permettent d installer IBM SPSS Modeler Client version 14.2 en utilisant un licence réseau. Ce présent document
Plus en détailScénario: Données bancaires et segmentation de clientèle
Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé
Plus en détailStéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Plus en détailACP Voitures 1- Méthode
acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailSpécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC
Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche
Plus en détailStatistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Plus en détailTraitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining
Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences
Plus en détailRapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
Plus en détailLe data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires
Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies
Plus en détailFaire des modifications par lot
Fiche technique PMB n 4.2.1 Faire des modifications par lot Objectif : Savoir utiliser les paniers pour effectuer des modifications sur des lots de notices, de bulletins ou d'exemplaires Applications utilisées
Plus en détailApplication du data mining pour l évaluation de risque en assurance automobile
Application du data mining pour l évaluation de risque en assurance automobile 4 Septembre 2012 Sylvain Pannetier Lebeuf Recherche & Analytique Contenu Qui on est: La compagnie L équipe de recherche et
Plus en détailOptimisation de la compression fractale D images basée sur les réseaux de neurones
Optimisation de la compression fractale D images basée sur les réseaux de neurones D r BOUKELIF Aoued Communication Networks,Architectures and Mutimedia laboratory University of S.B.A aoued@hotmail.com
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailLe ranking de Augure Influencers La méthodologie AIR en détails
Le ranking de Augure Influencers La méthodologie AIR en détails V1.0 Octobre 2014 Oualid Abderrazek Product Marketing Sommaire 1. Contexte...3 2. L algorithme...3 a. Exposition...4 b. Echo...4 c. Niveau
Plus en détailPROTEGER SA CLE USB AVEC ROHOS MINI-DRIVE
PROTEGER SA CLE USB AVEC ROHOS MINI-DRIVE Protéger sa clé USB avec un système de cryptage par mot de passe peut s avérer très utile si l on veut cacher certaines données sensibles, ou bien rendre ces données
Plus en détailManipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner
Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation
Plus en détailUNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************
************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailFilière Informatique de gestion. Facturation par APDRG : prédiction des recettes des cas non codés
Travail de diplôme 2007 Filière Informatique de gestion Facturation par APDRG : prédiction des recettes des cas non codés PrediRec Etudiant : Mathieu Giotta Professeur : Henning Mueller www.hevs.ch SIMAV
Plus en détailStatistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Plus en détailDisparités entre les cantons dans tous les domaines examinés
Office fédéral de la statistique Bundesamt für Statistik Ufficio federale di statistica Uffizi federal da statistica Swiss Federal Statistical Office EMBARGO: 02.05.2005, 11:00 COMMUNIQUÉ DE PRESSE MEDIENMITTEILUNG
Plus en détailCREER UNE ENTREPRISE A JERSEY
CREER UNE ENTREPRISE A JERSEY Avant toute autre démarche, il faut avoir un «business plan» (projet professionnel) solide et bien conçu. Pour cela, il vous suffit de suivre les instructions ci-dessous :
Plus en détailPlan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.
Plan Data mining (partie 2) Introduction 1. Les tâches du data mining 2. Le processus de data mining Master MIAGE - ENITE Spécialité ACSI 3. Les bases de l'analyse de données 4. Les modèles du data mining
Plus en détailQue fait SAS Enterprise Miner?
Développez une connaissance plus précise avec un processus data mining plus productif La transformation de données brutes en informations utiles reste une problématique pour les entreprises. Pour apporter
Plus en détailCrédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH
Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1 Table des matières PARTIE 1 1. Résumé
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détailLa segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Plus en détailricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels,
Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens,
Plus en détailCONSEIL DE COORDIN AT I O N DU PROGRAM M E DE L ONUSID A
CONSEIL DE COORDIN AT I O N DU PROGRAM M E DE L ONUSID A ONUSIDA/CCP (36)/15.12 Date de publication : 24 juin 2015 TRENTE-SIXIÈME RÉUNION Date : 30 juin - 2 juillet 2015 Lieu : Salle du conseil exécutif,
Plus en détailMode d emploi Boutique en ligne janvier 2013
Mode d emploi Boutique en ligne janvier 2013 Table des matières Introduction 3 1. Se connecter à westdecor.be 4 2. Personnaliser votre boutique en ligne 6 2.1 Configurer votre mot de passe 6 2.2 Ajouter
Plus en détailAdobe Photoshop. Bonnes pratiques pour une utilisation professionelle CHAPITRE 7
M2 Caweb 2014-2015 Enseignant : Boris Epp Adobe Photoshop Bonnes pratiques pour une utilisation professionelle CHAPITRE 7 Sommaire 1. Les scripts a. Qu est-ce qu un script? b. La fenêtre script c. Créer
Plus en détailT de Student Khi-deux Corrélation
Les tests d inférence statistiques permettent d estimer le risque d inférer un résultat d un échantillon à une population et de décider si on «prend le risque» (si 0.05 ou 5 %) Une différence de moyennes
Plus en détailL'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailNouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires
Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires Julien Jorge julien.jorge@univ-nantes.fr Laboratoire d Informatique de Nantes Atlantique,
Plus en détailCybermarché et analyse comportementale
Cybermarché et analyse comportementale Antoine-Eric Sammartino aesammartino@e-laser.fr Séminaire Data Mining - Educasoft Formations 18 juin 2001-1- MENU Le Groupe LaSer Le processus Data Mining L industrialisation
Plus en détailOutils pour les réseaux de neurones et contenu du CD-Rom
Outils pour les réseaux de neurones et contenu du CD-Rom Depuis le développement théorique des réseaux de neurones à la fin des années 1980-1990, plusieurs outils ont été mis à la disposition des utilisateurs.
Plus en détailSélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Plus en détailResolution limit in community detection
Introduction Plan 2006 Introduction Plan Introduction Introduction Plan Introduction Point de départ : un graphe et des sous-graphes. But : quantifier le fait que les sous-graphes choisis sont des modules.
Plus en détailData Mining et Statistique
Data Mining et Statistique Philippe Besse, Caroline Le Gall, Nathalie Raimbault & Sophie Sarpy Résumé Cet article propose une introduction au Data Mining. Celle-ci prend la forme d une réflexion sur les
Plus en détailIBM SPSS Direct Marketing
IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailResellerPro. Logiciel de gestion du réseau de distribution. www.hermegie.com. Logiciel conçu et développé par Hermegie Technologies
ResellerPro Logiciel de gestion du réseau de distribution Logiciel conçu et développé par Hermegie Technologies www.hermegie.com Qu est-ce que RessellerPro? ResellerPro est une application web dédiée à
Plus en détailF210. Automate de vision hautes fonctionnalités. Caractèristiques. Algorithmes vectoriels
Automate de vision hautes fonctionnalités Caractèristiques Algorithmes vectoriels Les algorithmes permettent de sélectionner les éléments de traitement requis dans la bibliothèque, puis les combinent et
Plus en détailSoit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.
ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle
Plus en détailStages de Formation en Statistique Appliquée et Logistique
Stages de Formation en Statistique Appliquée et Logistique Un aperçu de nos stages Titre Avec PC Durée Info Visualisation de données de laboratoire avec Excel oui 2 jours p. 3 Analyse de données de laboratoire
Plus en détailTechniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Plus en détailLes algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
Plus en détailMicrosoft Project UNIVERSITÉ HASSAN II AIN CHOCK
Microsoft Project UNIVERSITÉ HASSAN II AIN CHOCK UNIVERSITÉ HASSAN II AIN CHOCK Gestion de projets La gestion de projets est le processus qui consiste à planifier, organiser et gérer les tâches et les
Plus en détailENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013
ENSEIGNEMENT ET MONDE PROFESSIONNEL Illustration d un lien fort au travers d un cours de scoring Jean-Philippe KIENNER 7 novembre 2013 CONTEXTE Une bonne insertion professionnelle des étudiants passe par
Plus en détailLa méthode des scores, particulièrement de la Banque de France
La méthode des scores, particulièrement de la Banque de France Devant la multiplication des défaillances d entreprises au cours des années 80 et début des années 90, la Banque de France a produit des travaux
Plus en détailJeux sous forme extensive (Jeux dynamiques)
(Jeux dynamiques) Plan du chapitre ( juillet 008) / éfinitions, exemples et équivalences Arbres de jeux, information et mémoire tratégies et réduction en forme normale Équilibre de Nash parfait en sous-jeux
Plus en détailLa question est : dans 450 combien de fois 23. L opération est donc la division. Le diviseur. Le quotient
par un nombre entier I La division euclidienne : le quotient est entier Faire l activité division. Exemple Sur une étagère de 4mm de large, combien peut on ranger de livres de mm d épaisseur? La question
Plus en détailIBM SPSS Direct Marketing 21
IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS
Plus en détailValorisation d es des options Novembre 2007
Valorisation des options Novembre 2007 Plan Rappels Relations de prix Le modèle binomial Le modèle de Black-Scholes Les grecques Page 2 Rappels (1) Définition Une option est un contrat financier qui confère
Plus en détailCours de Master Recherche
Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction
Plus en détailCycle de formation certifiante Sphinx
Cycle de formation certifiante Sphinx 28, 29, 30 Mai 2015 Initiation, Approfondissement et Maîtrise Etudes qualitatives / quantitatives Initiation, approfondissement et maîtrise des études qualitatives
Plus en détailRicco Rakotomalala. SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel).
1 Objectif SQL Server Data Mining Add-Ins (incluant Data Mining Client pour Excel). Excel le tableur de manière général est très populaire auprès des «data scientist» 1. Mais, s il est effectivement performant
Plus en détailStages de Formation en Statistique Appliquée et Logistique
Stages de Formation en Statistique Appliquée et Logistique Un aperçu de nos stages Titre Avec PC Durée Info Visualisation de données de laboratoire avec Excel oui 2 jours p. 3 Analyse de données de laboratoire
Plus en détail