GROUP PROCESSING AVEC ENTERPRISE MINER

Documents pareils

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

données en connaissance et en actions?

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Accélérer l agilité de votre site de e-commerce. Cas client

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Resolution limit in community detection

1 Modélisation d être mauvais payeur

Arbres binaires de décision

Agenda de la présentation

Méthodes d apprentissage statistique «Machine Learning»

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

Figure 3.1- Lancement du Gambit

Que fait SAS Enterprise Miner?

Guide d exploration de base de données de IBM SPSS Modeler 15

Formation continue. Ensae-Ensai Formation Continue (Cepe)

marketing, scoring comportemental & analyse prédictive

Fast and furious decision tree induction

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

INTRODUCTION AU DATA MINING

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Panorama des solutions analytiques existantes

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Apprentissage Automatique

CMI ECONOMIE, FINANCE QUANTITATIVE ET STATISTIQUES - PARCOURS FORMATION EN APPRENTISSAGE

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

Retour d expérience RATP. Intégrer le test de performance au cœur du processus de développement agile. Challenges, techniques, résultats.

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Les algorithmes de fouille de données

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Coup de Projecteur sur les Réseaux de Neurones

FORMATION. Finance Immobilière. Acquisition

S84-1 LA GRC ET LE SI (Système d Information) Qualification des données clientèle La segmentation de la clientèle

Big Data et Graphes : Quelques pistes de recherche

Qualité du logiciel: Méthodes de test

Big Data et Graphes : Quelques pistes de recherche

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Vérifier la qualité de vos applications logicielle de manière continue

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Introduction au Data-Mining

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Comment concevoir une Supply Chain robuste et flexible à l échelle mondiale?

Recommandation prédictive

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Spécificités, Applications et Outils

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Malgré la crise, Le décisionnel en croissance en France

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Les Bonnes PRATIQUES DU TEST LOGICIEL

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

SQL Server 2012 et SQL Server 2014

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Cybermarché et analyse comportementale

WHITE PAPER. Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis

Systèmes d information et bases de données (niveau 1)

Plan de notre intervention 1. Pourquoi le test de charge? 2. Les différents types de tests de charge 1.1. Le test de performance 1.2.

Bases de Données Avancées

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

Introduction au Data-Mining

Présentation Alfresco

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

La fraude à la carte bancaire

Données des SIM. Données signalétiques (nom, adresse), Historique d achat, Réactions passées aux actions de promotion

Ebauche Rapport finale

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

<Insert Picture Here> Maintenir le cap avec Oracle WebLogic Server

Les technologies du Big Data

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

La Révolution du Big Data Comment Extraire de la Valeur à partir des Big Data

Outils des Sciences de la décision et du Développement de l'intelligence d'affaires

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.

Modéliser les systèmes complexes Pour synchroniser les équipes multidisciplinaires IGPSC8, Arcachon, le 10 Juin 2013

Quatrième partie IV. Test. Test 15 février / 71

Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

OPTIMISER SON PROCESSUS DE TEST AVEC UNE APPROCHE BOITE GRISE

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

4 Exemples de problèmes MapReduce incrémentaux

Dell Software International Limited City Gate Park Mahon Cork Ireland

Big Data et Marketing : les competences attendues

Augmenter la disponibilité des applications JEE grâce au clustering : Le projet open source JShaft

Rapport de certification

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Catalogue des stages Ercom 2013

Compte-rendu du petit-déjeuner. Vers l entreprise Agile

Titre : La BI vue par l intégrateur Orange

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Enjeux mathématiques et Statistiques du Big Data

Transcription:

GROUP PROCESSING AVEC ENTERPRISE MINER SENG TANG CONSULTANT ANALYTIQUE SAS CANADA APRIL 2014

CE QUE VOUS ALLEZ APPRENDRE - Fonctionnalité d Enterprise Miner qui permet d itérer sur un processus donné. - Facilite et simplifie la création de multiples modèles - Par «target» - Par segment (statique ou dynamique) - Permet d accéder à des fonctionnalités supplémentaires d Enterprise Miner: «K-fold cross-validation», bagging et de boosting - Se veut une approche «automatisée» axée sur les performances prédictives des modèles et non pas sur l aspect descriptif.

AGENDA - Qu est-ce que le «Group processing» dans Enterprise Miner? - Applications: - Modéliser des «targets» multiples ou créer des modèles par segment avec un même «flow» - Réaliser un «K-fold cross-validation» pour mesurer la robustesse des modèles - Bagging et de Boosting - Avantages et inconvénients - Questions

QU EST-CE QUE GROUP PROCESSING? - Fonctionnalité d Enterprise Miner qui permet d itérer sur un processus donné. 1. Permet de diminuer le travail du modélisateur en diminuant le nombre de «flows» qui doit être créé. 2. Permet d accéder à des fonctionnalités d Enterprise Miner qui sont difficiles à reproduire.

QU EST-CE QUE GROUP PROCESSING?

MODÉLISER PLUSIEURS TARGETS EN UN SEUL «FLOW» RÉDUCTION DU TRAVAIL DU MODÉLISATEUR

MULTI TARGET Target 1 Target 2 Target 1 + Target 2

MULTI TARGET

MULTI TARGET - RÉSULTATS Nœud comparaison de modèles

MULTI TARGET - RÉSULTATS Nœud End Group ou Nœuds des modèles

MULTI TARGET - RÉSULTATS Nœud End Group ou Nœuds des modèles

MULTI TARGET - RÉSULTATS Nœud End Group ou Nœuds des modèles

MULTI TARGET - RÉSULTATS Nœud Scoring

CRÉER DES MODÈLES PAR SEGMENT EN UN SEUL «FLOW» RÉDUCTION DU TRAVAIL DU MODÉLISATEUR

MULTI SEGMENT VARIABLE SEGMENT EXISTANTE

MULTI SEGMENT - RÉSULTATS

MULTI SEGMENT - RÉSULTATS Nœud End Group et Nœuds de modèles

MULTI SEGMENT - RÉSULTATS Nœud End Group et Nœuds de modèles

MULTI SEGMENT - RÉSULTATS Nœud End Group et Nœuds de modèles

MULTI SEGMENT - RÉSULTATS Nœud Scoring

MULTI SEGMENT RÉSULTATS (SUITE) Nœud Scoring

MULTI SEGMENT DYNAMIQUE: VARIABLE SEGMENT PROVENANT D UN ALGORITHME DE CLUSTERING

MULTI SEGMENT DYNAMIQUE: VARIABLE SEGMENT PROVENANT D UN ALGORITHME DE CLUSTERING (SUITE)

MULTI SEGMENT DYNAMIQUE Nœud Scoring Vous trouverez dans le noeud scoring le code de clustering additionellement au code des modèles pour chacun des segments

K-FOLD CROSS-VALIDATION VALIDATION DE MODÈLE POUR «PETITS» JEUX DE DONNÉES

K-FOLD CROSS-VALIDATION - Utile lorsque les données ne sont pas très volumineuses et que vous ne voulez pas réserver une portion de celles-ci pour l étape de validation (Hold-out Sample). - Consiste en: - Utiliser toutes les données disponibles pour entrainer et valider le modèle - Séparer l échantillon d entrainement en k groupes - Entrainer le modèle sur les k-1 groupes - Évaluer la performance du modèle sur le groupe restant; groupe de validation - Itérer jusqu à ce que tous les k groupes ont été utilisés comme groupe de validation - Utiliser la moyenne de performance du modèle sur les k groupes comme performance du modèle - K = 10 est souvent utilisé

K-FOLD CROSS-VALIDATION Illustration avec k=10 1 Validate 2 3 4 5 6 Train 7 8 9 10 1 Train 2 Validate 3 4 5 6 Train 7 8 9 10 1 Train 2 3 Validate 4 5 6 7 Train 8 9 10... 1 2 2 4 5 Train 6 7 8 9 10 Validate Performance moyenne sur les k groupes utilisés pour la validation du modèle

K-FOLD CROSS-VALIDATION Crée 10 groupes aléatoires. Modifiez le 10 pour créer le nombre de groupes nécessaires.

K-FOLD CROSS-VALIDATION - RÉSULTATS Nœud End Group ou Nœuds des modèles

K-FOLD CROSS-VALIDATION - RÉSULTATS Nœud End Group ou Nœuds des modèles

K-FOLD CROSS-VALIDATION - RÉSULTATS Nœud End Group ou Nœuds des modèles

BAGGING ET BOOSTING CRÉATION DE MODÈLES ENSEMBLISTES

BAGGING ET BOOSTING Le Bagging et le Boosting sont des méthodes de rééchantillonnage (avec remplacement) dont le but est de créer des modèles ensemblistes. Cellesci peuvent augmenter la performance et/ou la stabilité des modèles. Variable Target continue ou catégorielle Variable catégorielle seulement

BAGGING ET BOOSTING ou

BAGGING ET BOOSTING RÉSULTATS Nœud End Group ou Nœuds des modèles

AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur en diminuant le nombre de «flows» qui doit être créé. - Permet d accéder à des fonctionnalités d Enterprise Miner qui sont difficiles à reproduire. Inconvénients (limitations): - Se veut une approche automatisée axée sur les performances prédictives des modèles: - Plusieurs informations descriptives des modèles sont laissées de côté. (Résultats des régressions, Graphs des arbres de décision, etc.)

RÉFÉRENCE The Power of the Group Processing Facility in EM Sascha Schubert, SAS Institute http://support.sas.com/resources/papers/proceedings10/123-2010.pdf

«TAKE-AWAYS» - Fonctionnalité d Enterprise Miner qui permet d itérer sur un processus donnée. - Facilite et simplifie la creation de multiple modèles - Par «target» - Par segment (statique ou dynamique) - Permet d accéder à des fonctionnalités supplémentaires d Enterprise Miner: «K-fold cross-validation», bagging et de boosting - Se veut une approche «automatisée» axée sur les performances prédictives des modèles et non pas sur l aspect descriptif.

MERCI! QUESTIONS?! www.sas.com