GROUP PROCESSING AVEC ENTERPRISE MINER SENG TANG CONSULTANT ANALYTIQUE SAS CANADA APRIL 2014
CE QUE VOUS ALLEZ APPRENDRE - Fonctionnalité d Enterprise Miner qui permet d itérer sur un processus donné. - Facilite et simplifie la création de multiples modèles - Par «target» - Par segment (statique ou dynamique) - Permet d accéder à des fonctionnalités supplémentaires d Enterprise Miner: «K-fold cross-validation», bagging et de boosting - Se veut une approche «automatisée» axée sur les performances prédictives des modèles et non pas sur l aspect descriptif.
AGENDA - Qu est-ce que le «Group processing» dans Enterprise Miner? - Applications: - Modéliser des «targets» multiples ou créer des modèles par segment avec un même «flow» - Réaliser un «K-fold cross-validation» pour mesurer la robustesse des modèles - Bagging et de Boosting - Avantages et inconvénients - Questions
QU EST-CE QUE GROUP PROCESSING? - Fonctionnalité d Enterprise Miner qui permet d itérer sur un processus donné. 1. Permet de diminuer le travail du modélisateur en diminuant le nombre de «flows» qui doit être créé. 2. Permet d accéder à des fonctionnalités d Enterprise Miner qui sont difficiles à reproduire.
QU EST-CE QUE GROUP PROCESSING?
MODÉLISER PLUSIEURS TARGETS EN UN SEUL «FLOW» RÉDUCTION DU TRAVAIL DU MODÉLISATEUR
MULTI TARGET Target 1 Target 2 Target 1 + Target 2
MULTI TARGET
MULTI TARGET - RÉSULTATS Nœud comparaison de modèles
MULTI TARGET - RÉSULTATS Nœud End Group ou Nœuds des modèles
MULTI TARGET - RÉSULTATS Nœud End Group ou Nœuds des modèles
MULTI TARGET - RÉSULTATS Nœud End Group ou Nœuds des modèles
MULTI TARGET - RÉSULTATS Nœud Scoring
CRÉER DES MODÈLES PAR SEGMENT EN UN SEUL «FLOW» RÉDUCTION DU TRAVAIL DU MODÉLISATEUR
MULTI SEGMENT VARIABLE SEGMENT EXISTANTE
MULTI SEGMENT - RÉSULTATS
MULTI SEGMENT - RÉSULTATS Nœud End Group et Nœuds de modèles
MULTI SEGMENT - RÉSULTATS Nœud End Group et Nœuds de modèles
MULTI SEGMENT - RÉSULTATS Nœud End Group et Nœuds de modèles
MULTI SEGMENT - RÉSULTATS Nœud Scoring
MULTI SEGMENT RÉSULTATS (SUITE) Nœud Scoring
MULTI SEGMENT DYNAMIQUE: VARIABLE SEGMENT PROVENANT D UN ALGORITHME DE CLUSTERING
MULTI SEGMENT DYNAMIQUE: VARIABLE SEGMENT PROVENANT D UN ALGORITHME DE CLUSTERING (SUITE)
MULTI SEGMENT DYNAMIQUE Nœud Scoring Vous trouverez dans le noeud scoring le code de clustering additionellement au code des modèles pour chacun des segments
K-FOLD CROSS-VALIDATION VALIDATION DE MODÈLE POUR «PETITS» JEUX DE DONNÉES
K-FOLD CROSS-VALIDATION - Utile lorsque les données ne sont pas très volumineuses et que vous ne voulez pas réserver une portion de celles-ci pour l étape de validation (Hold-out Sample). - Consiste en: - Utiliser toutes les données disponibles pour entrainer et valider le modèle - Séparer l échantillon d entrainement en k groupes - Entrainer le modèle sur les k-1 groupes - Évaluer la performance du modèle sur le groupe restant; groupe de validation - Itérer jusqu à ce que tous les k groupes ont été utilisés comme groupe de validation - Utiliser la moyenne de performance du modèle sur les k groupes comme performance du modèle - K = 10 est souvent utilisé
K-FOLD CROSS-VALIDATION Illustration avec k=10 1 Validate 2 3 4 5 6 Train 7 8 9 10 1 Train 2 Validate 3 4 5 6 Train 7 8 9 10 1 Train 2 3 Validate 4 5 6 7 Train 8 9 10... 1 2 2 4 5 Train 6 7 8 9 10 Validate Performance moyenne sur les k groupes utilisés pour la validation du modèle
K-FOLD CROSS-VALIDATION Crée 10 groupes aléatoires. Modifiez le 10 pour créer le nombre de groupes nécessaires.
K-FOLD CROSS-VALIDATION - RÉSULTATS Nœud End Group ou Nœuds des modèles
K-FOLD CROSS-VALIDATION - RÉSULTATS Nœud End Group ou Nœuds des modèles
K-FOLD CROSS-VALIDATION - RÉSULTATS Nœud End Group ou Nœuds des modèles
BAGGING ET BOOSTING CRÉATION DE MODÈLES ENSEMBLISTES
BAGGING ET BOOSTING Le Bagging et le Boosting sont des méthodes de rééchantillonnage (avec remplacement) dont le but est de créer des modèles ensemblistes. Cellesci peuvent augmenter la performance et/ou la stabilité des modèles. Variable Target continue ou catégorielle Variable catégorielle seulement
BAGGING ET BOOSTING ou
BAGGING ET BOOSTING RÉSULTATS Nœud End Group ou Nœuds des modèles
AVANTAGES ET INCONVÉNIENTS Avantages: - Permet de diminuer le travail du modélisateur en diminuant le nombre de «flows» qui doit être créé. - Permet d accéder à des fonctionnalités d Enterprise Miner qui sont difficiles à reproduire. Inconvénients (limitations): - Se veut une approche automatisée axée sur les performances prédictives des modèles: - Plusieurs informations descriptives des modèles sont laissées de côté. (Résultats des régressions, Graphs des arbres de décision, etc.)
RÉFÉRENCE The Power of the Group Processing Facility in EM Sascha Schubert, SAS Institute http://support.sas.com/resources/papers/proceedings10/123-2010.pdf
«TAKE-AWAYS» - Fonctionnalité d Enterprise Miner qui permet d itérer sur un processus donnée. - Facilite et simplifie la creation de multiple modèles - Par «target» - Par segment (statique ou dynamique) - Permet d accéder à des fonctionnalités supplémentaires d Enterprise Miner: «K-fold cross-validation», bagging et de boosting - Se veut une approche «automatisée» axée sur les performances prédictives des modèles et non pas sur l aspect descriptif.
MERCI! QUESTIONS?! www.sas.com