SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada
AGENDA Survol d Enterprise Miner de SAS Enterprise Miner pour les Assurances Modèles linéaires généralisés Modèles à deux étapes Tarification Formation SAS Questions
SURVOL D ENTERPRISE MINER
SURVOL D ENTERPRISE MINER
SURVOL D ENTERPRISE MINER Contient des fonctionnalités qui permettent d'améliorer la performance et de construire des modèles plus simplement et efficacement Échantillon et partition Sélection des variables Imputation et transformation
SURVOL D ENTERPRISE MINER Enterprise Miner offre une grande variété d'algorithmes de modélisation prédictive et facilite la comparaison des modèles et le scoring de nouvelles données.
SURVOL D ENTERPRISE MINER Données de Training Données de Validation inputs target inputs target Complexité 1 2 3 4 5 Création d une séquence de modèles avec une complexité croissante....
SURVOL D ENTERPRISE MINER Données de Training Données de validation inputs target inputs target Complexité 1 2 3 4 5 Évaluation de la performance sur les données de Validation...
SURVOL D ENTERPRISE MINER Données de Training Données de validation inputs target inputs target 1 2 3 4 5 Complexité Choisir le modèle le plus simple avec la meilleure performance sur les données de validation Évaluation de la performance...
SURVOL D ENTERPRISE MINER Données de Training Données de validation inputs target inputs target 1 2 3 4 5 Complexité Choisir le modèle le plus simple avec la meilleure performance sur les données de validation Évaluation de la performance...
SURVOL D ENTERPRISE MINER Fonctionnalités de Text Mining: Traitement du langage naturel Désambiguïsation lexicale Reconnaissance d'entités nommées Classification et la catégorisation de documents
ENTERPRISE MINER POUR LES ASSURANCES : MODÈLES LINÉAIRES GÉNÉRALISÉS
MODÈLES LINÉAIRES GÉNÉRALISÉS g ( E ( y )) = β + β x + + β x = X β i 0 1 1i k k i Composante aléatoire: la variable de réponse Y, à laquelle est associée une loi de probabilité La loi de probabilité de la composante aléatoire appartient à la famille exponentielle Composante déterministe: combinaison linéaire Xβ des variables explicatives X1. XK utilisées comme prédicteurs dans le modèle La fonction de lien g() décrit la relation entre la combinaison linéaire des variables X1.XK et l espérance mathématique de la variable de réponse Y 13 Copyright 13 2012, SAS Institute Inc. All rights reserved.
MODÈLES LINÉAIRES GÉNÉRALISÉS Modèle Régression linéaire Régression Logistique Régression Poisson Régression Gamma 14 14 Variable Dépendante Distribution Moyenne Variance Fonction de lien Continue (gravité des identité réclamations) Normale µ σ 2 µ Dichotomique (propension à la réclamation) Binomiale π π(1- π)/n Comptage (fréquence de réclamation) Poisson λ λ Continuel (sévérité de réclamation ) Gamma µ µ 2 /ν logit log[π/(1-π)] log log(λ) Inverse 1/µ (mais le log est souvent utilisé)
MODÈLES LINÉAIRES GÉNÉRALISÉS Le noeud de régression s adapte à la régression logistique ou linéaire dépendant du niveau de la variable cible.
MODÈLES LINÉAIRES GÉNÉRALISÉS Le nœud de réseau neuronal s adapte aux modèles linéaires généralisés et peut donner des estimations qui sont identiques à PROC GENMOD en SAS / STAT. L'inverse de la fonction de lien est appliquée à la partie droite de l'équation du modèle et est appelée une fonction d'activation (par exemple lien: log = activation: Exponentielle).
MODÈLES LINÉAIRES GÉNÉRALISÉS Le noeud de code SAS avec ses fonctionnalités de macro permet un codage plus simple des procédures SAS/STAT telle que PROC GENMOD.
ENTERPRISE MINER POUR LES ASSURANCES : MODÈLES À DEUX ÉTAPES
MODÈLES A DEUX ÉTAPES Le noeud TwoStage permet l'estimation de la perte prévue par l adéquation et la combinaison d'un modèle binaire (probabilité de réclamation) et un modèle continu (montant de la réclamation). P é =
MODÈLES A DEUX ÉTAPES Les résultats incluent des rapports et des statistiques d adéquation pour chaque modèle
ENTERPRISE MINER POUR LES ASSURANCES : TARIFICATION
TARIFICATION Différents types de modèles: Fréquence, sévérité, pure premium La distribution Tweedie est utilisée pour modéliser le pure premium
TARIFICATION Toutes les variables continues sont regroupées, par le nœud de transformation ou dans le noeud de tarification lui-même Les modèles peuvent être Pure Premium (Tweedie) ou Défini par l utilisateur.
TARIFICATION Les modèles définis par l utilisateur peuvent être de la famille exponentielle ou de distribution mixte comme le ZIP et le Tweedie, avec des fonctions de liens.
TARIFICATION Les résultats incluent les estimations des paramètres, les statistiques d adéquation et le Relativity Plot. Le Relativity Plot exponentie les estimateurs des paramètres
FORMATION SAS
FORMATION SAS Advanced Predictive Modeling Using SAS Enterprise Miner Cours publics Formation intra-entreprise Mentorat Cours LiveWeb Cours elearning
QUESTIONS? SYLVAIN TREMBLAY SPÉCIALISTE EN FORMATION STATISTIQUE SYLVAIN.TREMBLAY@SAS.COM MERCI! www.sas.com