SAS ENTERPRISE MINER POUR L'ACTUAIRE

Dimension: px
Commencer à balayer dès la page:

Download "SAS ENTERPRISE MINER POUR L'ACTUAIRE"

Transcription

1 SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada

2 AGENDA Survol d Enterprise Miner de SAS Enterprise Miner pour les Assurances Modèles linéaires généralisés Modèles à deux étapes Tarification Formation SAS Questions

3 SURVOL D ENTERPRISE MINER

4 SURVOL D ENTERPRISE MINER

5 SURVOL D ENTERPRISE MINER Contient des fonctionnalités qui permettent d'améliorer la performance et de construire des modèles plus simplement et efficacement Échantillon et partition Sélection des variables Imputation et transformation

6 SURVOL D ENTERPRISE MINER Enterprise Miner offre une grande variété d'algorithmes de modélisation prédictive et facilite la comparaison des modèles et le scoring de nouvelles données.

7 SURVOL D ENTERPRISE MINER Données de Training Données de Validation inputs target inputs target Complexité Création d une séquence de modèles avec une complexité croissante....

8 SURVOL D ENTERPRISE MINER Données de Training Données de validation inputs target inputs target Complexité Évaluation de la performance sur les données de Validation...

9 SURVOL D ENTERPRISE MINER Données de Training Données de validation inputs target inputs target Complexité Choisir le modèle le plus simple avec la meilleure performance sur les données de validation Évaluation de la performance...

10 SURVOL D ENTERPRISE MINER Données de Training Données de validation inputs target inputs target Complexité Choisir le modèle le plus simple avec la meilleure performance sur les données de validation Évaluation de la performance...

11 SURVOL D ENTERPRISE MINER Fonctionnalités de Text Mining: Traitement du langage naturel Désambiguïsation lexicale Reconnaissance d'entités nommées Classification et la catégorisation de documents

12 ENTERPRISE MINER POUR LES ASSURANCES : MODÈLES LINÉAIRES GÉNÉRALISÉS

13 MODÈLES LINÉAIRES GÉNÉRALISÉS g ( E ( y )) = β + β x + + β x = X β i 0 1 1i k k i Composante aléatoire: la variable de réponse Y, à laquelle est associée une loi de probabilité La loi de probabilité de la composante aléatoire appartient à la famille exponentielle Composante déterministe: combinaison linéaire Xβ des variables explicatives X1. XK utilisées comme prédicteurs dans le modèle La fonction de lien g() décrit la relation entre la combinaison linéaire des variables X1.XK et l espérance mathématique de la variable de réponse Y 13 Copyright , SAS Institute Inc. All rights reserved.

14 MODÈLES LINÉAIRES GÉNÉRALISÉS Modèle Régression linéaire Régression Logistique Régression Poisson Régression Gamma Variable Dépendante Distribution Moyenne Variance Fonction de lien Continue (gravité des identité réclamations) Normale µ σ 2 µ Dichotomique (propension à la réclamation) Binomiale π π(1- π)/n Comptage (fréquence de réclamation) Poisson λ λ Continuel (sévérité de réclamation ) Gamma µ µ 2 /ν logit log[π/(1-π)] log log(λ) Inverse 1/µ (mais le log est souvent utilisé)

15 MODÈLES LINÉAIRES GÉNÉRALISÉS Le noeud de régression s adapte à la régression logistique ou linéaire dépendant du niveau de la variable cible.

16 MODÈLES LINÉAIRES GÉNÉRALISÉS Le nœud de réseau neuronal s adapte aux modèles linéaires généralisés et peut donner des estimations qui sont identiques à PROC GENMOD en SAS / STAT. L'inverse de la fonction de lien est appliquée à la partie droite de l'équation du modèle et est appelée une fonction d'activation (par exemple lien: log = activation: Exponentielle).

17 MODÈLES LINÉAIRES GÉNÉRALISÉS Le noeud de code SAS avec ses fonctionnalités de macro permet un codage plus simple des procédures SAS/STAT telle que PROC GENMOD.

18 ENTERPRISE MINER POUR LES ASSURANCES : MODÈLES À DEUX ÉTAPES

19 MODÈLES A DEUX ÉTAPES Le noeud TwoStage permet l'estimation de la perte prévue par l adéquation et la combinaison d'un modèle binaire (probabilité de réclamation) et un modèle continu (montant de la réclamation). P é =

20 MODÈLES A DEUX ÉTAPES Les résultats incluent des rapports et des statistiques d adéquation pour chaque modèle

21 ENTERPRISE MINER POUR LES ASSURANCES : TARIFICATION

22 TARIFICATION Différents types de modèles: Fréquence, sévérité, pure premium La distribution Tweedie est utilisée pour modéliser le pure premium

23 TARIFICATION Toutes les variables continues sont regroupées, par le nœud de transformation ou dans le noeud de tarification lui-même Les modèles peuvent être Pure Premium (Tweedie) ou Défini par l utilisateur.

24 TARIFICATION Les modèles définis par l utilisateur peuvent être de la famille exponentielle ou de distribution mixte comme le ZIP et le Tweedie, avec des fonctions de liens.

25 TARIFICATION Les résultats incluent les estimations des paramètres, les statistiques d adéquation et le Relativity Plot. Le Relativity Plot exponentie les estimateurs des paramètres

26 FORMATION SAS

27 FORMATION SAS Advanced Predictive Modeling Using SAS Enterprise Miner Cours publics Formation intra-entreprise Mentorat Cours LiveWeb Cours elearning

28 QUESTIONS? SYLVAIN TREMBLAY SPÉCIALISTE EN FORMATION STATISTIQUE MERCI!

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

assurance Février 2012

assurance Février 2012 Modèles fréquence coût : Construire un générateur de scénarios Quelles perspectives économiques d évolution en? assurance Version 0.7 Version 1.2 Mars 2014 Février 2012 Frédéric PLANCHET frederic@planchet.net

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved. Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic SAS dans

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

La place de SAS dans l'informatique décisionnelle

La place de SAS dans l'informatique décisionnelle La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Le modèle linéaire généralisé avec R : fonction glm()

Le modèle linéaire généralisé avec R : fonction glm() SEMIN- Le modèle linéaire généralisé avec R : fonction glm() Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Ecole Normale Supérieure 46 rue d'ulm F-75230 Paris Cedex 05 sebastien.ballesteros@biologie.ens.fr

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives ************* ************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque

Plus en détail

Mémoire d Actuariat Tarification de la branche d assurance des accidents du travail Aymeric Souleau aymeric.souleau@axa.com 3 Septembre 2010 Plan 1 Introduction Les accidents du travail L assurance des

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle

Plus en détail

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: 514.592.9301 F: 514.340.6850 info@apstat.com www.apstat.com

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: 514.592.9301 F: 514.340.6850 info@apstat.com www.apstat.com Application des réseaux de neurones au plan de répartition des risques 5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: 514.592.9301 F: 514.340.6850 info@apstat.com www.apstat.com Copyright c

Plus en détail

UN CHANGEMENT DE PARADIGME DANS LA PRÉPARATION DES DONNÉES

UN CHANGEMENT DE PARADIGME DANS LA PRÉPARATION DES DONNÉES UN CHANGEMENT DE PARADIGME DANS LA PRÉPARATION DES DONNÉES L ANALYSE VISUELLE ET LE BIG DATA Bernard Blais Directeur Principal Analytique Haute Performance CONTENU L ANALYSE VISUELLE ET LE BIG DATA Big

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

ECOLE SUPERIEURE DE COMMERCE D ALGER

ECOLE SUPERIEURE DE COMMERCE D ALGER MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE ECOLE SUPERIEURE DE COMMERCE D ALGER PROGRAMME DE LICENCE EN SCIENCES COMMERCIALES ET FINANCIERES OPTION : FINANCE ( applicable à partir

Plus en détail

Calcul élémentaire des probabilités

Calcul élémentaire des probabilités Myriam Maumy-Bertrand 1 et Thomas Delzant 1 1 IRMA, Université Louis Pasteur Strasbourg, France Licence 1ère Année 16-02-2006 Sommaire La loi de Poisson. Définition. Exemple. 1 La loi de Poisson. 2 3 4

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry Outils mathématiques pour le datamining http://wwwelsewarefr/univevry Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation Probabilités Définition Théorème de Bayes

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 18/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 18/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions :

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions : Probabilités I- Expérience aléatoire, espace probabilisé : 1- Définitions : Ω : Ensemble dont les points w sont les résultats possibles de l expérience Des évènements A parties de Ω appartiennent à A une

Plus en détail

Guide d exploration de base de données de IBM SPSS Modeler 15

Guide d exploration de base de données de IBM SPSS Modeler 15 Guide d exploration de base de données de IBM SPSS Modeler 15 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p.. Cette

Plus en détail

Découvrez le portefeuille de produits IBM SPSS

Découvrez le portefeuille de produits IBM SPSS Business Analytics Logiciels SPSS Découvrez le portefeuille de produits IBM SPSS L analytique avancée qui aident les entreprises à anticiper le changement et à prendre des mesures pour améliorer leurs

Plus en détail

CMI ECONOMIE, FINANCE QUANTITATIVE ET STATISTIQUES - PARCOURS FORMATION EN APPRENTISSAGE

CMI ECONOMIE, FINANCE QUANTITATIVE ET STATISTIQUES - PARCOURS FORMATION EN APPRENTISSAGE Université de PARIS 2 - ASSAS 1/3 PARCOURS FORMATION EN APPRENTISSAGE L1 S1 Mathématiques 1 4 L1 S1 Statistiques 1 4 L1 S1 Fondemants de l'informatique 4 L1 S1 Compléments Maths 2 L1 S1 Compléments Stats

Plus en détail

Régression logistique ou modèle binomial

Régression logistique ou modèle binomial 1 Régression logistique ou modèle binomial Résumé Régression logistique ou modèle binomial Rappels sur la régression logistique ou modèle binomial du modèle linéaire général. Définition de la notion de

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

Apprentissage Statistique. Bureau d étude :

Apprentissage Statistique. Bureau d étude : Apprentissage Statistique Bureau d étude : Score d appétence en GRC Hélène Milhem IUP SID M2 2011/2012 Institut de Mathématiques de Toulouse UMR CNRS C5219 Equipe de Statistique et Probabilités Université

Plus en détail

Atelier de Prospective n 7. Jusqu où le dossier informatisé peut il favoriser la coordination des acteurs de santé?

Atelier de Prospective n 7. Jusqu où le dossier informatisé peut il favoriser la coordination des acteurs de santé? Atelier de Prospective n 7 Jusqu où le dossier informatisé peut il favoriser la coordination des acteurs de santé? Aujourd hui et demain Aujourd hui : Déploiement : Les DPI sont en cours de généralisation

Plus en détail

Comment valoriser votre patrimoine de données?

Comment valoriser votre patrimoine de données? BIG DATA POUR QUELS USAGES? Comment valoriser votre patrimoine de données? HIGH PERFORMANCE HIGH ANALYTICS PERFORMANCE ANALYTICS MOULOUD DEY SAS FRANCE 15/11/2012 L ENTREPRISE SAS EN QUELQUES CHIFFRES

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16 ACTUARIAT 1, ACT 2121, AUTOMNE 201 #16 ARTHUR CHARPENTIER 1 Dans une petite compagnie d assurance le nombre N de réclamations durant une année suit une loi de Poisson de moyenne λ = 100. On estime que

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1 Table des matières PARTIE 1 1. Résumé

Plus en détail

UV Théorie de l Information. Codes à longueur variable

UV Théorie de l Information. Codes à longueur variable Cours n 5 : UV Théorie de l Information Compression de l information : Codage de source sans distorsion Ex 1 : Code de Shannon Fano Ex 2 : Code de Huffman Ex 3 : Codage par plage Ex 4 : Codage de Lempel

Plus en détail

Outils pour les réseaux de neurones et contenu du CD-Rom

Outils pour les réseaux de neurones et contenu du CD-Rom Outils pour les réseaux de neurones et contenu du CD-Rom Depuis le développement théorique des réseaux de neurones à la fin des années 1980-1990, plusieurs outils ont été mis à la disposition des utilisateurs.

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2 Sommaire Sommaire... 1 Introduction... 2 1 Trois différentes techniques de pricing... 3 1.1 Le modèle de Cox Ross Rubinstein... 3 1.2 Le modèle de Black & Scholes... 8 1.3 Méthode de Monte Carlo.... 1

Plus en détail

À Propos de Dell Statistica 12.6... 2

À Propos de Dell Statistica 12.6... 2 Complete Product Name with Trademarks Version Dell TM Statistica TM Nouveautés Version 12.6 Table des Matières Dell TM Statistica TM... 1 À Propos de Dell Statistica 12.6... 2 Nouvelles Fonctionnalités...

Plus en détail

1 Imputation par la moyenne

1 Imputation par la moyenne Introduction au data mining L3 MIS - STA 1616-2010 V. Monbet Données manquantes L'objectif de ce TD est de manipuler et de comparer plusieurs méthodes d'imputation de données manquantes. La première partie

Plus en détail

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 2 Plan Data mining : définition, utilisations et concepts Wolfram Alpha : extraction de données d'un compte

Plus en détail

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Scoring - Modélisation Data Management, Data Mining, Text Mining 1 Guide du Data Miner Scoring - Modélisation Le logiciel décrit dans le manuel est diffusé dans le cadre d un accord

Plus en détail

Master 1 MAIM-SITN. Régression pour des données de type catégorie

Master 1 MAIM-SITN. Régression pour des données de type catégorie Master 1 MAIM-SITN Régression pour des données de type catégorie Présenté par : Fariath SOULE Encadrant : Gabriela CIUPERCA Année universitaire : 2012-2013 Remerciements Je remercie Madame Gabriela CIUPERCA,

Plus en détail

Didacticiel - Etudes de cas. Comparer TANAGRA, ORANGE et WEKA lors de la construction d une courbe ROC à partir de la régression logistique.

Didacticiel - Etudes de cas. Comparer TANAGRA, ORANGE et WEKA lors de la construction d une courbe ROC à partir de la régression logistique. Objectif Comparer TANAGRA, ORANGE et WEKA lors de la construction d une courbe ROC à partir de la régression logistique. TANAGRA, ORANGE et WEKA sont trois logiciels de data mining gratuits. S ils poursuivent

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Guide d'exploration de base de données IBM SPSS Modeler 16

Guide d'exploration de base de données IBM SPSS Modeler 16 Guide d'exploration de base de données IBM SPSS Modeler 16 Important Avant d'utiliser le présent document et le produit associé, prenez connaissance des informations générales figurant à la section «Remarques»,

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr

Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Dominique Muller Laboratoire Inter-universitaire de Psychologie Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Supports de cours : webcom.upmf-grenoble.fr/lip/perso/dmuller/m2r/acm/

Plus en détail

Processus de comptage, Poisson mélange, fonction de perte exponentielle, système bonus-malus.

Processus de comptage, Poisson mélange, fonction de perte exponentielle, système bonus-malus. JF WALHIN* J PARIS* * Université Catholique de Louvain, Belgique Le Mans Assurances, Belgique RÉSUMÉ Nous proposons une méthodologie générale pour construire un système bonus-malus équilibré basé sur une

Plus en détail

Le Guide Pratique des Processus Métiers

Le Guide Pratique des Processus Métiers Guides Pratiques Objecteering Le Guide Pratique des Processus Métiers Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam 21 avenue Victor Hugo 75016

Plus en détail

Techniques et outils de test pour les logiciels réactifs synchrones

Techniques et outils de test pour les logiciels réactifs synchrones Journées Systèmes et Logiciels Critiques Institut IMAG ; 14-16 nombre 2000 Techniques et outils de test pour les logiciels réactifs synchrones Farid Ouabdesselam 1 Méthodes de test : classification générale

Plus en détail

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE Les résultats donnés par R et SAS donnent les valeurs des tests, la valeur-p ainsi que les intervalles de confiance. TEST DE COMPARAISON

Plus en détail

IBM SPSS Direct Marketing 19

IBM SPSS Direct Marketing 19 IBM SPSS Direct Marketing 19 Note: Before using this information and the product it supports, read the general information under Notices sur p. 110. This document contains proprietary information of SPSS

Plus en détail

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données 1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données Votre interlocuteur Didier Gaultier Directeur Data Science Business & Decision Professeur de Statistique à l

Plus en détail

CCNA Discovery Travailler dans une PME ou chez un fournisseur de services Internet

CCNA Discovery Travailler dans une PME ou chez un fournisseur de services Internet Curriculum Name Guide du participant CCENT 3 Section 9.3 Dépannage de l adressage IP de la couche 3 Cette section consacrée au dépannage vous permettra d étudier les conditions nécessaires à l obtention

Plus en détail

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013 ENSEIGNEMENT ET MONDE PROFESSIONNEL Illustration d un lien fort au travers d un cours de scoring Jean-Philippe KIENNER 7 novembre 2013 CONTEXTE Une bonne insertion professionnelle des étudiants passe par

Plus en détail

Espérance, variance, quantiles

Espérance, variance, quantiles Espérance, variance, quantiles Mathématiques Générales B Université de Genève Sylvain Sardy 22 mai 2008 0. Motivation Mesures de centralité (ex. espérance) et de dispersion (ex. variance) 1 f(x) 0.0 0.1

Plus en détail

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language Unified Modeling Language UML Salima Hassas Version Cycle de vie du logiciel Client Besoins Déploiement Analyse Test Conception Cours sur la base des transparents de : Gioavanna Di Marzo Serugendo et Frédéric

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Améliorer la précision des modèles avec des données non structurées

Améliorer la précision des modèles avec des données non structurées IBM SPSS Modeler Premium Améliorer la précision des modèles avec des données non structurées Points clés Consultez, préparez et intégrez facilement des données structurées ainsi que des données tirées

Plus en détail

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux

Plus en détail

Statistique descriptive et prévision

Statistique descriptive et prévision Statistique descriptive et prévision Année 2010/2011 L. Chaumont Contents 1. Étude d une variable 5 1.1. Définitions................................ 5 1.2. Représentations graphiques usuelles................

Plus en détail

Quelques points de traitement du signal

Quelques points de traitement du signal Quelques points de traitement du signal Introduction: de la mesure au traitement Source(s) BRUIT BRUIT Système d acquisition Amplitude (Pa) Temps (s) Amplitude (Pa) Mesure Opérations mathématiques appliquées

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

Guide de l utilisateur de IBM SPSS Modeler 15

Guide de l utilisateur de IBM SPSS Modeler 15 Guide de l utilisateur de IBM SPSS Modeler 15 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 272. Cette version s

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

Améliorer la Performance des Fournisseurs

Améliorer la Performance des Fournisseurs Les Solutions SQA de Solumina L Assurance Qualité Fournisseur Figure 1 Influence sur les affaires de nos clients actuels. Réduire des Stocks lors des Inspections Le Système de Contrôle Qualité Fournisseurs

Plus en détail

ENSPS 3A ISAV Master ISTI AR. J. Gangloff

ENSPS 3A ISAV Master ISTI AR. J. Gangloff Commande prédictive ENSPS 3A ISAV Master ISTI AR J. Gangloff Plan 1.Introduction / Historique 2.Modélisation du système 3.Fonction de coût 4.Équations de prédiction 5.Commande optimale 6.Exemples 7.Réglage

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Statistiques avec R 3/4 - Machine Learning/Data Mining

Statistiques avec R 3/4 - Machine Learning/Data Mining Statistiques avec R 3/4 - Machine Learning/Data Mining Christophe Lalanne ch.lalanne@gmail.com www.aliquote.org Cours R (ESME), 2015 1 Synopsis Positionnement du problème Réduction de dimension Sélection

Plus en détail

Accélérer l agilité de votre site de e-commerce. Cas client

Accélérer l agilité de votre site de e-commerce. Cas client Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA Master Exploration Informatique des données Data Mining & Business Intelligence Groupe 5 Piotr BENSALEM Ahmed BENSI Evelyne CHARIFOU Priscillia CASSANDRA Enseignant Françoise FOGELMAN Nicolas DULIAN SOMMAIRE

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

IFT6561. Simulation: aspects stochastiques

IFT6561. Simulation: aspects stochastiques IFT 6561 Simulation: aspects stochastiques DIRO Université de Montréal Automne 2013 Détails pratiques Professeur:, bureau 3367, Pav. A.-Aisenstadt. Courriel: bastin@iro.umontreal.ca Page web: http://www.iro.umontreal.ca/~bastin

Plus en détail

QUANTIFICATION DU RISQUE

QUANTIFICATION DU RISQUE QUANTIFICATION DU RISQUE Journées d études de Deauville, le 16 septembre 2011 OPÉRATIONNEL 1.Solvabilité 2 et le Risque Opérationnel 2.La gestion du Risque Opérationnel 3.Les méthodes de quantification

Plus en détail

Examen d accès - 1 Octobre 2009

Examen d accès - 1 Octobre 2009 Examen d accès - 1 Octobre 2009 Aucun document autorisé - Calculatrice fournie par le centre d examen Ce examen est un questionnaire à choix multiples constitué de 50 questions. Plusieurs réponses sont

Plus en détail

Niveau. Situation étudiée. Type d activité. Durée. Objectifs. Seconde.

Niveau. Situation étudiée. Type d activité. Durée. Objectifs. Seconde. Simuler des expériences aléatoires avec une calculatrice Niveau Seconde. Situation étudiée Différentes selon les séances : Séance 1 : Jeu de pile ou face, tirages de boule dans une urne avec des proportions

Plus en détail