Comment ne pas construire un score-titanic

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Comment ne pas construire un score-titanic"

Transcription

1 Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations

2 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un exemple "DataMining" : "qualité" des assurés automobiles

3 La robustesse, un premier exemple : Quelle confiance avoir dans cette droite si je rajoute de nouveaux individus?

4 La robustesse, un deuxième exemple : 2 groupes d'individus distincts! toute modélisation de l'ensemble sera médiocre. 2 modèles séparés! meilleure précision.

5 La robustesse, une définition : Qualité des modèles qui ne perdent pas en performance si on les applique à de nouveaux individus. Un modèle robuste est donc loisible de bien prédire le comportement de nouveaux clients.

6 Les modèles stratifiés On isole des sous-populations ayant de fortes ressemblances ; on modélise séparément dans chacune de ces sous-populations. Le modèle global fait la synthèse (la somme) des différents "sous-modèles" obtenus.

7 Les modèles stratifiés Avantages : Simplicité de l'idée Lisibilité du modèle Convient bien à tous les cas étudiés Inconvénients : # Représentativité de l'échantillon de travail? Difficulté de séparer les individus en classes homogènes et stables

8 Les modèles itératifs "Cent fois sur le métier remettra ton ouvrage "

9 Les modèles itératifs On fait la modélisation un grand nombre de fois sur des populations légèrement différentes. Toutes ces sous-populations sont issues de la population d'origine (pas de nouveaux individus). Le modèle final est une synthèse (une moyenne) des différents modèles obtenus.

10 Les modèles itératifs Plusieurs variantes : le Jackknife (population à modéliser moins 1 individu) le Bootstrap simple (échantillonnage à probabilités égales dans la population à modéliser) le Bootstrap à probabilités inégales (variante du précédent : l'échantillon n'est pas représentatif de la population de départ)

11 Les modèles itératifs : principe sous-modèle population étudiée échantillon modèle final (moyenne des sous-modèles)

12 Les modèles itératifs Avantages : Grande robustesse du modèle final Possibilité de connaître «l'imprévisibilité» du modèle Inconvénients : Temps d'exécution! Programmation parfois plus ardue Comment faire la synthèse de certains modèles? #

13 Le Jackknife sous-modèle population étudiée échantillon : toute la population sauf 1 individu modèle final (moyenne des sous-modèles) Autant de boucles qu'il y a d'individus dans la population étudiée

14 Le Bootstrap sous-modèle population étudiée échantillon : représentatif ou non de la population modèle final (moyenne des sous-modèles) Nombre de boucles décidé à l'avance

15 Le Bootstrap : échantillonnage Sondage à probabilités égales Respecter la population Chaque individu de la population a la même probabilité d'appartenir à l'échantillon Sondage à probabilités inégales On impose a priori des probabilités d'inclusion! sur-représentation de certains individus Importance de cette étape : gain de temps

16 Un premier exemple : Les vins de France de 1969 à 1985

17 Un 1er modèle pour le Bourgogne rouge : 6 5 Valeurs prédites par le modèle Notes réelles pour le Bourgogne rouge

18 Un modèle stratifié pour le Bourgogne rouge 1. Classification des années (PROC FASTCLUS) sur la base des données météos 2. Stratification selon cette variable de classe (2 classes créées)

19 Modèle stratifié pour le Bourgogne rouge : 6 5 Valeurs prédites par le modèle Notes réelles pour le Bourgogne rouge

20 Comparaison des deux modèles Modèle simple : SCE = 14,81 Modèle stratifié : SCE = 8,79 On a donc presque diminué de 40 % (!) la distance moyenne entre les valeurs réelles et les valeurs prévues. Note : SCE = Somme des Carrés des Ecarts

21 Jackknife et bootstrap à probabilités égales sur le modèle non stratifié On procède, selon les cas, à 17 boucles (jackknife) ou à seulement 10 boucles (bootstrap à probabilités égales).

22 Performance des modèles itérés : SCE du jackknife : 14,05 SCE du bootstrap (en moyenne) : 7,70 (La SCE du bootstrap est comprise entre 8,89 et 6,14 sur 30 essais.) Pour mémoire : SCE du modèle normal : 14,81 SCE du modèle stratifié : 8,79

23 Que constate-t-on? Modèle robuste "meilleur" modèle Jackknife! une seule observation peut tout changer Bootstrap! meilleur moyen de niveler les effets des observations atypiques si on prend les "bons" échantillons!

24 Autre avantage des modèles itérés : les intervalles de confiance Bootstrap sur le modèle simple : le coefficient de la température minimale est compris entre -0,38 et 0,44 (avec 95% de chances de tomber juste dans cet intervalle). La valeur moyenne s'établit à -0,41. Le modèle sans itération propose une valeur de -0,37.

25 Mise en œuvre sous SAS Avec des macro-programmes Les modèles stratifiés, le jackknife et le bootstrap à probabilités égales sont assez faciles à développer. Avec SAS Enterprise Miner Possibilité de modèles stratifiés et de bootstrap, sauf la partie "intervalle de confiance" du modèle Nœuds GROUP PROCESSING et ENSEMBLE

26 Un exemple "DataMining" : "Qualité" des clients d'une assurance automobile

27 Les données clients d'une assurance automobile décrits par 21 variables âge de l'assuré marque de la voiture bonus / malus âge du véhicule année du permis situation familiale connus comme "bons" ou "mauvais" clients.

28 La problématique Construire un score à partir des renseignements existants pour repérer les bons et les mauvais clients parmi de nouveaux candidats à l'assurance. Le modus operandi On testera la qualité et la robustesse de nos modèles en les construisant sur clients, et en "scorant" les restants, inconnus jusqu'alors.

29 Premier modèle Une régression logistique (puisque la variable à modéliser est binaire) avec 11 variables explicatives : usage du véhicule, est-il dans un garage fermé? âge, puissance et valeur du véhicule année du permis, situation familiale, âge, ancienneté du contrat et CRM de l'assuré nombre de sinistres de l'année écoulée Prédit bon Prédit mauvais Taux de confusion : 19,36 % Réellement bon Réellement mauvais 21,40 % 15,72 % 3,64 % 59,24 %

30 Le bootstrap avec SAS Enterprise Miner Les ingrédients Un trait de, 2 traits de et, et un zest de. La recette

31 Mise en oeuvre

32 Comparaison des performances (matrices de confusion) 19,36 % Prédit bon Prédit mauvais Modèle simple 18,84 % Prédit bon Prédit mauvais Réellement bon 21,40 % 3,64 % Réellement bon 21,00 % 4,04 % Réellement mauvais 19,01 % 15,72 % Prédit bon 59,24 % Prédit mauvais Bootstrap Probas égales Réellement mauvais 18,28 % 14,80 % 60,16 % Modèle stratifié Prédit bon Prédit mauvais Réellement bon 21,32 % 3,72 % Réellement bon 20,60 % 4,44 % Réellement mauvais 15,29 % 59,67 % Bootstrap Probas inégales Réellement mauvais 13,84 % 61,12 %

33 Conclusion (1/2) La robustesse est un des atouts indispensables d'un score : c'est sa capacité de généralisation. On la teste validation croisée. avec la partition des données et la

34 Conclusion (2/2) On peut accroître la robustesse avec des modèles complexes. La mise au point de ces modèles demande plus de temps, mais leur durée de vie s'accroît également. Un modèle robuste n'est pas forcément meilleur de prime abord!

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Théorie des sondages : cours 5

Théorie des sondages : cours 5 Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur

Plus en détail

ETUDE DE L INFLUENCE DU SUIVI D UN STAGE CENTAURE SUR LA SINISTRALITE AUTOMOBILE. EXERCICE 2009 (vu au 31/01/2010)

ETUDE DE L INFLUENCE DU SUIVI D UN STAGE CENTAURE SUR LA SINISTRALITE AUTOMOBILE. EXERCICE 2009 (vu au 31/01/2010) DIRECTION ASSURANCE DOMMAGES INDIVIDUELS DES PARTICULIERS ACTUARIAT METIER Barbara ZUCCONI ETUDE DE L INFLUENCE DU SUIVI D UN STAGE CENTAURE SUR LA SINISTRALITE AUTOMOBILE EXERCICE 2009 (vu au 31/01/2010)

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Estimation. Anita Burgun

Estimation. Anita Burgun Estimation Anita Burgun Estimation Anita Burgun Contenu du cours Sondages Mesures statistiques sur un échantillon Estimateurs Problème posé Le problème posé en statistique: On s intéresse à une population

Plus en détail

CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité

CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité 1 CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité Une situation fréquente en pratique est de disposer non pas d un résultat mais de plusieurs. Le cas se présente en assurance, par exemple :

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 8. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 8. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 8 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES ST50 - Projet de fin d études Matthieu Leromain - Génie Informatique Systèmes temps Réel, Embarqués et informatique Mobile - REM 1 Suiveur en entreprise

Plus en détail

Collecte de données. Laurent Dorey

Collecte de données. Laurent Dorey Laurent Dorey Mercredi 16 Décembre 2014 Programme : Recensement & Echantillonnage Étapes pour sélectionner un échantillon La population observée La base de sondage Les unités d enquête La taille de l échantillon

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

GROUP PROCESSING AVEC ENTERPRISE MINER

GROUP PROCESSING AVEC ENTERPRISE MINER GROUP PROCESSING AVEC ENTERPRISE MINER SENG TANG CONSULTANT ANALYTIQUE SAS CANADA APRIL 2014 CE QUE VOUS ALLEZ APPRENDRE - Fonctionnalité d Enterprise Miner qui permet d itérer sur un processus donné.

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Gestion de la relation client : l expérience du Crédit du Nord

Gestion de la relation client : l expérience du Crédit du Nord Gestion de la relation client : l expérience du Crédit du Nord Etat des lieux des processus de DataMining mis en place au Crédit du Nord, des premiers essais de score automatisé à la construction d un

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes STA108 Enquêtes et sondages Sondages àplusieurs degrés et par grappes Philippe Périé, novembre 2011 Sondages àplusieurs degrés et par grappes Introduction Sondages à plusieurs degrés Tirage des unités

Plus en détail

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Scoring - Modélisation Data Management, Data Mining, Text Mining 1 Guide du Data Miner Scoring - Modélisation Le logiciel décrit dans le manuel est diffusé dans le cadre d un accord

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Comment calculer les contributions de chaque mois à la mortalité annuelle par accident?

Comment calculer les contributions de chaque mois à la mortalité annuelle par accident? Comment calculer les contributions de chaque mois à la mortalité annuelle par accident? Le débat sur les conséquences de l affaiblissement du permis à points par un amendement à la LOPPSI2, qui double

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

Échantillonnage. Pierre Neuvial, http://stat.genopole.cnrs.fr/~pneuvial Evry, M1 SGO, automne 2014

Échantillonnage. Pierre Neuvial, http://stat.genopole.cnrs.fr/~pneuvial Evry, M1 SGO, automne 2014 Démarche Statistique 1 Échantillonnage Pierre Neuvial, http://stat.genopole.cnrs.fr/~pneuvial Evry, M1 SGO, automne 2014 Introduction Objectif statistique descriptive: sur l'échantillon statistique inférentielle:

Plus en détail

Projet OAD Crédit-Scoring Deutsche Bank

Projet OAD Crédit-Scoring Deutsche Bank Année scolaire 2009/2010 Projet Modélisation de 3 ème année Projet OAD Crédit-Scoring Deutsche Bank Réalisé par : Guillaume BARANES-BERREBI Manon ROUSSEAU Sous la direction de Farid BENINEL Guillaume BARANES-BERREBI

Plus en détail

Les Français et leur «chère voiture»

Les Français et leur «chère voiture» Les Français et leur «chère voiture» Novembre 2012 Sondage réalisé par pour Méthodologie Recueil Enquête réalisée auprès d un échantillon de Français recrutés par téléphone et interrogés par Internet*

Plus en détail

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Incertitude et variabilité : la nécessité de les intégrer dans les modèles Incertitude et variabilité : la nécessité de les intégrer dans les modèles M. L. Delignette-Muller Laboratoire de Biométrie et Biologie Evolutive VetAgro Sup - Université de Lyon - CNRS UMR 5558 24 novembre

Plus en détail

Observation statistique

Observation statistique 2. APERÇU DES RÉSULTATS DU RENDEMENT Observation statistique s. Les résultats présentés dans ce rapport sont fondés sur des échantillons. Des échantillons distincts ont été sélectionnés pour chaque instance

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7 Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques Elec 2311 : S7 1 Plan du cours Qu est-ce l optimisation? Comment l optimisation s intègre dans la conception?

Plus en détail

Initiation à la théorie des sondages: cours IREM-Dijon

Initiation à la théorie des sondages: cours IREM-Dijon Initiation à la théorie des sondages: cours IREM-Dijon Camelia Goga IMB, Université de Bourgogne Dijon, 12 novembre 2009 Très court historique Laplace a présenté à l Académie des Sciences en 1783 une nouvelle

Plus en détail

Christophe Fournier. Clinique de Thuys. Aunége - Christophe Fournier

Christophe Fournier. Clinique de Thuys. Aunége - Christophe Fournier Christophe Fournier Clinique de Thuys Aunége - Christophe Fournier 2 Table des matières Information sur l'échantillon 3 Structure de l'échantillon...4 Point méthodologique 6 Point méthodologique...7 Représentativité

Plus en détail

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013 ENSEIGNEMENT ET MONDE PROFESSIONNEL Illustration d un lien fort au travers d un cours de scoring Jean-Philippe KIENNER 7 novembre 2013 CONTEXTE Une bonne insertion professionnelle des étudiants passe par

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Apprentissage Statistique. Bureau d étude :

Apprentissage Statistique. Bureau d étude : Apprentissage Statistique Bureau d étude : Score d appétence en GRC Hélène Milhem IUP SID M2 2011/2012 Institut de Mathématiques de Toulouse UMR CNRS C5219 Equipe de Statistique et Probabilités Université

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Baromètre Image des Assureurs

Baromètre Image des Assureurs Contacts : Alain RENAUDIN / Frédéric ALBERT Shanghai Paris Toronto Buenos Aires 2005-5 édition www.ifop.com Baromètre Image des Assureurs Introduction 1 Les objectifs et la méthodologie Cette 5ème édition

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE

TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET TP n 2 de DATA MINING : Modélisation 1 Jeu de données

Plus en détail

Trajectoires d emploi et chômage

Trajectoires d emploi et chômage Trajectoires d emploi et chômage Séminaire SACEI 15 septembre 2011 Alice Hui PENG Bruno MASSONNET AS-Consultant b.massonnet@as-consultant.com Plan 1. L enquête emploi de l INSEE 3 2 Taux de chômage BIT

Plus en détail

Implémentation et Benchmark. d une régression linéaire en RMR2

Implémentation et Benchmark. d une régression linéaire en RMR2 Add intelligence to data Anne Gayet Directrice Datamining Implémentation et Benchmark d une régression linéaire en RMR2 16 janvier 2014 Rendez-vous SFdS: : Méthodes et logiciels Données massives (big data)

Plus en détail

Introduction sur l analyse en composantes principales (ACP)

Introduction sur l analyse en composantes principales (ACP) Introduction sur l analyse en composantes principales (CP) ) Introduction sur un exemple à 2 dimensions On veut représenter graphiquement les profils d élèves qui ont été notés sur 2 matières (Français

Plus en détail

différence groupe-conseil en statistique

différence groupe-conseil en statistique Vais-je atteindre mon objectif cette année? Par Martin Carignan, associé chez Différence www.difference-gcs.com Contexte Les gestionnaires sont souvent évalués sur des résultats mesurés par des indicateurs

Plus en détail

Comment les TPE-PME utilisent la puissance du Cloud? Comment les TPE-PME utilisent la puissance du Cloud?

Comment les TPE-PME utilisent la puissance du Cloud? Comment les TPE-PME utilisent la puissance du Cloud? Comment les TPE- utilisent la puissance du Cloud? Fiche technique et note de lecture Échantillon Echantillon national de 800 dirigeants de TPE (entreprises de 0 à 19 salariés) et de (entreprises de 20

Plus en détail

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine Mortalité observée et mortalité attendue au cours de la vague de chaleur de uillet en France métropolitaine FOUILLET A 1, REY G 1, JOUGLA E, HÉMON D 1 1 Inserm, U75, Villeuif, France. Inserm CépiDc, IFR9,

Plus en détail

Sondage stratifié. Myriam Maumy-Bertrand. Master 2ème Année 12-10-2011. Strasbourg, France

Sondage stratifié. Myriam Maumy-Bertrand. Master 2ème Année 12-10-2011. Strasbourg, France 1 1 IRMA, Université de Strasbourg Strasbourg, France Master 2ème Année 12-10-2011 Ce chapitre s appuie essentiellement sur deux ouvrages : «Les sondages : Principes et méthodes» de Anne-Marie Dussaix

Plus en détail

DOCUMENT 2.1 : INFORMATIONS COMPLEMENTAIRES SUR LA METHODE D ENQUETE

DOCUMENT 2.1 : INFORMATIONS COMPLEMENTAIRES SUR LA METHODE D ENQUETE DOCUMENT 2.1 : INFORMATIONS COMPLEMENTAIRES SUR LA METHODE D ENQUETE 1 Définir le type de variable Dans notre cas, la variable est quantitative nominale. Note : Une variable est qualitative nominale quand

Plus en détail

Econométrie des données d'enquête

Econométrie des données d'enquête Econométrie des données d'enquête Groupe de lecture - Réunion 1 Marine GUILLERM et Ronan LE SAOUT INSEE, division MAEE 24 Novembre 2014 Marine GUILLERM et Ronan LE SAOUT Econométrie des données d'enquête

Plus en détail

CORRIGÉ TYPE DU TEST

CORRIGÉ TYPE DU TEST ECOLE DES HAUTES ETUDES COMMERCIALES D ALGER Niveau : 1 ème année Master TC Groupes : 4 et 6 Date : 19/05/2014 Durée du test : 1h30 CORRIGÉ TYPE DU TEST [ Page 1 sur 6 ] Module : Recherche Marketing Enseignant

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Eléments de correction du Bac Blanc n 2 de Mathématiquesdu Lundi 8 Avril2013. Calculatrice autorisée - Aucun document n'est autorisé.

Eléments de correction du Bac Blanc n 2 de Mathématiquesdu Lundi 8 Avril2013. Calculatrice autorisée - Aucun document n'est autorisé. TES Spé Maths Eléments de correction du Bac Blanc n 2 de Mathématiquesdu Lundi 8 Avril2013 Calculatrice autorisée - Aucun document n'est autorisé. Vous apporterez un grand soin à la présentation et à la

Plus en détail

Baccalauréat professionnel CCF de mathématiques. Informations destinées au candidat

Baccalauréat professionnel CCF de mathématiques. Informations destinées au candidat Baccalauréat professionnel CCF de mathématiques Date de l évaluation : /. / 2013 Nom, Prénom...Classe : 1MVA Module : fonctions Thématique: vie sociale et loisir Informations destinées au candidat - Dans

Plus en détail

Analyse multivariée approfondie

Analyse multivariée approfondie Analyse multivariée approfondie Enseignants: NIANG N. et RUSSOLILLIO G. Maître de conférences Statistique Appliquée Laboratoire CEDRIC CNAM http://www.cnam.fr et d autres intervenants extérieurs au Cnam

Plus en détail

Introduction aux épreuves de logique des concours ACCÈS et SESAME

Introduction aux épreuves de logique des concours ACCÈS et SESAME Introduction aux épreuves de logique des concours ACCÈS et SESAME «La chance aide parfois, le travail toujours» Vous vous apprêtez à vous lancer dans cette course contre la montre qu est l admission en

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Thomas André Manuel Brisville. Data Mining. Compte-rendu de l activité d évaluation 11/02/2015 UTFPR

Thomas André Manuel Brisville. Data Mining. Compte-rendu de l activité d évaluation 11/02/2015 UTFPR Thomas André Manuel Brisville Data Mining Compte-rendu de l activité d évaluation 11/02/2015 UTFPR 1 Table des matières 2 Introduction... 2 3 La base de données utilisée... 3 3.1 Origine de la base...

Plus en détail

Inégalités scolaires et politiques publiques : une analyse comparative en Suisse Georges Felouzis

Inégalités scolaires et politiques publiques : une analyse comparative en Suisse Georges Felouzis Inégalités scolaires et politiques publiques : une analyse comparative en Suisse Georges Felouzis Introduction Je me propose de traiter des inégalités scolaires en Suisse dans une perspective comparative

Plus en détail

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête Fiche qualité relative à Santé et Itinéraire Professionnel 2010 (SIP) Nom Années de Périodicité Panel (suivi d échantillon) Services concepteurs Service réalisant Sujets principaux traités dans Carte d

Plus en détail

Mémoire d Actuariat Tarification de la branche d assurance des accidents du travail Aymeric Souleau aymeric.souleau@axa.com 3 Septembre 2010 Plan 1 Introduction Les accidents du travail L assurance des

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Crédit à la consommation, un bon outil pour la rentrée?

Crédit à la consommation, un bon outil pour la rentrée? Crédit à la consommation, un bon outil pour la rentrée? Contexte Empruntis intervient sur le crédit depuis 15 ans 370 000 ménages nous sollicitent chaque année pour leur besoin en crédit à la consommation

Plus en détail

Caisse d Epargne Rhône Alpes Licence Econométrie Lyon 2

Caisse d Epargne Rhône Alpes Licence Econométrie Lyon 2 Caisse d Epargne Rhône Alpes Licence Econométrie Lyon 2 22 Novembre 2013 - Valérie Rousvoal Direction Etudes Commerciales Sommaire de la rencontre Présentation de la Caisse d épargne Rhône Alpes Présentation

Plus en détail

Baromètre de confiance à l égard des professionnels de santé

Baromètre de confiance à l égard des professionnels de santé Baromètre de confiance à l égard des professionnels de santé Sondage Viavoice pour le Groupe Pasteur Mutualité VIAVOICE «Mieux comprendre l opinion pour agir» Études et conseil en opinions 9 rue Huysmans

Plus en détail

Intérêt et limites des estimations sur petits domaines HID «Petits domaines», une opération inhabituelle :

Intérêt et limites des estimations sur petits domaines HID «Petits domaines», une opération inhabituelle : Intérêt et limites des estimations sur petits domaines HID «Petits domaines», une opération inhabituelle : a. Une opération de «production» b. Visant l ensemble des variables d une enquête c. Recherchant

Plus en détail

REGRESSION LOGISTIQUE ASSURES BELGES

REGRESSION LOGISTIQUE ASSURES BELGES REGRESSION LOGISTIQUE ASSURES BELGES Cte étude concerne l assurance automobile. L échantillon est constitué de 1106 assurés belges observés en 1992 répartis en deux groupes. Les assurés qui n ont eu aucun

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Evolution de la fréquence des sinistres 2002-2011 en assurance RC automobile

Evolution de la fréquence des sinistres 2002-2011 en assurance RC automobile Evolution de la fréquence des sinistres 2002-2011 en assurance RC automobile Contenu 1. Nombre de sinistres en RC tourisme et affaires... 2 Fréquence des sinistres en RC tourisme et affaires... 2 Fréquence

Plus en détail

DE LA CONCEPTION ASSISTEE PAR ORDINATEUR DE STRUCTURES

DE LA CONCEPTION ASSISTEE PAR ORDINATEUR DE STRUCTURES DE LA CONCEPTION ASSISTEE PAR ORDINATEUR AU CALCUL DE STRUCTURES 001 001 PLAN DE CETTE PRESENTATION 01. PRESENTATION DE D.D.L. CONSULTANTS. 02. METHODOLOGIE DE CONCEPTION - APPROCHE GLOBALE 03. COMPLEXITE

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Exercice 1 Métropole juin 2014 5 points

Exercice 1 Métropole juin 2014 5 points Le sujet comporte 6 pages. Seule l annexe est à rendre avec la copie. BAC BLANC MATHÉMATIQUES TERMINALE STMG Durée de l épreuve : 3 heures Les calculs doivent être détaillés. Les calculatrices sont autorisées,

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

Traitement des données influentes dans le cas d un sondage à deux phases avec une application au traitement de la non-réponse

Traitement des données influentes dans le cas d un sondage à deux phases avec une application au traitement de la non-réponse Traitement des données influentes dans le cas d un sondage à deux phases avec une application au traitement de la non-réponse Jean-François Beaumont, Statistics Canada Cyril Favre Martinoz, Crest-Ensai

Plus en détail

NORME INTERNATIONALE D AUDIT 530 SONDAGES EN AUDIT

NORME INTERNATIONALE D AUDIT 530 SONDAGES EN AUDIT Introduction NORME INTERNATIONALE D AUDIT 530 SONDAGES EN AUDIT (Applicable aux audits d états financiers pour les périodes ouvertes à compter du 15 décembre 2009) SOMMAIRE Paragraphe Champ d application

Plus en détail

Modèles et simulations informatiques des problèmes de coopération entre agents

Modèles et simulations informatiques des problèmes de coopération entre agents Modèles et simulations informatiques des problèmes de coopération entre agents Bruno Beaufils LIFL Axe CIM Équipe SMAC Laboratoire d'informatique Plan 1. Motivations 2. Dilemme itéré du prisonnier 3. Simulations

Plus en détail

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2 Test du Khi 2 Le test du Khi 2 (khi deux ou khi carré) fournit une méthode pour déterminer la nature d'une répartition, qui peut être continue ou discrète. Domaine d application du test : Données qualitatives

Plus en détail

La démarche d investigation en mathématiques. 26 novembre 2008 La démarche d investigation en mathématiques P. KOBER- IUFM Nice

La démarche d investigation en mathématiques. 26 novembre 2008 La démarche d investigation en mathématiques P. KOBER- IUFM Nice La démarche d investigation en mathématiques 1) Qu est ce que la démarche d investigation en sciences? 2) Qu est-ce que faire des mathématiques? - Pour un chercheur Plan de cette intervention - Dans l

Plus en détail

La régression logistique PLS

La régression logistique PLS La régression logistique PLS Michel Tenenhaus Groupe HEC, 78351 Jouy-en-Josas 1 Introduction La régression PLS permet de relier une ou plusieurs variables de réponse y àun ensemble de variables prédictives

Plus en détail

La nouvelle planification de l échantillonnage

La nouvelle planification de l échantillonnage La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage

Plus en détail

Evolution de la fréquence des sinistres 2003-2012 en assurance RC automobile

Evolution de la fréquence des sinistres 2003-2012 en assurance RC automobile Evolution de la fréquence des sinistres 2003-2012 en assurance RC automobile Contenu 1. Nombre de sinistres en RC tourisme et affaires... 2 Fréquence des sinistres en RC tourisme et affaires... 2 Fréquence

Plus en détail

Théorie des graphes. Introduction. Programme de Terminale ES Spécialité. Résolution de problèmes à l aide de graphes. Préparation CAPES UCBL

Théorie des graphes. Introduction. Programme de Terminale ES Spécialité. Résolution de problèmes à l aide de graphes. Préparation CAPES UCBL Introduction Ces quelques pages ont pour objectif de vous initier aux notions de théorie des graphes enseignées en Terminale ES. Le programme de Terminale (voir ci-après) est construit sur la résolution

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Le système d info. Données de toutes sortes. Collaborateurs concernés. Action vers l extérieur

Le système d info. Données de toutes sortes. Collaborateurs concernés. Action vers l extérieur Acteurs : clients, fournisseurs, prospects etc. Actualités : lois, économie, concurrence Données de toutes sortes Trier Le système d info Stocker Traiter Action vers l extérieur Collaborateurs concernés

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Voiture T2M autonome. ARCHER Thomas JAUREGUI Ulyxe LEPROUST Amanda

Voiture T2M autonome. ARCHER Thomas JAUREGUI Ulyxe LEPROUST Amanda Voiture T2M autonome ARCHER Thomas JAUREGUI Ulyxe LEPROUST Amanda encadrés par Oriane AUBERT et Pascal ROGER Lycée Gaston Monnerville KOUROU Olympiades de Sciences de l Ingénieur 2015 Académie de Guyane

Plus en détail

CONCOURS GÉNÉRAL DES LYCÉES SESSION DE 2009 COMPOSITION DE MATHÉMATIQUES. (Classe terminale S)

CONCOURS GÉNÉRAL DES LYCÉES SESSION DE 2009 COMPOSITION DE MATHÉMATIQUES. (Classe terminale S) MA 09 CONCOURS GÉNÉRAL DES LYCÉES SESSION DE 009 COMPOSITION DE MATHÉMATIQUES (Classe terminale S) DURÉE : 5 heures La calculatrice de poche est autorisée, conformément à la réglementation. La clarté et

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

Claire Chazal SPÉCIAL ORIENTATION. Je cherche encore la reconnaissance de mes parents EXCLUSIF !"$(' 2.17.0 B B 9 ; 8 5 STRATÉGIES ANTI-DÉCROCHAGE

Claire Chazal SPÉCIAL ORIENTATION. Je cherche encore la reconnaissance de mes parents EXCLUSIF !$(' 2.17.0 B B 9 ; 8 5 STRATÉGIES ANTI-DÉCROCHAGE MAGAZINE RÉUSSIR SA VIE DE PARENT MAGAZINE N 13 FÉVRIER-MARS 2009-3,90 ` SPÉCIAL ORIENTATION Filières sélectives Comment contourner l obstacle des notes Bilan d orientation Découvrez ses atouts et les

Plus en détail

OBSERVATOIRE ECONOMIQUE DU TRM

OBSERVATOIRE ECONOMIQUE DU TRM DEMENAGEMENTS DE PARTICULIERS Etude de prix de revient actualisée aux conditions de juin 2015 OBSERVATOIRE ECONOMIQUE DU TRM Dans le cadre de sa mission d intérêt général, le CNR étudie également les transports

Plus en détail

Conditions d application des méthodes statistiques paramétriques :

Conditions d application des méthodes statistiques paramétriques : Conditions d application des méthodes statistiques paramétriques : applications sur ordinateur GLELE KAKAÏ R., SODJINOU E., FONTON N. Cotonou, Décembre 006 Conditions d application des méthodes statistiques

Plus en détail