Table des matières. Préface, de Gilbert Saporta...V. Avant-propos...VII. 1. Panorama du data mining... 1

Dimension: px
Commencer à balayer dès la page:

Download "Table des matières. Préface, de Gilbert Saporta...V. Avant-propos...VII. 1. Panorama du data mining... 1"

Transcription

1 Table des matières Préface, de Gilbert Saporta...V Avant-propos...VII 1. Panorama du data mining Qu est-ce que le data mining? À quoi sert le data mining? Le data mining par secteur d activité Le data mining par type d application Data mining et statistique Data mining et informatique Mise en œuvre du data mining Le déroulement d une étude de data mining Définition des objectifs Inventaire des données existantes Collecte des données Exploration et préparation des données Segmentation de la population Élaboration des modèles prédictifs Synthèse des modèles prédictifs des différents segments Itération des étapes précédentes Validation et choix d un modèle Déclaration des traitements à la CNIL Déploiement des modèles Formation des utilisateurs des modèles Suivi des modèles Enrichissement des modèles Remarques Cycle de vie d un modèle Charges pour un projet pilote L exploration et la préparation des données Les différents types de données L examen de la distribution des variables La détection des valeurs rares ou manquantes La détection des valeurs aberrantes La détection des valeurs extrêmes... 42

2 3.6. Les tests de normalité Homoscédasticité et hétéroscédasticité La détection des variables les plus discriminantes Variables explicatives qualitatives, discrètes ou ordinales Variables explicatives continues Précisions sur les tests non-paramétriques à 1 facteur La transformation des variables Le choix des tranches de valeurs des variables continues La création de nouvelles variables La détection des interactions La sélection automatique des variables La détection de la colinéarité L échantillonnage L utilisation des données commerciales Les données utilisées dans les applications commerciales Données sur les transactions et données RFM Données sur les produits et contrats Anciennetés Données sur les canaux Données relationnelles, attitudinales et psychographiques Données sociodémographiques Quand on manque de données Données techniques Des données particulières Le géomarketing La rentabilité Les données utilisées par secteur d activité Les données utilisées dans la banque Les données utilisées dans l assurance Les données utilisées dans la téléphonie Les données utilisées dans la VPC Aperçu sur les techniques de data mining Un point de terminologie Classification des techniques Comparatif des techniques Utilisations de ces techniques L analyse factorielle L analyse en composantes principales Principe de l ACP Lecture des résultats d une ACP Les variantes de l analyse en composantes principales L analyse factorielle des correspondances L analyse des correspondances multiples

3 Principe de l ACM Mise en œuvre de l ACM avec SAS/STAT Les réseaux de neurones Généralités sur les réseaux de neurones Structure d un réseau de neurones Choix de l échantillon d apprentissage Quelques règles empiriques pour le dimensionnement d un réseau Normalisation des données Variables continues Variables discrètes Variables catégorielles Réseaux de neurones et séries temporelles Les algorithmes d apprentissage Les principaux réseaux de neurones Le perceptron multicouches Le réseau à fonction radiale de base Le réseau de Kohonen Les techniques de classification automatique Définition de la classification Applications de la classification Complexité de la classification Structures de classification Structure des données à classer Structure des classes obtenues Quelques points méthodologiques Le nombre optimum de classes L utilisation de variables continues L utilisation de variables passives L évaluation de la qualité de la classification L interprétation des classes obtenues Les critères de bonne classification Comparaison de l analyse factorielle et de la classification Inerties intraclasse et interclasse Mesures de qualité d une classification Tous types de classification Classifications hiérarchiques ascendantes Les méthodes de partitionnement La méthode des centres mobiles Les k-means et les nuées dynamiques Traitement des données qualitatives Avantage des méthodes de partitionnement Inconvénients des méthodes de partitionnement La classification ascendante hiérarchique Principe de la classification ascendante hiérarchique...146

4 Les principales distances utilisées Les méthodes par estimation de densité de probabilité Avantages de la classification ascendante hiérarchique Inconvénients de la classification ascendante hiérarchique Les méthodes mixtes de classification Principe Illustration avec SAS/STAT La classification neuronale Avantages de la classification neuronale Inconvénients de la classification neuronale La classification relationnelle Principe de l analyse relationnelle Mise en œuvre de la classification relationnelle Avantages de la classification relationnelle Inconvénients de la classification relationnelle La classification de variables numériques La recherche d associations Principes Utilisation de la taxinomie Utilisation de variables supplémentaires Applications Les techniques de classement et de prédiction Introduction Techniques inductives et transductives Vue d ensemble des techniques de classement et de prédiction Les qualités attendues d une technique de classement et prédiction Représentation graphique des différentes techniques de classement Taux d erreur en classement Sur-apprentissage Le classement par arbre de décision Principe de l arbre de décision Définitions première étape de la construction de l arbre Critère de séparation Répartition des individus dans les nœuds deuxième étape de la construction de l arbre Élagage troisième étape de la construction de l arbre Piège à éviter Les arbres CART, C5.0 et CHAID Avantages des arbres de décision Inconvénients des arbres de décision La prédiction par arbre de décision Le classement par analyse discriminante Problématique L analyse discriminante géométrique descriptive (analyse factorielle discriminante)...198

5 L analyse discriminante géométrique prédictive L analyse discriminante probabiliste Mesures de la qualité du modèle Syntaxe de l analyse discriminante dans le logiciel SAS/STAT Application au credit scoring L analyse discriminante sur variables qualitatives (méthode DISQUAL) Avantages de l analyse discriminante Inconvénients de l analyse discriminante La prédiction par régression linéaire La régression linéaire simple et multiple Problèmes de multicolinéarité en régression linéaire multiple La régression PLS La régression robuste Le modèle linéaire général Le classement par régression logistique Principes de la régression logistique binaire Les régressions logistiques logit, probit et log-log Les odds-ratios Illustration du découpage en classes Estimation des paramètres Déviance et mesure de qualité d un modèle Tests statistiques de la régression logistique Effet de la multicolinéarité Influence de l échantillonnage sur la régression logit Syntaxe de la régression logistique dans le logiciel SAS/STAT Avantages de la régression logistique Avantages du modèle logit sur le modèle probit Inconvénients de la régression logistique Développements de la régression logistique La régression logistique sur individus de poids différents La régression logistique à mesures répétées La régression logistique ordinale La régression logistique multinomiale La régression logistique PLS Le modèle linéaire généralisé Le modèle additif généralisé Le classement et la prédiction par réseaux de neurones Avantages des réseaux de neurones Inconvénients des réseaux de neurones Le classement par «support vector machines» (SVM) La prédiction par algorithmes génétiques Génération aléatoire des règles initiales Sélection des meilleures règles Génération de nouvelles règles Fin de l algorithme Applications des algorithmes génétiques...257

6 Contraintes des algorithmes génétiques Le classement par systèmes experts Pour améliorer les résultats (1) : le rééchantillonnage Le bagging Le boosting Le arcing Conclusion Pour améliorer les résultats (2) : les combinaisons de modèles Mise en œuvre des techniques de classement et prédiction L agrégation des données au niveau de l individu Le choix des techniques de modélisation La phase d apprentissage d un modèle L inférence des refusés La phase de test d un modèle Courbe ROC, courbe de lift et indice de Gini La phase de validation d un modèle La phase d application d un modèle Une application du data mining : le scoring Les différents types de scores L utilisation des scores d appétence et de risque La méthodologie Détermination des objectifs Inventaire et préparation des données Constitution de la base d analyse Élaboration d un modèle prédictif Utilisation du score Déploiement du score Suivi des outils mis à disposition Mise en œuvre d un score stratégique Mise en œuvre d un score opérationnel Les différentes solutions de scoring pour une entreprise Score en interne ou en credit bureau Score générique ou personnalisé Résumé des différentes solutions possibles Les facteurs de succès d un projet de data mining Le sujet Les hommes Les données L informatique La culture d entreprise Huit idées fausses sur le data mining Aucun a priori n est nécessaire On n a plus besoin de spécialistes du métier On n a plus besoin de statisticiens («Il suffit d appuyer sur un bouton»)...296

7 Le data mining permet de faire des découvertes incroyables Le data mining est révolutionnaire Il faut utiliser toutes les données disponibles Il faut toujours échantillonner Il ne faut jamais échantillonner Le retour sur investissement Les logiciels de statistique et data mining Typologie des logiciels de data mining et statistique Les caractéristiques importantes des logiciels Points de comparaison Méthodes implémentées Fonctions de préparation des données Autres fonctions Caractéristiques techniques Les principaux logiciels Nous avons comparé pour vous : SAS et SPSS Optimisation des traitements sur micro-ordinateur Le text mining Définition du text mining Les sources de textes utilisées Utilisation du text mining Recherche d information Analyse linguistique Application de la statistique et du data mining Techniques applicables Extraction d information Principe de l extraction d information Exemple d application : transcription d entretiens commerciaux Data mining multitype Le web mining Les objectifs du web mining Analyses globales À quoi servent-elles? La structure du fichier «log» L utilisation du fichier «log» Analyses individuelles Analyses nominatives Annexe A : Rappels de statistique Aperçu historique Quelques dates De la statistique au data mining...338

8 16.2. Rappels de statistique Caractéristiques statistiques Boîte à moustaches Les tests d hypothèses Tests asymptotiques, exacts, paramétriques et non-paramétriques Intervalle de confiance d une moyenne : le test de Student Intervalle de confiance d une fréquence (ou proportion) Liaison entre deux variables continues : coefficient de corrélation linéaire Liaison entre deux variables numériques ou ordinales : coefficient de corrélation des rangs de Spearman et tau de Kendall Liaison entre n ensembles de plusieurs variables continues ou binaires : l analyse de corrélation canonique Liaison entre deux variables nominales : le test du χ² Exemple d utilisation du test du χ² Liaison entre deux variables nominales : le coefficient de Cramer Liaison entre une variable nominale et une variable numérique : le test de la variance (ANOVA à 1 facteur) Tables statistiques Table de la loi normale centrée réduite Table de la loi de Student Table du χ² Annexe B : Data mining, informatique et libertés Les textes Les traitements soumis à autorisation préalable Les traitements soumis à déclaration Les pouvoirs de la CNIL Les droits des personnes physiques Les spécificités des traitements de data mining Spécificités du scoring de risque Spécificités de la segmentation de clientèle Ce qu il faut déclarer à la CNIL Conclusion Bibliographie Sur la statistique et l analyse des données Sur le data mining Quelques articles Sur le text mining Sur le web mining Sites Internet Index

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved. Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic SAS dans

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Présentation de l auteur En charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 à l Université

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Que fait SAS Enterprise Miner?

Que fait SAS Enterprise Miner? Développez une connaissance plus précise avec un processus data mining plus productif La transformation de données brutes en informations utiles reste une problématique pour les entreprises. Pour apporter

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives ************* ************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS 1er semestre UE1-01 E Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS Introduction au système SAS 25,5

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Complet Intuitif Efficace. Références

Complet Intuitif Efficace. Références Logiciel de référence en Analyse de Données, Data Mining et Text Mining pour transformer vos données en connaissance Complet Intuitif Efficace Dans un environnement convivial et intuitif, disposez de toute

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

(Customer Relationship Management, «Gestion de la Relation Client»)

(Customer Relationship Management, «Gestion de la Relation Client») (Customer Relationship Management, «Gestion de la Relation Client») Les Banques et sociétés d assurance sont aujourd'hui confrontées à une concurrence de plus en plus vive et leur stratégie " clientèle

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

E-mail marketing, scoring comportemental & analyse prédictive

E-mail marketing, scoring comportemental & analyse prédictive E-mail marketing, scoring comportemental & analyse prédictive Formation Dolist - Score MD Les 25 & 26 juin 2013 Dolist.net - Tous droits réservés 26/04/2013 Formation E-mail Marketing, scoring & analyse

Plus en détail

Accélérer l agilité de votre site de e-commerce. Cas client

Accélérer l agilité de votre site de e-commerce. Cas client Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

L olivier Assurances Licence 3 Econométrie Lyon II

L olivier Assurances Licence 3 Econométrie Lyon II 15 novembre 2013 L olivier Assurances Licence 3 Econométrie Lyon II Pascal Gonzalvez 1 L olivier Assurances et le Groupe Admiral Segmentation et tarification en assurance auto Autres applications de la

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Le DataMining, qu est-ce que c est et comment l appréhender?

Le DataMining, qu est-ce que c est et comment l appréhender? Le DataMining, qu est-ce que c est et comment l appréhender? Extrait d une conversation téléphonique (réelle) : «Allô, monsieur Decourt? Je travaille pour X 1 et nous désirons rencontrer tous les habitants

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

Coheris est agréé organisme de formation, n d agrément 11 92 19507 92.

Coheris est agréé organisme de formation, n d agrément 11 92 19507 92. Formations 2015 Coheris est agréé organisme de formation, n d agrément 11 92 19507 92. Introduction La formation est une préoccupation constante de Coheris vis-à-vis de ses clients et de ses partenaires,

Plus en détail

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1 Table des matières PARTIE 1 1. Résumé

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

Stages de Formation en Statistique Appliquée et Logistique

Stages de Formation en Statistique Appliquée et Logistique Stages de Formation en Statistique Appliquée et Logistique Un aperçu de nos stages Titre Avec PC Durée Info Visualisation de données de laboratoire avec Excel oui 2 jours p. 3 Analyse de données de laboratoire

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Stages de Formation en Statistique Appliquée et Logistique

Stages de Formation en Statistique Appliquée et Logistique Stages de Formation en Statistique Appliquée et Logistique Un aperçu de nos stages Titre Avec PC Durée Info Visualisation de données de laboratoire avec Excel oui 2 jours p. 3 Analyse de données de laboratoire

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Scénario: Score d appétence de la carte visa premier

Scénario: Score d appétence de la carte visa premier Scénario: Score d appétence de la carte visa premier Résumé Cette aventure reprend rapidement l exploration des données bancaires avant d aborder systématiquement la construction de modèles de prévision

Plus en détail

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Formation Actuaire Data Scientist. Programme au 24 octobre 2014 Formation Actuaire Data Scientist Programme au 24 octobre 2014 A. Eléments logiciels et programmation Python 24h Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Etudes marketing et connaissance client

Etudes marketing et connaissance client Master deuxième année Mention : Statistique et Traitement de Données Etudes marketing et connaissance client Imane Hammouali Tuteur de stage: M. Sébastien Confesson Stage effectué au Service Etudes Marketing

Plus en détail

La place de SAS dans l'informatique décisionnelle

La place de SAS dans l'informatique décisionnelle La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie

Plus en détail

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) CIVILITE-SES.doc - 1 - Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) 1 PRÉSENTATION DU DOSSIER CIVILITE On s intéresse

Plus en détail

Groupe Eyrolles, 2004 ISBN : 2-212-11331-5

Groupe Eyrolles, 2004 ISBN : 2-212-11331-5 Groupe Eyrolles, 2004 ISBN : 2-212-11331-5 Chapitre 4 La connaissance du client «Au lieu de se concentrer sur un produit à la fois, en essayant de le vendre au plus grand nombre possible, concentrez-vous

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

WEBSELL. Projet DATAMINING

WEBSELL. Projet DATAMINING WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ] SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1.

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

De la mesure à l analyse des risques

De la mesure à l analyse des risques De la mesure à l analyse des risques Séminaire FFA Jean-Paul LAURENT Professeur à l'isfa jean-paul.laurent@univ-lyon1.fr http://laurent.jeanpaul.free.fr/ 0 De la la mesure à l analyse des risques! Intégrer

Plus en détail

IBM SPSS Statistics Base 20

IBM SPSS Statistics Base 20 IBM SPSS Statistics Base 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 316. Cette version s applique à IBM SPSS

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

De la mesure à l analyse des risques

De la mesure à l analyse des risques De la mesure à l analyse des risques Séminaire ISFA - B&W Deloitte Jean-Paul LAURENT Professeur à l'isfa, Université Claude Bernard Lyon 1 laurent.jeanpaul@free.fr http://laurent.jeanpaul.free.fr/ 0 De

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.

Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE. Plan Data mining (partie 2) Introduction 1. Les tâches du data mining 2. Le processus de data mining Master MIAGE - ENITE Spécialité ACSI 3. Les bases de l'analyse de données 4. Les modèles du data mining

Plus en détail

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT Remarque : Tous les cours sont en français, sauf contre-indication. Pour des traductions anglaises des titres, des descriptifs, et plus de renseignements, consultez l intégralité du Programme des enseignements

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage, SYNTHÈSE DU CHAPITRE 11 : LA SEGMENTATION DE LA DEMANDE. La segmentation. La segmentation de la demande consiste à définir des groupes de clients (des segments de clientèle) ayant des comportements homogènes

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Junior ESSEC 1, avenue Bernard Hirsch 95000 Cergy / Tel : +33 (0)1 30 75 05 05 / Fax : +33 (0)1 30 38 08 92 / e-mail : je@junioressec.

Junior ESSEC 1, avenue Bernard Hirsch 95000 Cergy / Tel : +33 (0)1 30 75 05 05 / Fax : +33 (0)1 30 38 08 92 / e-mail : je@junioressec. 2012 Junior ESSEC 1, avenue Bernard Hirsch 95000 Cergy / Tel : +33 (0)1 30 75 05 05 / Fax : +33 (0)1 30 38 08 92 / e-mail : je@junioressec.com / www.junioressec.com 1. Présentation de Junior ESSEC 1. Présentation

Plus en détail

Optimisation du ciblage des opérations de fidélisation

Optimisation du ciblage des opérations de fidélisation Optimisation du ciblage des opérations de fidélisation Fondements de la méthode Uplift avec applications au domaine de la distribution Nicholas J. Radcliffe Adaptation française Paul Archambault, d après

Plus en détail

Scénario: Données bancaires et segmentation de clientèle

Scénario: Données bancaires et segmentation de clientèle Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé

Plus en détail

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... 3 Introduction... 3 Échelle Interactive... 4 Navigation

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Dossier de Presse. Edition 2015

Dossier de Presse. Edition 2015 1 Dossier de Presse Edition 2015 2 Sommaire I. Présentation 3 II. L Entrepôt DaaS* du Groupe CARTEGIE 4 III. Expertises 5 IV. Recherche & Développement 6 V. Éthique & Engagements 7 VI. Références Clients

Plus en détail

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique É C O L E D I N G É N I E U R D E S T E C H N O L O G I E S D E L I N F O R M A T I O N E T D E L A C O M M U N I C A T I O N Programme scientifique Majeure INTELLIGENCE NUMERIQUE Langage Java Mentions

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Ordonnancement robuste et décision dans l'incertain

Ordonnancement robuste et décision dans l'incertain Ordonnancement robuste et décision dans l'incertain 4 ème Conférence Annuelle d Ingénierie Système «Efficacité des entreprises et satisfaction des clients» Centre de Congrès Pierre Baudis,TOULOUSE, 2-4

Plus en détail

Outils pour les réseaux de neurones et contenu du CD-Rom

Outils pour les réseaux de neurones et contenu du CD-Rom Outils pour les réseaux de neurones et contenu du CD-Rom Depuis le développement théorique des réseaux de neurones à la fin des années 1980-1990, plusieurs outils ont été mis à la disposition des utilisateurs.

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Le plan d action marketing et commercial : De la réflexion marketing à l action commerciale

Le plan d action marketing et commercial : De la réflexion marketing à l action commerciale Le plan d action marketing et : De la réflexion marketing à l action e Un document qui oblige à réfléchir et à prendre du recul sur l activité, en mêlant l analyse marketing à l action e 1 L analyse marketing

Plus en détail

Etude d Algorithmes Parallèles de Data Mining

Etude d Algorithmes Parallèles de Data Mining REPUBLIQUE TUNISIENNE MINISTERE DE L ENSEIGNEMENT SUPERIEUR, DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DE TUNIS ELMANAR FACULTE DES SCIENCES DE TUNIS DEPARTEMENT DES SCIENCES DE L INFORMATIQUE

Plus en détail

COURS DE DATA MINING

COURS DE DATA MINING COURS DE DATA MINING Stéphane TUFFERY Université Rennes 1 Master 2 Ingénierie économique et financière Octobre 2011 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 1 Présentation de

Plus en détail

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...) Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence

Plus en détail

Filière «Économie et Entreprise» 2015/2016

Filière «Économie et Entreprise» 2015/2016 Filière «Économie et Entreprise» 2015/2016 1. Présentation de la filière Économie et Entreprise La filière «Economie et entreprises» de quatrième année de SciencesPo Strasbourg donne aux étudiants, dans

Plus en détail

Mémoire d Actuariat Tarification de la branche d assurance des accidents du travail Aymeric Souleau aymeric.souleau@axa.com 3 Septembre 2010 Plan 1 Introduction Les accidents du travail L assurance des

Plus en détail

PROGRAMME (Susceptible de modifications)

PROGRAMME (Susceptible de modifications) Page 1 sur 8 PROGRAMME (Susceptible de modifications) Partie 1 : Méthodes des revues systématiques Mercredi 29 mai 2013 Introduction, présentation du cours et des participants Rappel des principes et des

Plus en détail

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS

Plus en détail