COURS DE DATA MINING

Dimension: px
Commencer à balayer dès la page:

Download "COURS DE DATA MINING"

Transcription

1 COURS DE DATA MINING Stéphane TUFFERY Université Rennes 1 Master 2 Ingénierie économique et financière Octobre /10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 1

2 Présentation de l intervenant Responsable de l équipe statistique dans un grand groupe bancaire Enseigne le data mining en Master 2 à l Université Rennes 1 et à l Université Catholique de l Ouest (Angers) Docteur en Mathématiques Auteur de : Data Mining et Statistique Décisionnelle, Éditions Technip, 2005, 3 e édition 2010, préface de Gilbert Saporta Data Mining and Statistics for Decision Making, Éditions Wiley, mars 2011 Étude de cas en Statistique Décisionnelle, Éditions Technip, /10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 2

3 Plan Qu est-ce que le data mining? A quoi sert le data mining? L élaboration d un modèle de scoring La sélection des variables La modélisation La mesure du pouvoir discriminant Questionnaire adaptatif en scoring Quelques principes du data mining L agrégation de modèles La détection des règles d associations Conclusion 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 3

4 Qu est-ce que le data mining? 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 4

5 La fouille de données Le data mining est l ensemble des : techniques et méthodes destinées à l exploration et l analyse de (souvent) grandes bases de données informatiques en vue de détecter dans ces données des règles, des associations, des tendances inconnues (non fixées a priori), des structures particulières restituant de façon concise l essentiel de l information utile pour l aide à la décision On parle d extraire l information de la donnée Selon le MIT, c est l une des 10 technologies émergentes qui «changeront le monde» au XXI e siècle L ONU a déclaré le 20 octobre Journée mondiale de la statistique 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 5

6 Intérêt du data mining On ne veut pas simplement confirmer des intuitions a priori par des requêtes dans les bases de données mais détecter sans a priori les combinaisons de critères les plus discriminantes Par exemple, dans le domaine commercial, on ne veut plus seulement savoir : «Combien de clients ont acheté tel produit pendant telle période?» Mais : «Quel est leur profil?» «Quels autres produits les intéresseront?» «Quand seront-ils intéressés?» Les profils de clientèle à découvrir sont en général des profils complexes : pas seulement des oppositions «jeunes/seniors», «citadins/ruraux» que l on pourrait deviner en tâtonnant par des statistiques descriptives > Le data mining fait passer d analyses confirmatoires à des analyses exploratoires 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 6

7 Les 2 types de techniques de DM Les techniques descriptives (recherche de «patterns») : visent à mettre en évidence des informations présentes mais cachées par le volume des données (c est le cas des segmentations de clientèle et des recherches d associations de produits sur les tickets de caisse) réduisent, résument, synthétisent les données il n y a pas de variable à expliquer Les techniques prédictives (modélisation) : visent à extrapoler de nouvelles informations à partir des informations présentes (c est le cas du scoring) expliquent les données il y a une variable à expliquer 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 7

8 Les 2 principales familles de méthodes descriptives carte de Kohonen Source : Lebart-Morineau-Piron, Statistique exploratoire multidimensionnelle, page 10 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 8

9 Qu est-ce que la classification? Regrouper des objets en groupes, ou classes, ou familles, ou segments, ou clusters, de sorte que : 2 objets d un même groupe se ressemblent le + possible 2 objets de groupes distincts diffèrent le + possible le nombre des groupes est parfois fixé les groupes ne sont pas prédéfinis mais déterminés au cours de l opération Méthode descriptive : pas de variable cible privilégiée décrire de façon simple une réalité complexe en la résumant Utilisation en marketing, médecine, sciences humaines segmentation de clientèle marketing Les objets à classer sont : des individus des variables les deux à la fois (biclustering) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 9

10 Complexité du problème! Le nombre de partitions (non recouvrantes) de n objets est le nombre de Bell : n 1 k B n e k 1 k! Exemple : pour n = 4 objets, on a B n = 15, avec 1 partition à 1 classe (abcd) 7 partitions à 2 classes (ab,cd), (ac,bd), (ad,bc), (a,bcd), (b,acd), (c,bad), (d,abc) 6 partitions à 3 classes (a,b,cd), (a,c,bd), (a,d,bc), (b,c,ad), (b,d,ac), (c,d,ab) 1 partition à 4 classes (a,b,c,d) Exemple : pour n = 30 objets, on a B 30 = 8, B n > exp(n) Nécessité de définir des critères de bonne classification et d avoir des algorithmes performants 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 10

11 Classement et prédiction Ce sont des méthodes prédictives Classement : la variable à expliquer (ou «cible», «réponse», «dépendante») est qualitative on parle aussi de classification (en anglais) ou de discrimination Prédiction : la variable à expliquer est quantitative on parle aussi de régression ou d apprentissage supervisé (réseaux de neurones) exemple : le prix d un appartement (en fonction de sa superficie, de l étage et du quartier) Scoring : classement appliqué à une problématique d entreprise (variable à expliquer souvent binaire) chaque individu est affecté à une classe («sain» ou «malade», par exemple) en fonction de ses caractéristiques 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 11

12 Quelques types de score Score d appétence prédire l achat d un produit ou service Score de (comportement) risque prédire les impayés ou la fraude Score de préacceptation croisement des deux précédents Score d octroi prédire en temps réel les impayés Score d attrition prédire le départ du client vers un concurrent Et aussi : Appétence En médecine : diagnostic (bonne santé : oui / non) en fonction du dossier du patient et des analyses médicales Courriels : spam (oui / non) en fonction des caractéristiques du message (fréquence des mots ) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes Risque

13 Tableau des méthodes descriptives type famille sous-famille algorithme méthodes descriptives modèles géométriques En grisé : méthodes «classiques» modèles combinatoires modèles à base de règles logiques analyse factorielle (projection sur un espace de dimension inférieure) analyse en composantes principales ACP (variables continues) analyse factorielle des correspondances AFC (2 variables qualitatives) analyse des correspondances multiples ACM (+ de 2 var. qualitatives) analyse typologique méthodes de partitionnement (centres (regroupement en mobiles, k-means, nuées dynamiques) classes homogènes) méthodes hiérarchiques analyse typologique + réduction dimens. détection de liens classification neuronale (cartes de Kohonen) classification relationnelle (variables qualitatives) détection d associations 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 13

14 Tableau des méthodes prédictives type famille sous-famille algorithme méthodes modèles à base arbres de arbres de décision (variable à expliquer prédictives de règles logiques décision continue ou qualitative) réseaux de neurones modèles à base de fonctions mathématiques En grisé : méthodes «classiques» prédiction sans modèle modèles paramétriques ou semiparamétriques réseaux à apprentissage supervisé : perceptron multicouches, réseau à fonction radiale de base régression linéaire, ANOVA, MANOVA, ANCOVA, MANCOVA, modèle linéaire général GLM, régression PLS (variable à expliquer continue) analyse discriminante linéaire, régression logistique, régression logistique PLS (variable à expliquer qualitative) modèle log-linéaire, régression de Poisson (variable à expliquer discrète = comptage) modèle linéaire généralisé, modèle additif généralisé (variable à expliquer continue, discrète ou qualitative) k-plus proches voisins (k-nn) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 14

15 Statistique inférentielle et data mining Statistique (avant 1950) : quelques centaines d individus quelques variables recueillies avec un protocole spécial (échantillonnage, plan d expérience ) fortes hypothèses sur les lois statistiques suivies (linéarité, normalité, homoscédasticité) le modèle prime sur la donnée : il est issu de la théorie et confronté aux données utilisation en laboratoire Analyse des données ( ) : quelques dizaines de milliers d individus quelques dizaines de variables construction des tableaux «Individus x Variables» importance du calcul et de la représentation visuelle Data mining (depuis 1990) : plusieurs millions d individus plusieurs centaines de variables certaines variables non numériques données recueillies avant l étude, et souvent à d autres fins données imparfaites, avec des erreurs de saisie, des valeurs manquantes nécessité de calculs rapides, parfois en temps réel on ne recherche pas toujours l optimum théorique, mais le plus compréhensible pour des non statisticiens faibles hypothèses sur les lois statistiques suivies la donnée prime sur le modèle : le modèle est issu des données et on en tire éventuellement des éléments théoriques utilisation en entreprise 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 15

16 Préhistoire 1875 : régression linéaire de Francis Galton 1896 : formule du coefficient de corrélation de Karl Pearson 1900 : distribution du ² de Karl Pearson 1936 : analyse discriminante de Fisher et Mahalanobis 1941 : analyse factorielle des correspondances de Guttman 1943 : réseaux de neurones de Mc Culloch et Pitts 1944 : régression logistique de Joseph Berkson 1958 : perceptron de Rosenblatt 1962 : analyse des correspondances de J.-P. Benzécri 1964 : arbre de décision AID de J.P. Sonquist et J.-A. Morgan 1965 : méthode des centres mobiles de E. W. Forgy 1967 : méthode des k-means de Mac Queen 1972 : modèle linéaire généralisé de Nelder et Wedderburn 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 16

17 Histoire 1975 : algorithmes génétiques de Holland 1975 : méthode de classement DISQUAL de Gilbert Saporta 1980 : arbre de décision CHAID de KASS 1983 : régression PLS de Herman et Svante Wold 1984 : arbre CART de Breiman, Friedman, Olshen, Stone 1986 : perceptron multicouches de Rumelhart et McClelland 1989 : réseaux de T. Kohonen (cartes auto-adaptatives) vers 1990 : apparition du concept de data mining 1991 : méthode MARS de Jerome H. Friedman 1993 : arbre C4.5 de J. Ross Quinlan 1996 : bagging (Breiman) et boosting (Freund-Shapire) 1998 : support vector machines de Vladimir Vapnik 2001 : forêts aléatoires de L. Breiman 2005 : méthode elastic net de Zhou et Hastie 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 17

18 Le data mining aujourd hui Ces techniques ne sont pas toutes récentes Ce qui est nouveau, ce sont aussi : les capacités de stockage et de calcul offertes par l informatique moderne la constitution de giga-bases de données pour les besoins de gestion des entreprises la recherche en théorie de l apprentissage les logiciels universels, puissants et conviviaux l intégration du data mining dans les processus de production qui permettent de traiter de grands volumes de données et font sortir le data mining des laboratoires de recherche pour entrer dans les entreprises 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 18

19 Le data mining demain Agrégation de modèles rééchantillonnage bootstrap, bagging, boosting Web mining optimisation des sites meilleure connaissance des internautes croisement avec les bases de données de l entreprise Text mining statistique lexicale pour l analyse des courriers, courriels, dépêches, comptes-rendus, brevets (langue naturelle) Image mining reconnaissance automatique d une forme ou d un visage détection d une échographie anormale, d une tumeur 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 19

20 A quoi sert le data mining? 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 20

21 Sondage sur Industries / Fields where you applied Data Mining in 2009 [180 votes total] CRM/ consumer analytics (59) 32.8% Banking (44) 24.4% Direct Marketing/ Fundraising (29) 16.1% Credit Scoring (28) 15.6% Telecom / Cable (26) 14.4% Fraud Detection (25) 13.9% Retail (21) 11.7% Health care/ HR (21) 11.7% Finance (20) 11.1% Science (19) 10.6% Advertising (19) 10.6% e-commerce (18) 10.0% Insurance (18) 10.0% Web usage mining (15) 8.3% Social Networks (14) 7.8% Medical/ Pharma (14) 7.8% Biotech/Genomics (14) 7.8% Search / Web content mining (12) 6.7% Investment / Stocks (12) 6.7% Security / Anti-terrorism (9) 5.0% Education (8) 4.4% Government/Military (7) 3.9% Manufacturing (6) 3.3% Travel / Hospitality (5) 2.8% Social Policy/Survey analysis (3) 1.7% Entertainment/ Music (3) 1.7% Junk / Anti-spam (1) 0.6% None (2) 1.1% Sondage effectué en décembre /10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 21 Other (14) 7.8%

22 Utilité du data mining dans le CRM (gestion de la relation client) Mieux connaître le client pour mieux le servir pour augmenter sa satisfaction pour augmenter sa fidélité (+ coûteux d acquérir un client que le conserver) La connaissance du client est encore plus utile dans le secteur tertiaire : les produits se ressemblent entre établissements le prix n est pas toujours déterminant ce sont surtout le service et la relation avec le client qui font la différence 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 22

23 Exemple du credit scoring Objectifs de la banque : vendre plus en maîtrisant les risques en utilisant les bons canaux au bon moment Le crédit à la consommation un produit standard concurrence des sociétés spécialisées sur le lieu de vente (Cetelem ) quand la banque a connaissance du projet du client, il est déjà trop tard Conclusion : il faut être pro-actif détecter les besoins des clients et leur tendance à emprunter > Faire des propositions commerciales aux bons clients, avant qu ils n en fassent la demande Appétence + + Risque 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 23

24 Le data mining dans la banque Naissance du score de risque en 1941 (David Durand) Multiples techniques appliquées à la banque de détail et la banque d entreprise Surtout la banque de particuliers : montants unitaires modérés grand nombre de dossiers dossiers relativement standards Essor dû à : développement des nouvelles technologies nouvelles attentes de qualité de service des clients concurrence des nouveaux entrants (assureurs, grande distribution) et des sociétés de crédit pression mondiale pour une plus grande rentabilité surtout : ratio de solvabilité Bâle 2 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 24

25 Le data mining dans l assurance de risque Des produits obligatoires (automobile, habitation) : soit prendre un client à un concurrent soit faire monter en gamme un client que l on détient déjà D où les sujets dominants : attrition ventes croisées (cross-selling) montées en gamme (up-selling) Besoin de décisionnel dû à : concurrence des nouveaux entrants (bancassurance) bases clients des assureurs traditionnels mal organisées : compartimentées par agent général ou structurées par contrat et non par client 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 25

26 Le data mining dans la téléphonie Deux événements : ouverture du monopole de France Télécom arrivée à saturation du marché de la téléphonie mobile D où les sujets dominants dans la téléphonie : score d attrition (churn = changement d opérateur) optimisation des campagnes marketing text mining (pour analyser les lettres de réclamation) Problème du churn : coût d acquisition moyen en téléphonie mobile : 250 euros plus d un million d utilisateurs changent chaque d année d opérateur la loi Chatel (juin 2008) facilite le changement d opérateur en diminuant le coût pour ceux qui ont dépassé 12 mois chez l opérateur la portabilité du numéro facilite le churn 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 26

27 Le data mining dans le commerce Vente Par Correspondance utilise depuis longtemps des scores d appétence pour optimiser ses ciblages et en réduire les coûts des centaines de millions de documents envoyés par an e-commerce personnalisation des pages du site web de l entreprise, en fonction du profil de chaque internaute optimisation de la navigation sur un site web Grande distribution analyse du ticket de caisse détermination des meilleures implantations (géomarketing) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 27

28 Autres exemples De l petit (génomique) à l grand (astrophysique pour le classement en étoile ou galaxie) Du plus quotidien (reconnaissance de l écriture manuscrite sur les enveloppes) au moins quotidien (aide au pilotage aéronautique) Du plus ouvert (e-commerce) au plus sécuritaire (détection de la fraude dans la téléphonie mobile ou les cartes bancaires) Du plus industriel (contrôle qualité pour la recherche des facteurs expliquant les défauts de la production) au plus théorique (sciences humaines, biologie ) Du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prévisions d audience TV) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 28

29 Exemples médicaux Mettre en évidence des facteurs de risque ou de rémission dans certaines maladies (infarctus et des cancers) Choisir le traitement le plus approprié Ne pas prodiguer des soins inutiles Déterminer des segments de patients susceptibles d être soumis à des protocoles thérapeutiques déterminés, chaque segment regroupant tous les patients réagissant identiquement Décryptage du génome Tests de médicaments, de cosmétiques Prédire les effets sur la peau humaine de nouveaux cosmétiques, en limitant le nombre de tests sur les animaux 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 29

30 L élaboration d un modèle de scoring 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 30

31 Définition des objectifs Définir précisément le sujet et certains critères essentiels (variable à expliquer ou «cible») exemple : «client à risque» et «client sans risque» Définir la population cible tous les clients, les clients actifs, les prospects aussi unité statistique : individu, famille, entreprise, groupe Déterminer la période à étudier en fonction de la disponibilité des données et de la stabilité des indicateurs et des règles de gestion Prévoir l utilisation opérationnelle des modèles produits forme de la restitution, confidentialité, périodicité de mise à jour, utilisation dans d autres processus Mettre en place un suivi des modèles 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 31

32 Définition de la variable à expliquer En médecine : définition souvent naturelle un patient a ou non une tumeur (et encore faut-il distinguer les différents stades d une tumeur) Dans la banque : qu est-ce qu un client non risqué? aucun impayé, 1 impayé, n impayés mais dette apurée? Dans certains modèles, on définit une «zone indéterminée» non modélisée : 1 impayé variable à expliquer non définie aucun impayé variable à expliquer = 0 2 impayés variable à expliquer = 1 Définition parfois encore plus problématique en appétence et en attrition dans la banque, contrairement à la téléphonie, on peut partir brutalement ou progressivement Quant à la fraude, elle n est pas toujours connue 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 32

33 Biais de sélection En risque : certaines demandes sont refusées et on ne peut donc pas mesurer la variable à expliquer certaines populations ont été exclues de la modélisation et on leur applique pourtant le modèle il existe des méthodes «d inférence des refusés», mais dont aucune n est totalement satisfaisante Et parfois aucune trace n est conservée des demandes refusées! En appétence : certaines populations n ont jamais été ciblées et on ne leur a pas proposé le produit si on les modélise, elles seront présentes dans l échantillon des «mauvais» (clients sans appétence) peut-être à tort contrairement au cas précédent, on peut mesurer la variable à expliquer car il y a des souscriptions spontanées envisager de limiter le périmètre aux clients ciblés Fraude à la carte bancaire : certaines transactions ont été rejetées et on ne saura pas si elles étaient frauduleuses 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 33

34 Taille de l échantillon taux d'erreur t mauvaise généralisation bonne généralisation données de test et d'application données apprentissage taille de l'échantillon Théorème de Vapnik : R R emp h (log( 2n / h) 1) log( / 4) n taille suffisante 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 34

35 Représentativité de l échantillon d étude Hypothèse fondamentale : l échantillon d étude est représentatif de la population à laquelle sera appliqué le modèle N implique pas un échantillonnage aléatoire simple : événement à prédire rare stratification non proportionnelle de l échantillon sur la variable à expliquer parfois : 50 % de positifs et 50 % de négatifs nécessaire quand on utilise CART pour modéliser 3 % d acheteurs, sinon CART prédit que personne n est acheteur excellent taux d erreur = 3 %! change la constante du logit de la régression logistique intéressant en cas d hétéroscédasticité dans une analyse discriminante linéaire 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 35

36 Inventaire des données utiles Recenser avec les spécialistes métier et les informaticiens, les données utiles : accessibles raisonnablement (pas sur microfilms!) fiables suffisamment à jour historisées, si besoin est légalement utilisables Il y a les données : du système d information (SI) de l entreprise stockées dans l entreprise, hors du SI (fichiers Excel...) achetées ou récupérées à l extérieur de l entreprise calculées à partir des données précédentes (indicateurs, ratios, évolutions au cours du temps) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 36

37 Quand on manque de données Enquêtes auprès d échantillons de clients en les incitant à répondre à des questionnaires en leur proposant des cadeaux Utilisation des mégabases de données (Acxiom, Wegener Direct Marketing) «Scoring prénom» Utilisation de données géodémographiques (type d habitat en fonction de l adresse) données moins précises que des données nominatives mais disponibles pour des prospects Recours à des modèles standards pré-établis par des sociétés spécialisées (ex : scores génériques) quand on a des données mais peu d historique 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 37

38 Scoring prénom P a s c a l 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 38

39 Données géodémographiques Données économiques nb entreprises, population active, chômage, commerces et services de proximité, habitudes de consommation Données sociodémographiques population, richesse, âge et nombre d enfants moyens, structures familiales, niveau socioprofessionnel Données résidentielles ancienneté, type et confort des logements, proportion de locataires et propriétaires Données concurrentielles implantation de l entreprise, implantation de ses concurrents, parts de marché, taux de pénétration Type d habitat : beaux quartiers, classe moyenne, classe ouvrière, centre ville et quartiers commerçants... 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 39

40 au moins 1000 cas Construction de la base d analyse n variable cible : âge PCS situation nb montant variable échantillon client acheteur (O/N) famille achats achats explicative m 1 O 58 cadre marié 2 40 apprentissage 2 N 27 ouvrier célibataire 3 30 test k O 46 technicien célibataire 3 75 test 1000 N 32 employé marié 1 50 apprentissage variable à expliquer variables explicatives répartition observée année n observées année n-1 aléatoire des clients O : au moins 500 clients ciblés dans l'année n et acheteurs entre les 2 N : au moins 500 clients ciblés dans l'année n et non acheteurs échantillons PREDICTION f 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 40

41 Sélection des périodes d observation Élaboration du modèle :--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--: 24 mois 12 mois aujourd hui observation des observation de la variables explicatives variable à expliquer Application du modèle :---:---:---:---:---:---:---:---:---:---:---:---:---:---:---:---:---: mois 6 mois aujourd? :--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--: observation des variables explicatives observation de la 12 mois aujourd hui + 12 mois observation des variable cible prédiction de la variables explicatives variable à expliquer Le modèle sera par exemple une fonction f telle que : Probabilité(variable cible = x) = f(variables explicatives) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 41

42 Pré-segmentation Segmentation (classification) de la population : en groupes forcément distincts selon les données disponibles (clients / prospects) en groupes statistiquement pertinents vis-à-vis des objectifs de l étude selon certaines caractéristiques sociodémographiques (âge, profession ) si elles correspondent à des offres marketing spécifiques Données utilisées liées à l événement à prédire Méthode de classification Classification statistique Règles d experts Oui solution efficace solution pouvant être efficace Non solution risquant d être moyennement efficace solution pouvant être efficace si les données sont bien choisies 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 42

43 Intérêt de segmenter : le paradoxe de Simpson Tous clients sans achat avec achat TOTAL taux d'achat courriel ,67% téléphone ,33% TOTAL ,50% Hommes sans achat avec achat TOTAL taux d'achat courriel ,00% téléphone ,00% TOTAL ,00% Femmes sans achat avec achat TOTAL taux d'achat courriel ,00% téléphone ,00% TOTAL ,00% 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 43

44 Paradoxe de Simpson : explication Dans le dernier exemple : les hommes ne répondent pas mieux au téléphone qu au courriel de même pour les femmes et pourtant, le téléphone semble avoir globalement un meilleur taux d achat Explication : un individu pris au hasard ne répond pas mieux au téléphone mais les femmes achètent plus et on a privilégié le téléphone pour les contacter (liaison positive entre les variables «sexe» et «canal de distribution») 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 44

45 Pré-segmentation : aspects opérationnels Simplicité de la pré-segmentation (pas trop de règles) Nombre limité de segments et stabilité des segments Tailles des segments généralement du même ordre de grandeur Homogénéité des segments du point de vue des variables explicatives Homogénéité des segments du point de vue de la variable à expliquer 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 45

46 Exemple de segmentation de clientèle 10 patrimoine - âge 5 P C R crédit conso - CB faibles revenus PCR1 forts revenus S1 (rouge) : peu actifs S2 (rose) : jeunes S3 (bleu) : consommateurs S4 (orange) : seniors S5 (noir) : aisés S6 (vert) : débiteurs 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 46

47 Analyse exploratoire des données 1/2 Explorer la distribution des variables Vérifier la fiabilité des variables valeurs incohérentes ou manquantes suppression ou imputation ou isolement certaines variables sont fiables mais trompeuses Le profil de souscripteurs peut être faussé par une campagne commerciale ciblée récente Détecter les valeurs extrêmes voir si valeurs aberrantes à éliminer Variables continues détecter la non-monotonie ou la non-linéarité justifiant la discrétisation tester la normalité des variables (surtout si petits effectifs) et les transformer pour augmenter la normalité éventuellement discrétiser : découper la variable en tranches en fonction de la variable à expliquer et isoler les valeurs manquantes ou aberrantes 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 47

48 Analyse exploratoire des données 2/2 Variables qualitatives ou discrètes regrouper certaines modalités aux effectifs trop petits représenter les modalités dans une analyse des correspondances multiples Créer des indicateurs pertinents d après les données brutes prendre l avis des spécialistes du secteur étudié création d indicateurs pertinents (maxima, moyennes, présence/absence ) utiliser des ratios plutôt que des variables absolues calcul d évolutions temporelles de variables création de durées, d anciennetés à partir de dates croisement de variables, interactions (exemple : plafond ligne de crédit + part utilisée taux d utilisation du crédit) utilisation de coordonnées factorielles Détecter les liaisons entre variables entre variables explicatives et à expliquer (bon) entre variables explicatives entre elles (colinéarité à éviter dans certaines méthodes) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 48

49 Problème de la qualité des données : 3 niveaux Données non correctes (manquantes ou aberrantes) Pas toujours faciles à détecter 0 est-il 0 ou manquant? est-il manquant ou aberrant? S agit-il d une erreur ou d un outlier? Comment corriger en apprentissage / en application? Données non cohérentes Venant du rapprochement de données correctes isolément MAIS mesurées à des dates différentes ou sur des échelles différentes ou issues de règles de calcul différentes Données correctes et cohérentes mais trompeuses Par exemple, en appétence, le profil des souscripteurs peut être faussé par une campagne commerciale ciblée récente 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 49

50 Traitement des valeurs manquantes D abord vérifier que les valeurs manquantes ne proviennent pas : d un problème technique dans la constitution de la base d individus qui ne devraient pas se trouver dans la base Sinon, plusieurs solutions sont envisageables selon les cas : supprimer les observations (si elles sont peu nombreuses ou si le non renseignement de la variable est grave et peut laisser suspecter d autres anomalies dans l observation) ne pas utiliser la variable concernée (surtout si elle est peu discriminante) ou la remplacer par une variable proche mais sans valeur manquante mieux vaut supprimer une variable a priori peu utile, mais qui est souvent non renseignée et conduirait à exclure de nombreuses observations de la modélisation traiter la valeur manquante comme une valeur à part entière imputation : remplacer la valeur manquante par une valeur par défaut ou déduite des valeurs des autres variables remplacer les valeurs manquantes grâce à une source externe (rarement possible) Mais aucune solution n est idéale 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 50

51 Imputation des valeurs manquantes Imputation statistique par le mode, la moyenne ou la médiane par une régression ou un arbre de décision imputation simple (minore la variabilité et les intervalles de confiance des paramètres estimés) ou multiple (remplacer chaque valeur manquante par n valeurs, par exemple n = 5, puis faire les analyses sur les n tables et combiner les résultats pour obtenir les paramètres avec leurs écart-types 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 51

52 L imputation n est jamais neutre Surtout si les données ne sont pas manquantes au hasard Déformation des variances et des corrélations avant imputation imputation par moyenne ou régression y i après imputation par la moyenne source : J.-P. Nakache A. Gueguen, RSA /10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 52 x i y i x i imputation par régression + résidu aléatoire

53 Schéma des valeurs manquantes Exemple de sortie produite par la procédure MI de SAS Caractéristiques des données manquantes Moyennes de groupes Groupe Var1 Var2 Var3 Fréq Pourcentage Var1 Var2 Var3 1 X X X X. X X X X X O O O /10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 53

54 Examen de la distribution des variables La durée du crédit présente des pics prévisibles à 12, 24, 36, 48 et 60 mois On constate assez nettement la plus forte proportion de crédits plus longs parmi ceux qui ont des impayés 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 54

55 Normalisation : transformations Log (V) transformation la plus courante pour corriger un coefficient d asymétrie > 0 Si V 0, on prend Log (1 + V) Racine carrée (V) si coefficient d asymétrie > 0-1/V ou 1/V² si coefficient d asymétrie > 0 V 2 ou V 3 si coefficient d asymétrie < 0 Arc sinus (racine carrée de V/100) si V est un pourcentage compris entre 0 et 100 Certains logiciels déterminent automatiquement la transformation la plus adaptée en utilisant la fonction de Box-Cox 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 55

56 Normalisation : un exemple Revenus : Log(revenus) : Racine(revenus) : Asymétrie = 2,38 Asymétrie = - 2,03 Asymétrie = 0,64 Aplatissement = 11,72 Aplatissement = 12,03 Aplatissement = 1,76 La racine carrée normalise ici mieux que le logarithme (Loi normale : asymétrie = aplatissement ( 3) = 0) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 56

57 Utilité de la normalisation Une des hypothèses de l analyse discriminante linéaire : multinormalité de X/G i et égalité des matrices de covariances N est en pratique jamais satisfaite Mais on constate une amélioration des performances de l analyse discriminante lorsque l on s en rapproche : en neutralisant les «outliers» (individus hors norme) en normalisant les variables explicatives susceptibles d entrer dans le modèle Moralité : mieux vaut connaître les contraintes théoriques pour se rapprocher des conditions optimales 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 57

58 Discrétisation en tranches naturelles Densité clients sans appétence clients avec appétence variable explicative Y 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 58

59 Pourquoi discrétiser? Appréhender des liaisons non linéaires (de degré >1), voire non monotones, entre les variables continues par une ACM, une régression logistique ou une analyse discriminante DISQUAL Neutraliser les valeurs extrêmes («outliers») qui sont dans la 1 ère et la dernière tranches Gérer les valeurs manquantes (imputation toujours délicate) rassemblées dans une tranche supplémentaire spécifique Gérer les ratios dont le numérateur et le dénominateur peuvent être tous deux > 0 ou < 0 Traiter simultanément des données quantitatives et qualitatives 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 59

60 Exemple de discrétisation On commence par découper la variable explicative en déciles, et à regarder à quelle valeur correspond chaque décile Par exemple, le 2 e décile est 25 ans Rang pour la variable Age Analysis Variable : Age N Obs Minimum Maximum /10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 60

61 Exemple de discrétisation Le tableau de contingence montre que les deux premiers déciles de l âge correspondent à un taux d impayés nettement supérieur à celui des autres déciles. Il y a donc un seuil à 25 ans. Aucun autre seuil ne se distingue nettement, les taux d impayés fluctuant ensuite entre 20 % et un peu plus de 30 %. Le découpage de l âge en deux tranches est donc décidé. Table de dage par Cible dage(rang pour la variable Age) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes Total Cible FREQUENCE Pourcentage Pct en ligne 1 2 Total

62 Exemple de regroupement de modalités Regroupement de «< 100» et «[ euros[ dont les taux d impayés sont proches (35,99% et 33,01%) Regroupement de «[ euros[ et «>= 1000 euros» : leurs taux d impayés sont moins proches mais la 2 e modalité est trop petite pour rester seule On pourrait même regrouper ces deux modalités avec «Pas d épargne» Table de Epargne par Cible Epargne Cible FREQUENCE Pourcentage Pct en ligne OK KO Total Pas d'épargne < [ euros[ [ euros[ >= 1000 euros Total /10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 62

63 Autre exemple de regroupement de modalités Le regroupement des modalités «Locataire» et «Logement gratuit» est évident Elles sont associées à des taux d impayés proches et élevés (39,11% et 40,74%) Les propriétaires sont moins risqués, surtout s ils ont fini leur emprunt, mais pas seulement dans ce cas, car ils sont généralement plus attentifs que la moyenne au bon remboursement de leur emprunt Table de Statut_domicile par Cible Statut_domicile Cible FREQUENCE Pourcentage Pct en ligne OK KO Total Locataire Propriétaire Logement gratuit Total /10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 63

64 Exploration avec une ACM 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 64

65 La sélection des variables 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 65

66 Importance de la sélection des variables Exemple de David Hand (2005) : régression avec un coeff. de corrélation 0,5 entre chaque prédicteur et la cible, et un coeff. de corrélation entre chaque prédicteur Les courbes représentent 1-R² (proportion de la somme des carrés non expliquée) en fonction du nb de prédicteurs 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 66

67 Limiter le nombre de variables sélectionnées En présence de colinéarité entre les prédicteurs, l apport marginal de chaque prédicteur décroît très vite Et pourtant, ici chaque prédicteur est supposé avoir la même liaison avec la cible, ce qui n est pas le cas dans une sélection pas à pas réelle où la liaison décroît! Conclusion : Éviter au maximum la colinéarité des prédicteurs Limiter le nombre de prédicteurs : souvent moins de 10 Alternative : la régression PLS ou régularisée (ridge ) Remarque : Dans une procédure pas à pas, le 1 er prédicteur peut occulter un autre prédicteur plus intéressant 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 67

68 Sur-apprentissage en régression (A) Modèle trop simp le (B) B on modèle (C) Modèle trop complexe Un modèle trop poussé dans la phase d apprentissage : épouse toutes les fluctuations de l échantillon d apprentissage, détecte ainsi de fausses liaisons, et les applique à tort sur d autres échantillons 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 68

69 Sur-apprentissage en classement (C) Modèle trop complexe (B) Bon modèle Source : Olivier Bousquet 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 69

70 Taux d erreur en fonction de la complexité du modèle taux d'erreur mauvaise généralisation données de test et d'application bonne généralisation données apprentissage (A) (B) arrêter ici (C) taille du modèle Théorème de Vapnik : R R emp h (log( 2n / h) 1) log( / 4) n 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 70

71 Rappel sur les tests Tests paramétriques supposent que les variables suivent une loi particulière (normalité, homoscédasticité) ex : test de Student, ANOVA Tests non-paramétriques ne supposent pas que les variables suivent une loi particulière se fondent souvent sur les rangs des valeurs des variables plutôt que sur les valeurs elles-mêmes peu sensibles aux valeurs aberrantes ex : test de Wilcoxon-Mann-Whitney, test de Kruskal-Wallis Exemple du r de Pearson et du de Spearman : r > présence de valeurs extrêmes? > r liaison non linéaire non détectée par Pearson? ex : x = 1, 2, 3 et y = e 1, e 2, e 3 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 71

72 Liaison entre une variable continue et une variable de classe lois suivies 2 échantillons 3 échantillons et plus (***) normalité homoscédasticité (*) test T de Student ANOVA normalité hétéroscédasticité test T de Welch Welch - ANOVA non normalité hétéroscédasticité (**) Wilcoxon Mann Whitney Kruskal Wallis non normalité hétéroscédasticité (**) test de la médiane test de la médiane non normalité hétéroscédasticité (**) test de Jonckheere-Terpstra moins puissant (échantillons ordonnés) (*) Ces tests supportent mieux la non-normalité que l hétéroscédasticité. (**) Ces tests travaillant sur les rangs et non sur les valeurs elles-mêmes, ils sont plus robustes et s appliquent également à des variables ordinales (***) ne pas comparer toutes les paires par des tests T on détecte à tort des différences significatives (au seuil de 95 % : dans 27 % des cas pour 4 moyennes égales) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 72

73 Tableau ANOVA et statistique F Source de variation Somme des carrés (SC) Degrés de liberté (dl) Carré moyen (CM) F Totale Intraclasse Interclasse k i1 n i (Yij Y) i 1 j1 k n i ( Y i Y ) k i1 n 2 i (Yi j Yi) j1 2 2 n - 1 k - 1 n - k SC/dl SC/dl SC/dl CM interclasse CM intraclasse CM inter /CM intra = F à comparer au F d une loi de Fisher de ddl (k-1,n-k) η² = SC interclasse / SC totale = proportion de la variance expliquée 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 73

74 Principe du test ANOVA On appelle «analyse de la variance» ce qui est en fait un test d égalité de la moyenne, en raison de la façon de réaliser ce test, qui consiste à décomposer la variance de la variable continue Y en 2 parties : ce qui peut être attribué aux différences entre groupes (variance inter-classe) ce qui peut être attribué aux variations aléatoires (variance intra-classe, appelée «erreur») Si CM inter /CM intra = est grand, c.a.d. si les variations aléatoires sont faibles par rapport à l effet des différences entre classes, on peut rejeter H 0 Cela se produit quand CM inter /CM intra dépasse la valeur critique de la loi de Fisher au niveau avec k 1 et n k degrés de liberté 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 74

75 Statistique de Mann-Whitney Utilisée pour k = 2 groupes, d effectifs n 1 et n 2 quand les hypothèses de normalité et d égalité des variances ne sont pas satisfaites Soit R i = somme des rangs des observations du groupe i La statistique du test comparée à une valeur théorique est: n1 n1 1 n2n2 1 U min n1n 2 R1, n1n 2 R2 2 2 Avec les observations des 2 groupes G 1 et G 2 : G 1 : G 2 : On obtient les rangs G 1 : G 2 : U 1 = nb de fois où une valeur du groupe 1 précède une valeur du groupe 2 D où R 1 = 18, R 2 = 27, U = min( , ) = 3 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 75

76 Test non-paramétrique de Wilcoxon- Mann-Whitney Statistique de la somme des rangs de Wilcoxon = R i où i est soit le 1 er, soit le plus petit (dans SAS) groupe Les groupes sont d autant plus significativement différents : que le U de Mann-Whitney est petit que le S de Wilcoxon est très grand ou très petit À chacune de ces statistiques est associé un test dont l hypothèse nulle est que les rangs du groupe 1 ne diffèrent pas des rangs du groupe 2 les tests sont équivalents test de Wilcoxon-Mann-Whitney On peut : comparer U et S à des valeurs lues en table ou, si n 1 et n 2 > 8, utiliser la convergence sous H 0 vers une loi normale N(,) et calculer Z = (U-)/ et Z 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 76

77 Test non-paramétrique de Kruskal-Wallis Utilisé pour k 2 groupes quand les hypothèses de normalité et d égalité des variances ne sont pas satisfaites Soient N = nb d observations, n i l effectif du groupe i et R i la somme des rangs des observations du groupe i La statistique du test est : 2 12 k Ri H 3( N 1) N ( N 1) i1 ni Correctif à apporter en cas d égalités de rangs Si les effectifs sont grands ou si k > 6, H tend vers ² à k 1 d de liberté sinon, regarder valeurs critiques dans une table 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 77

78 Tests non-paramétriques sur SAS La PROC NPAR1WAY de SAS permet d'effectuer le test de Kruskal-Wallis et de Wilcoxon-Mann-Whitney (si k = 2) PROC NPAR1WAY WILCOXON DATA=table CORRECT=no ; CLASS a ; /* variable de groupe */ VAR x ; /* variable quantitative */ EXACT ; /* test exact facultatif */ RUN ; Autres options que WILCOXON : ANOVA : anova classique EDF : tests de Kolmogorov-Smirnov et Cramer-von Mises, et, si 2 niveaux de classification seulement, statistique de Kuiper MEDIAN : test de la médiane 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 78

79 Résultats des tests avec option WILCOXON Wilcoxon Two-Sample Test Statistic (S) Normal Approximation Z One-Sided Pr > Z Two-Sided Pr > Z t Approximation a Wilcoxon Scores (Rank Sums) for Variable x Classified by Variable a N Sum of Scores Expected Under H0 Std Dev Under H0 Mean Score Kruskal-Wallis Test Chi-Square DF 1 Pr > Chi- Square One-Sided Pr > Z Two-Sided Pr > Z Exact Test One-Sided Pr >= S Two-Sided Pr >= S - Mean n 1, n 2, R 1 et R 2 permettent de calculer U de Mann-Whitney test non significatif : pas de différences entre les deux groupes 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 79

80 Sélection des variables explicatives Dans la sélection des variables discriminantes d un modèle, le test de Kruskal-Wallis est souvent plus apte que l ANOVA paramétrique à détecter des variables qui seront efficaces, une fois mises en classes, dans une régression logistique notamment les variables hautement non normales que sont les ratios X/Y Idée de présentation des variables discriminantes : variable ² KW rang KW R² rang R² ² CHAID nb nœuds CHAID ddl proba CHAID R² = des carrés interclasse / totale des carrés ² KW = ² de Kruskal-Wallis (à 1 d de liberté) rang CHAID X 2613, , , ,3606E Y 2045, , , ,0218E Z 1606, , , ,8063E , , , ,3272E rang CART 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 80

81 Sélection des variables explicatives En présence de corrélation entre les prédicteurs, l apport marginal de chaque prédicteur décroît très vite Il peut même altérer le modèle (inversions de signes des paramètres) et réduire son pouvoir prédictif On préfère souvent un prédicteur moins lié à la variable à expliquer mais moins corrélé aux autres On limite le nombre de prédicteurs : moins de 10 dans la plupart des modèles de score On effectue des tests statistiques de corrélation Il est plus facile de limiter le nombre de prédicteurs si la population est homogène 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 81

82 Automatisation de la sélection Avec l ODS de SAS ou l OMS de SPSS : ODS OUTPUT KruskalWallisTest = kruskal ; PROC NPAR1WAY WILCOXON DATA = exemple; CLASS segment ; VAR &var ; DATA kruskal (keep = Variable nvalue1 RENAME=(nValue1=KWallis)) ; SET kruskal ; WHERE name1 = '_KW_' ; PROC SORT DATA = kruskal ; BY DESCENDING KWallis ; RUN; OMS /SELECT TABLES /IF COMMANDS = ["NPar Tests"] SUBTYPES = ["Kruskal Wallis Test Statistics"] /DESTINATION FORMAT = SAV OUTFILE = "C:\temp\kw.sav" /COLUMNS DIMNAMES=['Statistics']. NPAR TESTS /K-W=!var BY segment (0 1) /MISSING ANALYSIS. OMSEND. GET FILE = "C:\temp\kw.sav". SELECT IF(Var1 = 'Khi-deux'). EXE. SORT CASES Var3 (D). SAVE OUTFILE = "C:\temp\kw.sav" /KEEP=Var2 Var3. 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 82

83 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 Comptes Exemple de liste des variables Liste des variables par liaison décroissante avec la variable à expliquer Ici les variables sont qualitatives et la liaison mesurée par le V de Cramer Historique_credit Duree_credit Epargne Objet_credit Montant_credit Biens Anciennete_emploi Statut_domicile Age Autres_credits Situation_familiale Garanties Taux_effort Nb_credits Type_emploi Telephone Anciennete_domicile Nb_pers_charge Obs V_Cramer Variable Comptes Historique_credit Duree_credit Epargne Objet_credit Montant_credit Biens Anciennete_emploi Statut_domicile Age Autres_credits Situation_familiale Garanties Taux_effort Nb_credits Type_emploi Telephone Anciennete_domicile 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes Nb_pers_charge

84 Pourquoi le V de Cramer? Classe 1 Classe 2 Ensemble Effectifs observés : A B Total Effectifs attendus si la variable est indépendante de la classe : A B Total Probabilité du ² = 0, Classe 1 Classe 2 Ensemble Effectifs observés : A B Total Effectifs attendus si la variable est indépendante de la classe : A B Total Probabilité du ² = 4, Quand la taille de la population augmente, le moindre écart devient significatif aux seuils usuels 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 84

85 Le V de Cramer V de Cramer = 2 2 max mesure directement l'intensité de la liaison de 2 variables catégorielles, sans avoir recours à une table du ² en intégrant l effectif et le nombre de degrés de liberté, par l'intermédiaire de ² max ² max = effectif x [min (nb lignes, nb colonnes) 1] V compris entre 0 (liaison nulle) et 1 (liaison parfaite) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 85

86 Sélection des variables : bootstrap On effectue une régression logistique stepwise sur chacun des échantillons bootstrap Variable Nb occurrences Variable Nb occurrences Constante 50 V25 7 V05 46 V26 7 V09 39 V15 6 V14 37 V12 5 V01 35 V29 5 V03 34 V31 5 V13 28 V10 4 V02 23 V20 4 V04 22 V06 2 V18 18 V16 2 V22 18 V32 2 V19 16 V37 2 V17 15 V11 1 V24 14 V21 1 V08 13 V23 1 V36 12 V27 1 V28 11 V34 1 V07 10 V35 1 Bootstrap : B tirages aléatoires avec remise de n individus parmi n et sélection de variables sur chacun des B échantillons bootstrap C o n s t a n t V 0 e 5 V 0 9 V V 1 V V 1 V V V seuil V V 2 V V 1 V 2 1 V 2 V 9 0 V V V V V seuil V 2 9 V V V V V 1 6 V 3 2 V V V 2 1 V 2 3 V 2 7 V 3 4 V /10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 86

87 Sélection des variables : classification à l aide d une ACP avec rotation R-squared with Own Next 1-R**2 Variable Cluster Variable Cluster Closest Ratio Label Cluster 1 nbpoints nb points fidélité nbproduits nb produits nbachats nb achats revenus revenus du client abonnement abonnement autre service utilcredit règlements à crédit Cluster 2 age âge relation relation (ancienneté client) evolconsom évolution consommation PROC VARCLUS DATA=fichier_client; VAR age relation nbpoints nbproduits nbachats revenus abonnement evolconsom utilcredit; RUN; 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 87

88 ACP avec rotation pour la classification de variables La procédure VARCLUS effectue une ACP avec rotation (quartimax) qui maximise la variance des coefficients de corrélation de chaque variable avec l ensemble des facteurs Au lieu de maximiser la somme des carrés des coefficients de corrélation De façon à minimiser le nombre de facteurs nécessaires pour expliquer chaque variable 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 88

89 La modélisation 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 89

90 Méthodes inductives : 4 étapes Apprentissage : construction du modèle sur un 1 er échantillon pour lequel on connaît la valeur de la variable cible Test : vérification du modèle sur un 2 d échantillon pour lequel on connaît la valeur de la variable cible, que l on compare à la valeur prédite par le modèle si le résultat du test est insuffisant (d après la matrice de confusion ou la courbe ROC), on recommence l apprentissage Validation du modèle sur un 3 e échantillon, pour avoir une idée du taux d erreur non biaisé du modèle Application du modèle à l ensemble de la population valeur prédite A B TOTAL valeur réelle A B TOTAL /10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 90

91 Phase de modélisation Régression logistique (généralité - concision - précision) logit = ( * liquidités) Analyse discriminante (simplicité concision précision) Arbre de décision + ( * mouvements) + ( * produits) - ( * patrimoine); score = exp(logit) / (1 + exp(logit)); (généralité lisibilité) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 91

92 Principales méthodes de scoring Analyse discriminante linéaire Résultat explicite P(Y/ X 1,, X p ) sous forme d une formule Requiert des X i continues et des lois X i /Y multinormales et homoscédastiques (attention aux «outliers») Optimale si les hypothèses sont remplies Régression logistique Sans hypothèse sur les lois X i /Y, X i peut être discret, nécessaire absence de colinéarité entre les X i Précision parfois légèrement inférieure à l analyse discriminante Arbres de décision Règles complètement explicites Traitent les données hétérogènes, éventuellement manquantes, sans hypothèses de distribution Détection de phénomènes non linéaires Moindre robustesse 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 92

93 Sur-apprentissage dans un arbre la scission des nœuds 9 et 10 manque de robustesse la différence entre les erreurs en test et en apprentissage est d autant plus petite que l échantillon d apprentissage est plus grand cohérent avec l inégalité de Vapnik sur l intervalle de confiance de l erreur de prédiction Intérêt du «bootstrap aggregating» (bagging) avec des méthodes relativement peu robustes comme les arbres de décision 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 93

94 Élagage d un arbre de décision taux d'erreur données de test et d'application données apprentissage élaguer ici profondeur arbre (nb de feuilles) Un bon arbre doit être élagué pour éviter la remontée du taux d erreur due au sur-apprentissage Dans l exemple précédent, il faut élaguer les feuilles 9 et 10 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 94

95 Paramètre Grille de score Passage de coefficients («Estimation») à des pondérations dont la somme est comprise entre 0 et 100 Variable Modalité Nb points Analyse des estimations de la vraisemblance maximum DF Estimation Erreur std Khi 2 de Wald Pr > Khi 2 Intercept <.0001 Comptes CC >= 200 euros Comptes CC < 0 euros <.0001 Comptes CC [0-200 euros[ <.0001 Comptes Pas de compte Historique_credit Crédits en impayé Historique_credit Crédits sans retard Historique_credit Jamais aucun crédit Duree_credit > 36 mois <.0001 Duree_credit mois <.0001 Duree_credit <= 15 mois Age <= 25 ans Age > 25 ans Epargne < 500 euros Epargne pas épargne ou > 500 euros Garanties Avec garant Garanties Sans garant Autres_credits Aucun crédit extérieur Autres_credits Crédits extérieurs Age > 25 ans 0 Age 25 ans 8 Autres_credits Aucun crédit extérieur 0 Autres_credits Crédits extérieurs 7 Comptes Pas de compte 0 Comptes CC 200 euros 13 Comptes CC [0-200 euros[ 19 Comptes CC < 0 euros 25 Duree_credit 15 mois 0 Duree_credit mois 13 Duree_credit > 36 mois 18 Epargne pas épargne ou > 500 euros 0 Epargne < 500 euros 8 Garanties Avec garant 0 Garanties Sans garant 21 Historique_credit Jamais aucun crédit 0 Historique_credit Crédits sans retard 6 Historique_credit Crédits en impayé 13 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 95

96 Exemples de notations Note d un jeune de moins de 25 ans, qui demande pour la première fois un crédit dans l établissement et qui n en a pas ailleurs, sans impayé, avec un compte dont le solde moyen est légèrement positif (mais < 200 ), avec un peu d épargne (< 500 ), sans garant, qui demande un crédit sur 36 mois : = 69 points Note d un demandeur de plus de 25 ans, avec des crédits à la concurrence, sans impayé, avec un compte dont le solde moyen est > 200, avec plus de 500 d épargne, sans garant, qui demande un crédit sur 12 mois : = 41 points On constate la facilité de l implémentation et du calcul du score 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 96

97 Découpage de la note de score On peut calculer les déciles du nombre de points et Table de dnbpoints par Cible leurs taux d impayés correspondants : Rang pour la variable nbpoints Analysis Variable : nbpoints N Obs Minimum Maximum Seuils de taux dnbpoints(rang pour la variable nbpoints) /10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 97 Cible FREQUENCE Pct en ligne OK KO Total Total

98 Taux d impayés par tranches de score Table de nbpoints par Cible nbpoints Cible FREQUENCE Pourcentage Pct en ligne OK KO Total risque faible [0, 48] points risque moyen [49, 69] points risque fort 70 points Total Tranche de risque faible : 8,69% d impayés octroi du crédit avec un minimum de formalités Tranche de risque moyen : 36,44% d impayés octroi du crédit selon la procédure standard Tranche de risque élevé : 63,64% d impayés octroi du crédit interdit sauf par l échelon hiérarchique supérieur (directeur d agence) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 98

99 Reprenons nos exemples Demandeur de moins de 25 ans, qui demande pour la première fois un crédit dans l établissement et qui n en a pas ailleurs, sans impayé, avec un compte dont le solde moyen est légèrement positif (mais < 200 ), avec un peu d épargne (< 500 ), sans garant, qui demande un crédit sur 36 mois : 69 points risque moyen On est à la limite du risque élevé et cette limite aurait été franchie avec un crédit sur plus de 36 mois Demandeur de plus de 25 ans, avec des crédits à la concurrence, sans impayé, avec un compte dont le solde moyen est > 200, avec plus de 500 d épargne, sans garant, qui demande un crédit sur 12 mois : 41 points risque faible 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 99

100 Exemple de prédiction des impayés à 12 mois 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 5,61 7,64 10,46 50,3 17,27 26,8 22,37 32,23 17,45 5,67 3,41 0,8 % clients % impayés Score 1 Score 2 Score 3 Score 4 Score 5 Score 6 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 100

101 Les résultats du modèle retenu (autre exemple) 50,00% 45,00% 40,00% 35,00% 30,00% 25,00% 20,00% 15,00% 10,00% 5,00% 0,00% taux souscription 0,10% 0,22% 0,67% 0,86% 1,38% 2,15% 3,23% 9,37% 21,08% 44,76% 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 101

102 La mesure du pouvoir discriminant 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 102

103 Validation des modèles Étape très importante car des modèles peuvent : donner de faux résultats (données non fiables) mal se généraliser dans l espace (autre échantillon) ou le temps (échantillon postérieur) sur-apprentissage être peu efficaces (trop de faux positifs) être incompréhensibles ou inacceptables par les utilisateurs souvent en raison des variables utilisées Principaux outils de comparaison : matrices de confusion, courbes ROC, de lift, et indices associés Courbe ROC : proportion y de vrais positifs en fonction de la proportion x de faux positifs 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 103

104 Sensibilité et spécificité Pour un score devant discriminer un groupe A (les positifs; ex : les risqués) par rapport à un autre groupe B (les négatifs ; ex : les non risqués), on définit 2 fonctions du seuil de séparation s du score : sensibilité = (s) = Proba(score s / A) = probabilité de bien détecter un positif spécificité = (s) = Proba(score < s / B) = probabilité de bien détecter un négatif Pour un modèle, on cherche s qui maximise (s) tout en minimisant les faux positifs 1 - (s) = Proba(score s / B) faux positifs : négatifs considérés comme positifs à cause du score Le meilleur modèle : permet de capturer le plus possible de vrais positifs avec le moins possible de faux positifs 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 104

105 1,0 Courbe ROC,8,5 Source de la courbe Ligne de référence La courbe ROC sur l axe Y : sensibilité = (s) sur l axe X : 1 - spécificité = 1 - (s) proportion y de vrais positifs en fonction de la proportion x de faux positifs, lorsque l'on fait varier le seuil s du score Exemple : si la courbe ROC passe par le point (0,3;0,9), ce point correspond à un seuil s qui est tel que : si on considère «risqués» tous les individus dont le score s, on a détecté : 30% des non-risqués (30% des non-risqués ont un score s : ce sont les faux positifs) 90 % des vrais risqués (90 % des risqués ont un score s : ce sont les vrais positifs) NB : 0,3 ne correspond pas à 30 % de la population totale! 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 105,3 0,0 0,0,3,5,8 1,0 arbre de décision analys discriminante régress. logistique

106 True positive rate Exemple de courbe ROC # Classe Score # Classe Score 1 P 0,90 11 P 0,40 2 P 0,80 12 N 0,39 3 N 0,70 13 P 0,38 4 P 0,65 14 P 0,37 5 P 0,60 15 N 0,35 6 P 0, ,000 N 0,30 7 P 0,50 17 N 0,25 8 N 0,45 18,900 P 0,20 9 N 0,44 19 N 0,15, N 0,42 20 N 0,10,700 0,50,600,500 0,40 0,42 0,37 0,25 0,15 0,10,400,300,200 0,70,100,000,000,100,200,300,400,500,600,700,800,900 1,000 14/10/2011 Stéphane Tufféry - Usage réservé à l Université False positive Rennes rate 1 106

107 taux de vrais positifs Interprétation de la courbe ROC prédiction parfaite seuil s minimum : tous classés en + seuil s maximum : tous classés en - prédiction nulle taux de faux positifs 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 107

108 Matrice de confusion et courbe ROC Tableau de classement a Prévu Observé CHD 0 1 Pourcentage global a. La valeur de césure est,500 CHD Pourcentage 0 1 correct , ,8 72,0 Sensibilité = 27/43 = 0,63 Seuil à 0,5 (= césure de la matrice de confusion) 1 - Spécificité = 1-(45/57) = 0,21 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 108

109 Matrice de confusion (avec SAS) Niveau de prob. prédit Événement Table de classification Correct Incorrect Pourcentages Événement Nonévénement Nonévénement Correct Sensibilité Spécificité POS fausse NEG fausse Observé 0 1 total total Correct = ( ) / 100 = 72 % Sensibilité = 27 / 43 = 62,8 % Spécificité = 45 / 57 = 78,9 % POS fausse = 12 / 39 = 30,8 % NEG fausse = 16 / 61 = 26,2 % 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 109

110 Courbes ROC avec entrée progressive des variables du modèle Sensi bi l i t é _step_ = _step_ = Rapprocher l apport de plus en plus faible de chaque variable avec la remarque de David Hand Spéci f i ci t é 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 110

111 AUC : Aire sous la courbe ROC Aire AUC sous la courbe ROC = probabilité que score(x) > score(y), si x est tiré au hasard dans le groupe A (à prédire) et y dans le groupe B 1 ère méthode d estimation : par la méthode des trapèzes 2 e méthode d estimation : par les paires concordantes soit n 1 (resp. n 2 ) le nb d observations dans A (resp. B) on s intéresse aux n 1 n 2 paires formées d un x dans A et d un y dans B parmi ces t paires : on a concordance si score(x) > score(y) ; discordance si score(x) < score(y) soient nc = nb de paires concordantes ; nd = nb de paires discordantes ; n 1 n 2 - nc - nd = nb d ex aequo aire sous la courbe ROC (nc + 0,5[t - nc - nd]) / n 1 n 2 3 e méthode équivalente : par le test de Mann-Whitney U = n 1 n 2 (1 AUC) ou n 1 n 2 AUC 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 111

112 AUC : calcul avec SAS ODS OUTPUT WilcoxonScores = wilcoxon; PROC NPAR1WAY WILCOXON DATA=&data CORRECT=no; CLASS &cible; VAR &score; RUN; DATA auc; SET wilcoxon; n2 = N; R2 = SumOfScores ; n1 = LAG(N); R1 = LAG(SumOfScores) ; u1 = (n1*n2) + (n1*(n1+1)/2) - R1 ; u2 = (n1*n2) + (n2*(n2+1)/2) - R2 ; u = MAX(u1,u2); AUC = ROUND(u/(n1*n2),0.001); RUN; PROC PRINT DATA=auc (KEEP = AUC) ; TITLE "Aire sous la courbe ROC de &data"; WHERE AUC >.; RUN; U est la statistique de Mann-Whitney, qui se déduit des effectifs n i et de la somme des rangs R i fournis par la proc NPAR1WAY de SAS n 1 n n 1 n U min n1n2 R1, n1n2 R2 2 2 nb de fois où un score du groupe 1 > un score du groupe 2 Obs Class N SumOfScores n2 R2 n1 R1 U1 U2 U AUC /10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 112

113 Utilisation de l AUC Le modèle est d'autant meilleur que l AUC est plus proche de 1 Si l'auc = 0,5 : modèle pas meilleur qu'une notation aléatoire. Il existe un intervalle de confiance sur l AUC et un test associé : Variable(s) de résultats tests arbre de décision régres sion logistique analy se disc riminante a. Dans l'hy pot hèse non-paramétrique b. Hy pothèse nulle /: zone v raie = 0.5 Permet de comparer des modèles de types différents sur tout échantillon Aire sous la courbe Interv alle de conf iance 95% asymptotique Signif. Borne Borne Zone Erreur Std ạ asy mptotique b inf érieure supérieure,887,008,000000,872,902,906,007,000000,892,921,889,008,000000,873,904 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 113

114 % d'individus répondants Courbe de lift La courbe de lift : sur l axe Y : sensibilité = (s) = Proba(score s / A) sur l axe X : Proba(score s) proportion de vrais positifs en fonction de la proportion d individus sélectionnés, en faisant varier le seuil s du score même ordonnée que la courbe ROC, mais une abscisse généralement plus grande > la courbe de lift est en général sous la courbe ROC Très utilisée en marketing 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes COURBE DE CONCENTRATION % d'indiv idus ciblés ciblage aléatoire ciblage par scoring ciblage idéal Lift = 40/10 = 4

115 Lien entre courbe de lift et ROC Relation entre l aire AUL sous la courbe de lift et l aire AUC : AUC AUL = p(auc 0,5) AUL = p/2 + (1 p)auc où p = Proba(A) = probabilité a priori de l événement dans la population (=0,25 dans l exemple précédent) Cas particuliers : AUC = 1 AUL = p/2 + (1 p) = 1 p/2 (modèle parfait!) AUC = 0,5 AUL = p/2 + 1/2 p/2 = 0,5 p petit AUC et AUL sont proches AUC 1 > AUC 2 AUL 1 > AUL 2 Ces indicateurs sont des comparaison de modèles critères universels de 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 115

116 Questionnaire adaptatif en scoring 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 116

117 Problème posé Soient Y la variable à expliquer, et X 1 X k les variables explicatives Y = +1 (bon payeur) ou -1 (mauvais payeur) On calcule p = P(Y=1 X i1 =x i1, X i2 =x i2...) pour un ensemble de variables dès que p > s 2 crédit octroyé dès que p < s 1 (avec s 1 < s 2 ) crédit refusé Étape 1 Pour chaque modalité x ij de chaque variable X i, on calcule P(Y=1 X i =x ij ) et on pose P i = j P(x ij ), la somme étant prise sur toutes les modalités x ij telles que P(Y=1 X i =x ij ) < s 1 ou > s 2 ce sont les modalités qui permettent immédiatement d octroyer ou de refuser le crédit 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 117

118 Étape 1 (suite) Déroulement du questionnaire La 1 ère question posée au demandeur de crédit correspondra à la variable X i maximisant P i c est celle qui maximise la probabilité de pouvoir arrêter le questionnaire du client et prendre une décision Si aucune variable X i n a de modalité telle que P(Y=1 X i =x ij ) < s 1 ou > s 2, on prend par exemple l âge, qui est parent de plusieurs autres variables sur lesquelles il influe (situation de famille, nombre d enfants, revenus ) Étape 2 Ayant obtenu du demandeur la réponse Q 1 à la 1 ère question, on recherche la 2 e variable X i qui maximise P i = j P(x ij Q 1 ), la somme étant prise sur toutes les modalités x ij de X i telles que P(Y=1 Q 1,X i =x ij ) < s 1 ou > s 2 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 118

119 Avantages et inconvénients Étape n A chaque étape, on sélectionne la variable (et donc la question) qui maximise la probabilité de pouvoir arrêter le questionnaire, compte tenu des réponses précédentes Fin du processus quand P(Y=1 Q1, Q2 ) est < s1 ou > s2 Cette méthode de scoring est dite «du questionnaire adaptatif» (Naïm et al., 2007) un peu moins précise qu une méthode traditionnelle la probabilité calculée sur un nombre partiel de réponses n est pas nécessairement égale à la probabilité calculée sur l ensemble des réponses (une très bonne réponse peut «repêcher» un dossier mal parti et vice versa) l existence de nombreux questionnaires incomplets dans la base rend problématique l élaboration des scores futurs mais cette méthode permet de minimiser le nombre de questions à poser au client et donc le temps d instruction méthode utilisée pour un score d octroi au crédit à la consommation utilisé en ligne sur Internet (en moyenne 8,5 questions posées sur les 14 possibles) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 119

120 Quelques principes du data mining 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 120

121 Les 8 principes de base de la modélisation La préparation des données est la phase la plus longue, pas la plus passionnante mais la plus importante Il faut un nombre suffisant d observations pour en inférer un modèle Validation sur un échantillon de test distinct de celui d apprentissage (ou validation croisée) Arbitrage entre la précision d un modèle et sa robustesse («dilemme biais variance») Limiter le nombre de variables explicatives et surtout éviter leur colinéarité Perdre parfois de l information pour en gagner découpage des variables continues en classes On modélise mieux des populations homogènes intérêt d une classification préalable à la modélisation La performance d un modèle dépend plus de la qualité des données et du type de problème que de la méthode 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 121

122 Qualités attendues d une technique prédictive 1/2 La précision le taux d erreur doit être le plus bas possible, et l aire sous la courbe ROC la plus proche possible de 1 La robustesse être le moins sensible possible aux fluctuations aléatoires de certaines variables et aux valeurs manquantes ne pas dépendre de l échantillon d apprentissage utilisé et bien se généraliser à d autres échantillons La concision les règles du modèle doivent être les plus simples et les moins nombreuses possible 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 122

123 Qualités attendues d une technique prédictive 2/2 Des résultats explicites les règles du modèle doivent être accessibles et compréhensibles La diversité des types de données manipulées toutes les méthodes ne sont pas aptes à traiter les données qualitatives, discrètes, continues et manquantes La rapidité de calcul du modèle un apprentissage trop long limite le nombre d essais possibles Les possibilités de paramétrage dans un classement, il est parfois intéressant de pouvoir pondérer les erreurs de classement, pour signifier, par exemple, qu il est plus grave de classer un patient malade en «non-malade» que l inverse 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 123

124 Choix d une méthode : nature des données explicatives à expliquer 1 quantitative (covariable) 1 quantitative rég. linéaire simple, régression robuste, arbres de décision n quantitatives (représentent des quantités ) 1 qualitative nominale ou binaire 1 discrète (comptage) 1 quantitative asymétrique 1 qualitative ordinale n quantitatives ou qualitatives régression PLS2 ADL, régression logistique, arbres de décision n quantitatives (covariables) rég. linéaire multiple, rég. robuste, PLS, arbres, réseaux de neurones régression PLS2, réseaux de neurones ADL, rég. logistique, reg. logistique PLS, arbres, réseaux de neurones, SVM 1 qualitative (facteur) ANOVA, arbres de décision MANOVA régression logistique, DISQUAL, arbres n qualitatives (facteurs) ANOVA, arbres de décision, réseaux de neurones MANOVA, réseaux de neurones régression logistique, DISQUAL, arbres, réseaux de neurones modèle linéaire généralisé (régression de Poisson, modèle log-linéaire) modèle linéaire généralisé (régressions gamma et log-normale) régression logistique ordinale (au moins 3 niveaux) modèle à mesures répétées mélange ANCOVA, arbres de décision, réseaux de neurones MANCOVA, réseaux de neurones régression logistique, arbres, réseaux de neurones 14/10/2011 (les Stéphane n variables Tufféry représentent - Usage des réservé mesures à l Université répétées d une Rennes même 1 quantité) 124

125 Choix d une méthode : précision, robustesse, concision, lisibilité Précision : privilégier la régression linéaire, l analyse discriminante et la régression logistique, et parfois les réseaux de neurones en prenant garde au surapprentissage (ne pas avoir trop de neurones dans la ou les couches cachées) Robustesse : éviter les arbres de décision et se méfier des réseaux de neurones, préférer une régression robuste à une régression linéaire par les moindres carrés Concision : privilégier la régression linéaire, l analyse discriminante et la régression logistique, ainsi que les arbres sans trop de feuilles Lisibilité : préférer les arbres de décision et prohiber les réseaux de neurones. La régression logistique, DISQUAL, l analyse discriminante linéaire et la régression linéaire fournissent aussi des modèles faciles à interpréter 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 125

126 Choix d une méthode : autres critères Peu de données : éviter les arbres de décision et les réseaux de neurones Données avec des valeurs manquantes : essayer de recourir à un arbre, à une régression PLS, ou à une régression logistique en codant les valeurs manquantes comme une classe particulière Les valeurs extrêmes de variables continues n affectent pas les arbres de décision, ni la régression logistique et DISQUAL quand les variables continues sont découpées en classes et les extrêmes placés dans 1 ou 2 classes Variables explicatives très nombreuses ou très corrélées : arbres de décision, régression régularisée ou PLS Mauvaise compréhension de la structure des données : réseaux de neurones (sinon exploiter la compréhension des données par d autres types de modèles) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 126

127 Choix d une méthode : topographie des classes à discriminer ? ? ? ? ? ? est classé en "1"? est classé en "0"? est classé en "0" Analyse discriminante Réseau de neurones Arbre de décision Toutes les méthodes inductives de classement découpent l espace des variables en régions, dont chacune est associée à une des classes La forme de ces régions dépend de la méthode employée 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 127

128 Influence des données et méthodes Pour un jeu de données fixé, les écarts entre les performances de différents modèles sont souvent faibles exemple de Gilbert Saporta sur des données d assurance automobile (on mesure l aire sous la courbe ROC) : régression logistique : 0,933 régression PLS : 0,933 analyse discriminante DISQUAL : 0,934 analyse discriminante barycentrique : 0,935 le choix de la méthode est parfois affaire d école Les performances d un modèle dépendent : un peu de la technique de modélisation employée beaucoup plus des données! D où l importance de la phase préliminaire d exploration et d analyse des données et même le travail (informatique) de collecte des données 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 128

129 L agrégation de modèles 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 129

130 Principe du bootstrap 1/4 Pb : estimation d un paramètre statistique défini dans une population globale et fonction d une loi statistique F ex : la moyenne = E(F) Or, la population et la loi F sont généralement inconnues d autant que la population peut être en évolution perpétuelle ou qu il peut exister des erreurs de mesure, de saisie Quand nous travaillons sur un jeu de données, il s agit presque toujours d un échantillon S = {x 1, x 2,, x n } tiré d une population globale inconnue et on cherche à approcher le paramètre par un estimateur défini sur S, cet estimateur étant obtenu en remplaçant la loi inconnue F par la loi «empirique», qui est la loi discrète donnant une probabilité 1/n à chaque x i 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 130

131 Principe du bootstrap 2/4 Cet estimateur est appelé estimateur «plug-in» On le note s(x) pour signifier qu il dépend de l échantillon n 1 ex : est un estimateur «plug-in» de la moyenne Si F est la loi normale de moyenne F et de d écart-type F, on connaît la distribution des estimateurs : elle suit la loi normale de moyenne F et de d écart-type F / n E( ) = on dit que est un estimateur sans biais. n i 1 x i ici, de plus, il est donné par une formule explicite, de même que son écart-type Plus généralement se pose la question de la précision et de la robustesse d un estimateur, i.e. de son biais et de son écart-type, généralement non explicites 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 131

132 Principe du bootstrap 3/4 Pour calculer l écart-type de l estimateur, il faudrait pouvoir déterminer l estimateur sur un grand nombre d échantillons S, S Or, souvent un seul échantillon S nous est donné Idée de Bradley Efron (1979) : reproduire le passage de la population à l échantillon S étudié, en faisant jouer à S = {x 1, x 2,, x n } le rôle d une nouvelle population et en obtenant les échantillons souhaités S, S par des tirages aléatoires avec remise des n individus x 1, x 2,, x n Échantillon bootstrap = échantillon obtenu par tirage avec remise de n individus parmi n Chaque x i peut être tiré plusieurs fois ou ne pas être tiré. Sa probabilité d être tiré est p = 1 (1 1/n) n, et p 0,632 quand n + 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 132

133 Principe du bootstrap 4/4 Pour avoir le biais et l écart-type de l estimateur d un paramètre statistique avec et F inconnues On tire B (souvent B 100) échantillons bootstrap on calcule sur chacun d eux l estimateur «plug-in» on obtient une distribution des estimateurs «plug-in» B 1 * b centrée autour de la moyenne B b 1 on déduit un écart-type qui fournit l approximation recherchée de l écart-type de l estimateur on peut déduire un intervalle de confiance [Q 2,5 ; Q 97,5 ] à 95 % de l estimateur en regardant la 25 e plus faible valeur Q 2,5 et la 25 e plus forte valeur Q 97,5 de l estimateur bootstrap le biais = différence entre l estimateur calculé sur S et la moyenne des estimateurs bootstrap 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 133

134 Application au scoring Les paramètres que l on cherche à estimer sont : le taux d erreur (ou de bon classement) ou une autre mesure de performance du modèle de score (aire sous la courbe ROC, indice de Gini ) les coefficients de la fonction de score les prédictions (probabilités a posteriori d appartenance à chaque classe à prédire) La population globale sur laquelle devrait être construit le modèle est inconnue : on tire B échantillons bootstrap à partir de l échantillon initial puis on construit un modèle sur chaque échantillon on obtient des intervalles de confiance des indicateurs de performance (ex : aire sous la courbe ROC) du modèle 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 134

135 Rééchantillonnage boostrap et bagging 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 135

136 Biais des estimations NB : la moyenne des taux d erreur sur les échantillons bootstrap est une estimation biaisée par optimisme Une variante consiste à calculer les erreurs sur les seuls individus n appartenant pas à l échantillon bootstrap : c est l estimation «out-of-bag» Comme cette estimation est cette fois-ci biaisée par pessimisme, Efron et Tibshirani ont proposé de pallier simultanément le biais optimiste de l estimation de la resubstitution et le biais pessimiste du bootstrap «outof-bag» par la «formule magique» du «.632- bootstrap» : Estimation.632 = 0,368 x estimation(resubstitution) + 0,632 x estimation(bootstrap-oob) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 136

137 Rééchantillonnage boostrap avec estimation «out-of-bag» «Formule magique» du «.632- bootstrap» (Efron et Tibshirani) : Estimation.632 = 0,368 x estimation(resubstitution) + 0,632 x estimation(bootstrap-oob) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 137

138 Agrégation de modèles : le bagging BAGGING : Bootstrap AGGregatING, Breiman, 1996 Construction d une famille de modèles sur n échantillons bootstrap (tirages avec remise) Le classifieur de base est le même à chaque itération : CART, CHAID, modèle logit Les n modèles sont enfin agrégés par un vote ou une moyenne des estimations (ou une moyenne des probabilités en régression logistique) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 138

139 Exemple de performances du bagging sur un arbre CHAID Aire sous la courbe ROC 0,780 0,760 0,740 0,720 0,700 0,680 0,660 0,640 0, Nombre d'échantillons bootstrap AUC validation (leaf = 50 - maxdepth = 3) AUC validation (leaf = maxdepth = 3) AUC validation (leaf = 25 - maxdepth = 3) AUC validation (leaf = 50 - maxdepth = 1) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 139

140 Constats sur le bagging de CHAID Premiers constats au vu des tests sur le jeu de données Assurance TIC ( Détails et code SAS dans : Tufféry, Étude de cas en statistique décisionnelle, Éditions Technip, 2009 L arbre à un seul niveau voit sa performance améliorée par le bagging tout en restant limitée (mais supérieure à celle d un arbre de profondeur 3 non baggé) A profondeur égale (= 3), un arbre avec des effectifs minima de feuilles (leaf) = 25 est dans un premier temps moins robuste et a une AUC plus faible en test qu avec leaf = 50 (leaf = 100 donne un arbre moins précis) En revanche, les trois courbes d AUC en fonction du nombre de tirages converge vers une valeur commune (0,760) qui est bien plus élevée que les AUC initiales 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 140

141 Effet du bagging selon la force du classifieur de base Aire sous la courbe ROC 0,770 0,760 0,750 0,740 0,730 0,720 0,710 0, Nombre d'échantillons bootstrap AUC validation CHAID (leaf = 50) AUC validation logit AUC validation ADL 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 141

142 Constats sur le bagging Pour la régression logit et l analyse discriminante linéaire (ADL), on a baggé le modèle en prenant chaque fois les mêmes variables (celles du modèle de base) sans opérer de sélection à chaque itération, afin d avoir les mêmes variables dans chaque modèle agrégé, et pouvoir considérer le modèle final comme celui dont les coefficients sont les moyennes des coefficients de chaque modèle agrégé On constate que le logit et l ADL ne gagnent pas au bagging C est généralement le cas des classifieurs «forts» (robustes = faible variance) Les classifieurs «faibles» que sont les arbres gagnent au bagging mais voient leur structure simple détruite (un agrégat d arbre n est plus un arbre) ce qui peut en diminuer l intérêt et rendre plus difficile l utilisation 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 142

143 Agrégation de modèles : les forêts aléatoires Forêts aléatoires, Breiman, 2001 = Bagging pour les arbres de décision en ajoutant un tirage aléatoire d un sous-ensemble parmi l ensemble des variables explicatives Évite de voir apparaître toujours les mêmes variables Chaque arbre élémentaire est moins performant mais l agrégation peut conduire à un modèle agrégé plus performant Efficace sur les souches («stumps»), arbres à 2 feuilles contrairement au simple bagging Breiman suggère un sous-ensemble de p variables (racine du nombre total de variables explicatives) 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 143

144 Agrégation de modèles : le boosting BOOSTING, Freund et Schapire, 1996 Version adaptative et généralement déterministe du Bagging : on travaille sur toute la population et à chaque itération, on augmente le poids des individus mal classés dans les itérations précédentes tandis que le poids des bien classés n augmente pas Nombreux algorithmes : Discrete AdaBoost, Real AdaBoost, LogitBoost, Gentle AdaBoost et Arcing (Adaptative Resampling and Combining) Avec CART, le nb de feuilles est à prendre dans [4,8] ou = p, où p = nb de variables explicatives 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 144

145 Illustration (Robert Schapire) Extrait d une conférence visible ici : 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 145

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Présentation de l auteur En charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 à l Université

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

COURS DE DATA MINING

COURS DE DATA MINING COURS DE DATA MINING Stéphane TUFFERY Université Rennes 1 Master 2 Ingénierie économique et financière 7 février 2014 07/02/2014 Stéphane Tufféry - Usage réservé à l Université Rennes 1 1 Présentation

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Méthodes d apprentissage statistique «Machine Learning»

Méthodes d apprentissage statistique «Machine Learning» Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Plan de la séance 3 : Le risque de crédit (1) Les opérations de crédit Définition d un crédit La décision de crédit Les crédits aux petites

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

(Customer Relationship Management, «Gestion de la Relation Client»)

(Customer Relationship Management, «Gestion de la Relation Client») (Customer Relationship Management, «Gestion de la Relation Client») Les Banques et sociétés d assurance sont aujourd'hui confrontées à une concurrence de plus en plus vive et leur stratégie " clientèle

Plus en détail

LE PETIT RELATION CLIENT. Les pratiques clés en 15 fiches. Nathalie Houver

LE PETIT RELATION CLIENT. Les pratiques clés en 15 fiches. Nathalie Houver LE PETIT 2014 RELATION CLIENT Les pratiques clés en 15 fiches Nathalie Houver Dunod, Paris, 2014 ISBN 978-2-10-070826-0 Table des matières LA PRÉPARATION DE LA RELATION COMMERCIALE FICHE 1 Acquérir la

Plus en détail

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. Synthèse des travaux réalisés 1. Problématique La question D7 du plan d exécution du Programme National de Recherches

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Etude de marché. Idée de depart. Etude de l environnement et des offres existantes. Clients. actuels. Choix de la cible précise

Etude de marché. Idée de depart. Etude de l environnement et des offres existantes. Clients. actuels. Choix de la cible précise Etude de marché Selon l Agence Pour la Création d Entreprise (APCE), 70% des cas de défaillance ont pour origine la mauvaise qualité des études de marché, que celles-ci soient mal réalisées ou de manière

Plus en détail

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage, SYNTHÈSE DU CHAPITRE 11 : LA SEGMENTATION DE LA DEMANDE. La segmentation. La segmentation de la demande consiste à définir des groupes de clients (des segments de clientèle) ayant des comportements homogènes

Plus en détail

L analyse de la gestion de la clientèle

L analyse de la gestion de la clientèle chapitre 1 - La connaissance du client * Techniques utilisées : observation, recherche documentaire, études de cas, études qualitatives (entretiens de groupes ou individuels, tests projectifs, analyses

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

Journées d études IARD

Journées d études IARD Journées d études IARD Gestion des risques liés à la refonte tarifaire d un portefeuille automobile Niort, le 20 mars 2014 Marie Foucher mfoucher@galea-associes.eu Pierre Thérond ptherond@galea-associes.eu

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... 3 Introduction... 3 Échelle Interactive... 4 Navigation

Plus en détail

Complet Intuitif Efficace. Références

Complet Intuitif Efficace. Références Logiciel de référence en Analyse de Données, Data Mining et Text Mining pour transformer vos données en connaissance Complet Intuitif Efficace Dans un environnement convivial et intuitif, disposez de toute

Plus en détail

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! "##$ % &!

 # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! ##$ % &! "# $ %%& ' ( )*+, '()*+,'+''-++.+/0112134+1.50*406 "##$ %& 8CC "#$%& ' ( )* +,-./ 0 123 456+7 3 7-55-89.*/ 0 +3 *+:3 ;< =3 3-3 8 0 23 >-8-3 >5? //*/*0;* @A: *53,,3 / * $/ >B+? - 5, 2 34*56 7 /+#** //8

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring»

Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring» Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring» Ce cas a pour objectif d étudier le risque de crédit d une entreprise à l aide de la méthode du scoring. Cette méthode statistique

Plus en détail

Le scoring est-il la nouvelle révolution du microcrédit?

Le scoring est-il la nouvelle révolution du microcrédit? Retour au sommaire Le scoring est-il la nouvelle révolution du microcrédit? BIM n 32-01 octobre 2002 Frédéric DE SOUSA-SANTOS Le BIM de cette semaine se propose de vous présenter un ouvrage de Mark Schreiner

Plus en détail

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre. Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences

Plus en détail

IBM SPSS Direct Marketing

IBM SPSS Direct Marketing IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus

Plus en détail

Cybermarché et analyse comportementale

Cybermarché et analyse comportementale Cybermarché et analyse comportementale Antoine-Eric Sammartino aesammartino@e-laser.fr Séminaire Data Mining - Educasoft Formations 18 juin 2001-1- MENU Le Groupe LaSer Le processus Data Mining L industrialisation

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1 Table des matières PARTIE 1 1. Résumé

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Comment évaluer une banque?

Comment évaluer une banque? Comment évaluer une banque? L évaluation d une banque est basée sur les mêmes principes généraux que n importe quelle autre entreprise : une banque vaut les flux qu elle est susceptible de rapporter dans

Plus en détail

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes STA108 Enquêtes et sondages Sondages àplusieurs degrés et par grappes Philippe Périé, novembre 2011 Sondages àplusieurs degrés et par grappes Introduction Sondages à plusieurs degrés Tirage des unités

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013 ENSEIGNEMENT ET MONDE PROFESSIONNEL Illustration d un lien fort au travers d un cours de scoring Jean-Philippe KIENNER 7 novembre 2013 CONTEXTE Une bonne insertion professionnelle des étudiants passe par

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Surabondance d information

Surabondance d information Surabondance d information Comment le manager d'entreprise d'assurance peut-il en tirer profit pour définir les stratégies gagnantes de demain dans un marché toujours plus exigeant Petit-déjeuner du 25/09/2013

Plus en détail