Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
|
|
- Claire Baril
- il y a 8 ans
- Total affichages :
Transcription
1 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI
2 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage et mise en forme des données Étude statistique de la base d analyse Mise en oeuvre des algorithmes (classification, scoring ) Élaboration des modèles Validation et choix d un modèle Déploiement du modèle Formation des utilisateurs Suivi des modèles
3 3 Définition des objectifs Définir précisément le sujet et certains critères essentiels (variable cible). Exemple : «client à risque» et «client sans risque» Définir la population cible - tous les clients, les clients actifs, les prospects aussi - unité statistique : individu, famille, entreprise, groupe Déterminer la période à étudier Le sujet doit faire partie des objectifs de l entreprise et lui apporter un avantage réel Les objectifs doivent être réalistes (tenir compte des actions passées et de la saturation du marché) Prévoir l utilisation opérationnelle des modèles produits - forme de la restitution, périodicité de mise à jour, suivi
4 4 Inventaire des données utiles Recenser avec les spécialistes métier et les informaticiens, les données utiles : - accessibles raisonnablement - fiables - suffisamment à jour - légalement utilisables Il y a les données : - du système d information (SI) de l entreprise - stockées dans l entreprise, hors du SI (fichiers Excel...) - achetées ou récupérées à l extérieur de l entreprise - calculées à partir des données précédentes (indicateurs, ratios, évolutions au cours du temps)
5 5 Données à ne pas utiliser Non fiables - trop de valeurs aberrantes ou manquantes Disponibles sur une durée trop courte - soumises aux variations saisonnières Redondantes - dont le poids est artificiellement augmenté, ou dont la colinéarité rend instable les résultats de certaines méthodes Non pertinentes - qu il faut remplacer par de nouveaux indicateurs Trop peu corrélées à l objectif de l étude - qui créent du «bruit», des fluctuations aléatoires
6 6 Sélection des données à utiliser Choix des variables les plus discriminantes : test du χ², test de la variance paramétrique (ANOVA) Transformation des variables (recodage, normalisation par un logarithme ou une racine carrée) - permet de se rapprocher d une loi normale (var. quantitative) - permet de diminuer le nb de modalités (var. qualitative) Choix des discrétisations (découpage des var. continues) ex : en fonction de la variable cible, à la main. Choix des variables les moins corrélées entre elles : tests de multicolinéarité
7 7 Création de nouvelles variables Création d indicateurs pertinents (maxima, moyennes, présence/absence ) Calcul de ratios Calcul d évolutions temporelles de variables Création de durées, d anciennetés à partir de dates Croisement de variables, interactions Utilisation de coordonnées factorielles : pour obtenir presque autant d information avec moins de variables
8 8 Pour l élaboration des modèles prédictifs (Facultatif) Pré-segmentation (classification) de la population étudiée : - en groupes distincts selon les données disponibles (clients / prospects) - en groupes statistiquement pertinents vis-à-vis des objectifs de l étude - selon certaines caractéristiques sociodémographiques (âge, profession ) si elles correspondent à des offres marketing spécifiques Partition des données en : - un échantillon d apprentissage - un échantillon de test
9 9 Construction modèle : méthodes inductives Apprentissage : construction du modèle sur un premier échantillon pour lequel on connaît la valeur de la variable cible Test : vérification du modèle sur un deuxième échantillon pour lequel on connaît la valeur de la variable cible, que l on compare à la valeur prédite par le modèle : si le résultat du test est insuffisant (d après la matrice de confusion ou la courbe ROC), on recommence l apprentissage Validation du modèle sur un troisième échantillon, pour avoir une idée du taux d erreur non biaisé du modèle Application du modèle à l ensemble de la population
10 10 Validation modèle Etape très importante car des modèles peuvent : - donner de faux résultats (données non fiables) - mal se généraliser dans l espace (autre échantillon) ou le temps (échantillon postérieur) - être incompréhensibles ou inacceptables par les utilisateurs souvent en raison des variables utilisées - ne pas correspondre aux attentes Principaux outils de comparaison : matrices de confusion, courbes ROC, de lift, et indices associés
11 11 Préparation des données
12 12 Les différents formats de données Données continues (ou d échelle) dont les valeurs forment un sous-ensemble infini de R (exemple : salaire) Données discrètes dont les valeurs forment un sous-ensemble fini ou infini de N (exemple : nombre d enfants) Données catégorielles (ou qualitatives) dont l ensemble des valeurs est fini ces valeurs sont numériques ou alphanumériques, mais quand elles sont numériques, ce ne sont que des codes et non des quantités (ex : PCS, n de département) Données textuelles lettres de réclamation, rapports, dépêches AFP
13 13 Précisions sur les formats Les données continues et discrètes sont des quantités : - on peut effectuer sur elles des opérations arithmétiques, - elles sont ordonnées (on peut les comparer par la relation d ordre <) Les données catégorielles ne sont pas des quantités - mais sont parfois ordonnées : on parle de données catégorielles ordinales (exemple : «faible, moyen, fort») - données ordinales souvent traitées comme données discrètes - Les données catégorielles nominales ne sont pas ordonnées Les données textuelles contiennent : - des abréviations - des fautes d orthographe ou de syntaxe - des ambiguïtés (termes dont le sens dépend d un contexte non facilement détectable automatiquement)
14 14 Analyse exploratoire des données Explorer la distribution des variables Vérifier la fiabilité des variables - valeurs incohérentes ou manquantes imputation ou suppression Détecter les valeurs extrêmes : voir si valeurs aberrantes à éliminer Variables continues : tester la normalité des variables (surtout si petits effectifs) et les transformer pour augmenter la normalité : test de Kolmogorov-Smirnov, test Shapiro-Wilk,.. Variables discrètes : regrouper certaines modalités trop nombreuses ou avec des effectifs trop petits (poids trop grand)
15 15 Analyse exploratoire des données Créer des indicateurs pertinents d après les données brutes - prendre l avis des spécialistes du secteur étudié - exemple : date de naissance + date 1er achat âge du client au moment de son entrée en relation avec l entreprise Détecter les liaisons entre variables - entre variables explicatives et à expliquer (bon) - entre variables explicatives entre elles (multicolinéarité : mauvais dans certaines méthodes)
16 16 Analyse des données : Analyse factorielle
17 17 L analyse en composantes principales (ACP) On possède un tableau rectangulaire de mesure dont les colonnes sont des variables quantitatives (mensurations, taux, ) et dont les lignes représentent des individus statistiques (unités élémentaires telles que des êtres humains, des pays, des années )
18 18 L analyse en composantes principales (ACP) Objectifs : extraire l essentiel de l information contenue dans le tableau de données et d en fournir une représentation se prêtant plus aisément à l interprétation. Principe de l ACP : - À partir de n variables initiales continues, construire m ( n) autres variables, appelées composantes principales, combinaisons linéaires des variables initiales, telles que : les CP sont ordonnées selon l information (variance) qu elles restituent, la 1ère étant celle qui restitue le plus d information les CP sont des vecteurs indépendants, c est-à-dire des variables non corrélées entre elles
19 19 Intérêt de l ACP Représentation assez fidèle des individus d une population en 2 ou 3 dimensions Localisation des grandes masses d individus Détection des individus exceptionnels et d éventuels groupes isolés d individus Détection des liaisons entre les variables Outil de réduction des dimensions d un problème - diminuer le nombre de variables étudiées sans perdre beaucoup d information - utile avant un réseau de neurones ou une classification
20 20 Obtention des composantes principales Les composantes principales : obtenues en exprimant les variables initiales selon de nouveaux axes, les axes principaux, qui sont les vecteurs propres de la matrice - des covariances si on a des données hétérogènes, avec des ordres de grandeur différents - des corrélations lorsque les unités de mesure ne sont pas les mêmes pour toutes les variables (Variables non centrées et réduits)
21 21 Etude de cas d un ACP Les données mesurent la consommation de protéines dans 25 pays européens par rapport à 9 groupes d aliments Variables : VR : viande rouge VB : viande blanche Strach : aliments à base de sucres lents (pâtes, riz, lentilles, pois chiche, pommes de terres,.)
22 22 Etude de cas d un ACP Deux critères empiriques pour sélectionner le nombre d axes : - Critère du coude : sur l évolution des valeurs propres, on observe un décrochement (coude) suivi d une décroissance régulière. On sélectionne les axes avant le décrochement - Critère de Kaiser: on ne retient les axes associés à des valeurs propre supérieures à 1 Conclusion : On retient 4 axes, qui représentent presque 86% de l inertie totale (on explique 86% de l information du tableau)
23 23 Construction des nuages de points projetés Chaque nuage de points (variables et individus) est construit en projection sur les plans factoriels : un plan factoriel est un repère du plan défini par deux des q axes factoriels retenus. L examen des plans factoriels permettra de visualiser les corrélations entre les variables et d identifier les groupes d individus ayant pris des valeurs proches sur certaines variables.
24 24 Construction des nuages de points projetés - Comment interpréter les axes factoriels? - Comment interpréter la proximité entre les points (individus et variables)?
25 25 Interprétation des axes Pour chaque axe retenu et chaque nuage, on regarde - Quelles sont les variables qui participent le plus à la formation de l axe (ce sont celles qui ont une grande coordonnée en valeur absolue sur l axe) - Quels sont les individus qui participent le plus à la formation de l axe. Outil de mesure : contributions des points (individus et variables) à l inertie de cet axe.
26 26 Interprétation des axes Contribution de l individu i à l inertie de l axe k : Pi : poids attribué à l individu i Cik : coordonnée de la projection orthogonale de l individu i sur l axe k Λk : valeur propre de l axe factoriel k En pratique: - On retient pour l interprétation les individus dont la contribution est > à la contribution moyenne (>1/n) - Si les individus à poids égaux, les individus contribuant :
27 27 Interprétation des axes Contribution de la variable j à l inertie de l axe factoriel k djk : coordonnée de la variable j sur l axe factoriel k En pratique: - On retient pour l interprétation les variables dont la contribution est > à la contribution moyenne (>1/p) - En ACP normée, ce sont les variables qui sont proches du bord Du cercle qui contribuent le plus
28 28 Interprétation des axes :synthèse L analyse se fera à l aide des individus et variables contribuant le plus à l axe : si une variable a une forte contribution positive à l axe, les individus ayant une forte contribution positive à l axe sont caractérisés par une valeur élevée de la variable. N.B. : une contribution trop importante d un des points à un axe doit être regardé avec prudence (~25% d inertie). Il faut l enlever s il est mal représenté.
29 29 Interprétation des axes :exemple Contribution des individus
30 30 Interprétation des axes :exemple Contribution des variables
31 31 Interprétation des axes :exemple Interprétation axe 1 : Conclusion : L axe 1 oppose les Balkans ayant une forte consommation de noix, graines et céréales aux pays qui comme l Irlande consomment plutôt des protéines animales.
32 32 Interprétation des axes :exemple Interprétation axe 2 : Conclusion : L axe 2 caractérise les pays Ibériques, consommant beaucoup de poisson.
33 33 Interprétation des axes :exemple Interprétation axe 3 : Conclusion : L axe 3 oppose la Hongrie, et plus généralement les pays d europe centrale, grands consommateur de viande blanche, aux pays qui n en consomment pas, comme certains pays Scandinaves et l albanie.
34 34 Interprétation des axes :exemple Interprétation axe 4 : Conclusion : L axe 4 caractérise les pays qui consomment beaucoup de viande rouge comme certains pays d europe de l ouest et méditerranéens.
35 35 Etude de proximité entre les points Une fois les axes interprétés, on peut regarder les graphiques et analyser plus finement les proximités entre points. Un point est dit bien représenté sur un axe ou un plan factoriel si il est proche de sa projection sur l axe ou le plan. S il est éloigné, on dit qu il est mal représenté. Indicateur =angle formé entre le point et sa projection sur l axe : au plus il est proche de 90 degrés, au moins le point est bien représenté
36 36 Etude de proximité entre les points Qualité de représentation de l individu i sur l axe k : Lorsque l angle est proche de 0, c'est-à-dire que l individu est bien représenté, le cosinus est proche de 1. Dans le cas inverse, l angle est proche de 90 et le cosinus est proche de 0.
37 37 Etude de proximité entre les points Qualité de représentation de la variable j sur l axe k: En ACP normée, une variable est d autant mieux représentée sur un axe qu elle est proche du bord du cercle des corrélations et de l axe, d autant plus mal représentée qu elle est proche de l origine. Remarque : En ACP normée, les variables qui contribuent le plus à l axe sont aussi celles qui sont le mieux représentées et inversement.
38 38 Etude de proximité entre les points La proximité dans l espace entre deux individus bien représentés traduit la ressemblance de ces deux individus du point de vue des valeurs prises par les variables. Lorsque la qualité de représentation de deux individus est bonne, leur proximité observée retrace leur proximité réelle (dans l espace). La proximité entre deux variables sur un axe donne, si les deux variables sont bien représentées sur l axe ( proches de l axe et du Bord du cercle), une approximation de leur corrélation. Deux variables proches sont corrélées positivement Deux variables qui s opposent sont corrélées négativement Deux variables orthogonales sont non corrélées.
39 39 Qualité de représentation : exemple
40 40 Etude des points bien représentés Trois groupe de pays distincts se détachent quant à leurs habitudes de consommation : les pays ibériques, qui se caractérisent par une consommation élevée, les balkans ayant une importante consommation de graines et certains pays d europe du nord et de l ouest consommant de la viande des oeufs et du lait
41 41 Etude des points bien représentés Pour les pays consommant des protéines animales, La consommation de viande blanche réduit du sud au nord.
42 42 Limite de l ACP Principale faiblesse de l ACP: sensibilité aux points extrêmes. L'ACP est inadaptée aux phénomènes non linéaires.
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Plus en détailL ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailExtraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction
Plus en détail1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailINTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Plus en détailLES MODELES DE SCORE
LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailRelation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
Plus en détailTable des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détail1. Vocabulaire : Introduction au tableau élémentaire
L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailL'analyse des données à l usage des non mathématiciens
Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.
Plus en détailStatistique Descriptive Élémentaire
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailIntroduction. Préambule. Le contexte
Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailCALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING
CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de
Plus en détailACP Voitures 1- Méthode
acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788
Plus en détailLA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE
LA PHYSIQUE DES MATERIAUX Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE Pr. A. Belayachi Université Mohammed V Agdal Faculté des Sciences Rabat Département de Physique - L.P.M belayach@fsr.ac.ma 1 1.Le réseau
Plus en détailStatistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailCours de méthodes de scoring
UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-
Plus en détailwww.styleanalytics.com
www.styleanalytics.com Style Analytics EuroPerformance a le plaisir de vous présenter Style Analytics, outil de mesure des risques et de la performance des fonds d investissement. Style Analytics offre
Plus en détailStatistique Descriptive Multidimensionnelle. (pour les nuls)
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219
Plus en détailAide-mémoire de statistique appliquée à la biologie
Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailAnalyse en Composantes Principales
Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailSOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des
Plus en détailAgenda de la présentation
Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining
Plus en détailLe data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires
Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailÉvaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Plus en détailFONCTION DE DEMANDE : REVENU ET PRIX
FONCTION DE DEMANDE : REVENU ET PRIX 1. L effet d une variation du revenu. Les lois d Engel a. Conditions du raisonnement : prix et goûts inchangés, variation du revenu (statique comparative) b. Partie
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailCAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Plus en détailStatistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Plus en détailTABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be
Plus en détailFORMULAIRE DE STATISTIQUES
FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)
Plus en détailSOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE
SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE 1 Factures de doit p. 9 Processus 1 2 Réductions sur factures de doit p. 11 Processus 1 3 Frais accessoires sur factures p. 13 Processus 1 4 Comptabilisation
Plus en détailScénario: Données bancaires et segmentation de clientèle
Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé
Plus en détailSolutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision
Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous
Plus en détailSéries Statistiques Simples
1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailTraitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
Plus en détailLes objets très lointains
Les objets très lointains Lorsque les étoiles sont proches il est possible de mesurer la distance qui nous en sépare par une méthode dite abusivement directe, la trigonométrie, qui permet de déduire les
Plus en détailTechniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailProjet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détailAccélérer l agilité de votre site de e-commerce. Cas client
Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible
Plus en détailLes algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
Plus en détailEVALUATION DE LA MISE EN ŒUVRE DE LA CONSOLIDATION DU PROGRAMME DE
REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L AGRICULTURE ET DU DEVELOPPEMENT RURAL EVALUATION DE LA MISE EN ŒUVRE DE LA CONSOLIDATION DU PROGRAMME DE DÉVELOPPEMENT AGRICOLE Evaluation
Plus en détailSOUS TITRAGE DE LA WEBÉMISSION DU PROGRAMME DE MATHÉMATIQUES 11 e ET 12 e ANNÉE
SOUS TITRAGE DE LA WEBÉMISSION DU PROGRAMME DE MATHÉMATIQUES 11 e ET 12 e ANNÉE Table de matières INTRODUCTION 2 ITINÉRAIRE MEL3E/MEL4E 6 ITINÉRAIRE MBF3C/MAP4C 9 ITINÉRAIRE MCF3M/MCT4C 12 ITINÉRAIRE MCR3U/MHF4U
Plus en détailLa Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Plus en détailProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection
ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection Nicolas HEULOT (CEA LIST) Michaël AUPETIT (CEA LIST) Jean-Daniel FEKETE (INRIA Saclay) Journées Big Data
Plus en détailRégression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr
Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R
Plus en détailClasse de première L
Classe de première L Orientations générales Pour bon nombre d élèves qui s orientent en série L, la classe de première sera une fin d étude en mathématiques au lycée. On a donc voulu ici assurer à tous
Plus en détailOptimisation des ressources des produits automobile première
EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailLes Entrepôts de Données
Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations
Plus en détailMémoire d Actuariat Tarification de la branche d assurance des accidents du travail Aymeric Souleau aymeric.souleau@axa.com 3 Septembre 2010 Plan 1 Introduction Les accidents du travail L assurance des
Plus en détailMéthode du commentaire de document en Histoire
Méthode du commentaire de document en Histoire I. Qu est-ce qu un commentaire de document? En quelques mots, le commentaire de texte est un exercice de critique historique, fondé sur la démarche analytique.
Plus en détailSystèmes de transmission
Systèmes de transmission Conception d une transmission série FABRE Maxime 2012 Introduction La transmission de données désigne le transport de quelque sorte d'information que ce soit, d'un endroit à un
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailQue fait SAS Enterprise Miner?
Développez une connaissance plus précise avec un processus data mining plus productif La transformation de données brutes en informations utiles reste une problématique pour les entreprises. Pour apporter
Plus en détailValeur verte des logements d après les bases Notariales BIEN et PERVAL Synthèse
Valeur verte des logements d après les bases Notariales BIEN et PERVAL Synthèse La valeur verte correspond à l augmentation de valeur 1 engendrée par la meilleure performance énergétique et environnementale
Plus en détailSAS ENTERPRISE MINER POUR L'ACTUAIRE
SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Plan de la séance 3 : Le risque de crédit (1) Les opérations de crédit Définition d un crédit La décision de crédit Les crédits aux petites
Plus en détailPremiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1
Premiers pas avec SES-Pegase 1 Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données www.delta-expert.com Mise à jour : Premiers pas avec SES-Pegase
Plus en détailTRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN
TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailIBM SPSS Regression 21
IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics
Plus en détailT de Student Khi-deux Corrélation
Les tests d inférence statistiques permettent d estimer le risque d inférer un résultat d un échantillon à une population et de décider si on «prend le risque» (si 0.05 ou 5 %) Une différence de moyennes
Plus en détailIntroduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Plus en détail4. Résultats et discussion
17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les
Plus en détailLa survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Plus en détailStages de Formation en Statistique Appliquée et Logistique
Stages de Formation en Statistique Appliquée et Logistique Un aperçu de nos stages Titre Avec PC Durée Info Visualisation de données de laboratoire avec Excel oui 2 jours p. 3 Analyse de données de laboratoire
Plus en détailSciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION
Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information
Plus en détailProgrammation linéaire
Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire
Plus en détailLeçon N 4 : Statistiques à deux variables
Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d
Plus en détailESIEA PARIS 2011-2012
ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire
Plus en détailThéorie des sondages : cours 5
Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur
Plus en détailCOURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE
COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE Le cours de la première année concerne les sujets de 9ème et 10ème années scolaires. Il y a bien sûr des différences puisque nous commençons par exemple par
Plus en détailCHAPITRE 1 : DE LA FONCTION DE DEMANDE DU CONSOMMATEUR À LA DEMANDE DE MARCHÉ
CHAPITRE : DE LA FONCTION DE DEMANDE DU CONSOMMATEUR À LA DEMANDE DE MARCHÉ..Introduction.2. Le point de départ de l analyse micro-économique du consommateur.3. La fonction de demande individuelle.4. Effets
Plus en détailRAPPELS DU COURS PRÉCÉDENT
RAPPELS DU COURS PRÉCÉDENT PIB + M = CF+ FBCF + S + X Demande intérieure Valeur 2006 en milliard s d'euros ) Évolutions en volume au prix de l'année précédente Évolutions en volume au prix de l'année précédente
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détail