de la classification Approche pragmatique t Editions TECHNIP 27 rue Cinoux, PARIS Cedex 15, FRANCE Arbres hiérarchiques Partitionnements

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "de la classification Approche pragmatique t Editions TECHNIP 27 rue Cinoux, 75737 PARIS Cedex 15, FRANCE Arbres hiérarchiques Partitionnements"

Transcription

1 Jean-Pierre NAKACHE Ingénieur de recherche CNRS détaché à l'inserm Chargé de cours à l'isup Josiane CONFAIS Ingénieur d'études chargée des enseignements pratiques à l'isup Approche pragmatique de la classification Arbres hiérarchiques Partitionnements SUB Gôttmgen ' " " "! Ilfflt III» 2005 A t Editions TECHNIP 27 rue Cinoux, PARIS Cedex 15, FRANCE

2 Préface, Gilbert Saporta lll Avant-propos V Introduction 1 Généralités 7 1. Distances et indices de similarité Distance d définie sur un ensemble E Similarité définie sur un ensemble E Dissimilarité définie sur un ensemble E 8 2. Mesures de ressemblance entre individus Données numériques Données ordinales Données de fréquences Données binaires Données nominales Données mixtes Mesures de similarité entre variables Données numériques Données ordinales Données de fréquences Données binaires Données nominales Données mixtes.' Qualités d'une classification Préparation des données en vue d'une classification 15 Chapitre 1 Classification ascendante hiérarchique Hiérarchie totale de parties d'un ensemble E Hiérarchie de parties indicée Arbre hiérarchique indicé Choix du nombre de classes par coupure de l'arbre Distances ultramétriques et arbres hiérarchiques Distances ultramétriques Boules ultramétriques Propriétés Equivalence entre hiérarchie indicée et distance ultramétrique Toute hiérarchie totale indicée H E permet de définir sur E une distance ultramétrique... 22

3 VIII Table des matières A toute distance ultramétrique d u définie sur E, on peut faire correspondre une hiérarchie totale indicée Conséquence de l'équivalence entre hiérarchie indicée HE et distance ultramétrique d u Algorithme de Lerman Construction d'un arbre hiérarchique ascendant Algorithme de base Algorithme de Roux Axiome de la médiane Algorithme des voisins réciproques Algorithmes d'agrégation fondés sur un lien métrique Le critère du saut minimal Le critère du diamètre Le critère de la moyenne Le critère de Ward (perte d'inertie minimale) Application Mise à jour des distances : utilisation de la formule de Lance et Williams Algorithmes d'agrégation fondés sur la densité Méthode des k- plus proches voisins Méthode des noyaux uniformes Méthode EML Avantages et inconvénients des algorithmes hiérarchiques Comparaison de deux arbres hiérarchiques ascendants Ordonnance associée à une matrice des distances d entre individus d'un ensemble E : Od Définition mathématique d'une pré-ordonnance Graphe d'une ordonnance Ecart entre deux ordonnances Ecart entre deux hiérarchies ascendantes Algorithmes hiérarchiques avec obtention de classes déforme arbitraire CURE ROCK BIRCH CHAMELEON Classification spatiale hiérarchique 60 Chapitre 2 Perte d'inertie minimale et saut minimal Perte d'inertie minimale Passage d'une partition à la suivante Procédure d'agrégation suivant le critère de Ward Exemples illustratifs Application du critère de Ward aux données Ester et al Saut minimal Ultramétrique sous-dominante S de la distance d Lien avec l'arbre de longueur minimale Construction de l'arbre de longueur minimale par l'algorithme de Kruskal Application numérique Représentation simultanée : arbre de longueur minimale et arbre hiérarchique Effet de chaîne Application aux données Ester et al 85 Chapitre 3 Classification hiérarchique descendante Classification non supervisée : classes monothétiques Variables quantitatives Variables de nature mixte 90

4 IX Variables binaires : méthode de Williams et Lambert Applications Classification non supervisée : approche conceptuelle Fonctions PU et CU Algorithme COBWEB Algorithme CLASSIT Classification de grandes collections de documents : algorithme PDDP Classification supervisée Méthode CART Méthode CHAID 106 Chapitre 4 Classification par partition Méthodes k-means Méthode des centres mobiles Méthode des nuées dynamiques Extension de la méthode k-means aux variables qualitatives ou mixtes Algorithme k-modes Algorithme k-prototypes Autres méthodes Méthode des k-medoids PAM Autres méthodes : CLARA, CLARANS, FINDIT Mélange de distributions 124 Chapitre 5 Classification conjointe (hiérarchie et partition) appliquée aux grands tableaux de données mixtes Différentes étapes Codage des données sous forme disjonctive complète Analyse factorielle du tableau disjonctif complet Classification hiérarchique des individus repérés par leurs composantes factorielles Partition autour des centres mobiles et détermination des groupements stables Classification hiérarchique des groupements stables Consolidation de la partition finale Application de la classification conjointe : utilisation du logiciel SPAD Utilisation du logiciel SAS pour effectuer une classification conjointe Les outils proposés par SAS/STAT Les méthodes d'agrégation de la procédure CLUSTER Classification k-means avec la procédure FASTCLUS Enchaînement FASTCLUS - CLUSTER, 147 Chapitre 6 Techniques particulières de classification pour le Data Mining Méthodes de classification fondées sur la densité Méthode DBSCAN Méthodes dérivées de DBSCAN : GDBSCAN, OPTICS BRIDGE : utilisation conjointe de k-means et DBSCAN Autres méthodes Méthodes de classification fondées sur un modèle Approche neuronale : le modèle de Kohonen Autres approches probabilistes Approche basée sur la notion de fonction d'influence : DENCLUE 174

5 6.3. Méthodes fondées sur le quadrillage de l'espace Classification simultanée des individus et des variables Ré-ordonnancement du tableau après classification séparée des lignes et des colonnes du tableau Ré-ordonnancement des lignes et des colonnes d'un tableau de contingence Méthode d'agrégation de relations binaires 184 Chapitre 7 Nombre de classes à retenir Utilisation de l'échelle des similarités associée à un arbre hiérarchique Autres indices graphiques Indices fondés sur la somme de carrés Indices fondés sur des pseudo-statistiques Indice dérivé d'une classification fondée sur la densité : BIC Graphique «silhouette» Autres indices Comparaison de deux partitions 201 Chapitre 8 Caractérisation des classes Caractérisation unidimensionnelle Caractérisation par des variables illustratives Extension aux variables actives Application : données Cancer Description des classes retenues Valeurs-test Autres caractérisations unidimensionnelles Graphiques en étoiles Graphiques des profils Caractérisation multidimensionnelle Représentation graphique des variables et classes sur le meilleur plan factoriel Utilisation d'une méthode explicative multidimensionnelle 217 Chapitre 9 Classification d'un ensemble de variables Procédure VARCLUS : Algorithme Exemple illustratif Cas de variables binaires à classer : application aux données NHP Cas de variables mixtes à classer : application aux données Cancer Variante de VARCLUS : méthode de Qannari et Vigneau Méthode de Lerman Méthode de Bertin 236 Logiciels et algorithmes 241 Références bibliographiques 247 Index 257

Analyse multivariée approfondie

Analyse multivariée approfondie Analyse multivariée approfondie Enseignants: NIANG N. et RUSSOLILLIO G. Maître de conférences Statistique Appliquée Laboratoire CEDRIC CNAM http://www.cnam.fr et d autres intervenants extérieurs au Cnam

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Classification - Typologies Data Management, Data Mining, Text Mining 1 Guide du Data Miner Classification - Typologies Le logiciel décrit dans le manuel est diffusé dans le cadre d

Plus en détail

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre INFORMATIQUE ORIENTATION LOGICIELS CLASSIFICATION AUTOMATIQUE Prof.É.D.Taillard Classification automatique @Prof. E. Taillard EIVD, Informatique logiciel, 4 e semestre CLASSIFICATION AUTOMATIQUE But :

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 6 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

1.1 Exemple introductif d un cube de données... 2

1.1 Exemple introductif d un cube de données... 2 1.1 Exemple introductif d un cube de données............... 2 2.1 Pré-traitement des données avec les outils OLAP [MHW00]...... 14 2.2 Architecture d un système intégrant SGBD, OLAP et MOLAP [Fu05] 16

Plus en détail

Module 3 : Introduction à la Modélisation SOUS MODELER

Module 3 : Introduction à la Modélisation SOUS MODELER Module 3 : Introduction à la Modélisation SOUS MODELER 1 Techniques prédictives Passé pour prédire l avenir 2 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur

Plus en détail

Apprendre à programmer

Apprendre à programmer Christophe Dabancourt Apprendre à programmer Algorithmes et conception objet 2 e édition Groupe Eyrolles, 2008, ISBN : 978-2-212-12350-0 Table des matières Avant-propos.................................................

Plus en détail

Évaluation d une approche de classification conceptuelle

Évaluation d une approche de classification conceptuelle Évaluation d une approche de classification conceptuelle Marie Chavent Yves Lechevallier Mathématiques Appliquées de Bordeaux, UMR 5466 CNRS Université Bordeaux 1-351, Cours de la libération 33405 Talence

Plus en détail

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr LES TYPOLOGIES DE PARCOURS METHODES ET USAGES Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr 1 PLAN Première partie : un exemple traité «en vraie grandeur» : les 26500 jeunes

Plus en détail

L analyse des données statistiques

L analyse des données statistiques L analyse des données statistiques Public : Les cadres devant analyser des données quantitatives et qualitatives Objectif : Apprendre, en utilisant principalement Excel : - à traiter des données provenant

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

UTILISATION CONJOINTE DES RÈGLES D ASSOCIATION

UTILISATION CONJOINTE DES RÈGLES D ASSOCIATION UTILISATION CONJOINTE DES RÈGLES D ASSOCIATION ET DE LA CLASSIFICATION DE VARIABLES Marie Plasse * **, Ndeye Niang-Keita ** & Gilbert Saporta ** * PSA Peugeot Citroën DINQ/DSIN/SIFA/APST 45 avenue Jean-Pierre

Plus en détail

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr Classification Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr Objectif Rechercher

Plus en détail

Master 2 Informatique UAG. Classification de documents/textes

Master 2 Informatique UAG. Classification de documents/textes Data Mining Master 2 Informatique UAG Classification de documents/textes Utilisée en text mining, information retrieval : amélioration du recall et de la précision Moyen de trouver les voisins les plus

Plus en détail

Anne-lise HUYET- Jean-Luc PARIS LIMOS équipe Recherche en Systèmes de Production IFMA Mail: huyet@ifma.fr, paris@ifma.fr

Anne-lise HUYET- Jean-Luc PARIS LIMOS équipe Recherche en Systèmes de Production IFMA Mail: huyet@ifma.fr, paris@ifma.fr Extraction de Connaissances pertinentes sur le comportement des systèmes de production: une approche conjointe par Optimisation Évolutionniste via Simulation et Apprentissage Anne-lise HUYET- Jean-Luc

Plus en détail

Pierre-Louis GONZALEZ

Pierre-Louis GONZALEZ SEGMENTATION Pierre-Louis GONZALEZ 1 I. Les méthodes de segmentation. Introduction Les méthodes de segmentation cherchent à résoudre les problèmes de discrimination et de régression en divisant de façon

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

Scénario: Exploration, classification des encours boursiers parisiens

Scénario: Exploration, classification des encours boursiers parisiens Scénario: Exploration, classification des encours boursiers parisiens Résumé Scénario d analyse d un jeu de données : l ensemble des séries des encours boursier à Paris. Description, lissage et classification

Plus en détail

...fin du cours précédent

...fin du cours précédent ...fin du cours précédent num voiture moto cheval camion bus âne mulet 1 1 1 0 1 0 0 0 2 1 1 0 1 0 0 0 3 1 1 0 1 0 0 0 4 0 1 1 1 0 1 1 5 1 0 0 1 1 0 0 6 1 0 0 1 1 0 0 7 1 0 0 1 1 0 0 8 1 0 0 1 1 0 0 9

Plus en détail

Séance 2: Modèle Euclidien

Séance 2: Modèle Euclidien Généralités Métrique sur les INDIVIDUS Métrique sur les VARIABLES Inertie Analyse des individus Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Généralités Métrique

Plus en détail

Data mining pour la recherche d'information contextuelle

Data mining pour la recherche d'information contextuelle Data mining pour la recherche d'information contextuelle A. B I G OT, S. D É J E A N, L. L A P ORTE, J. M OTHE 1 GDR I3 : Journée sur la fouille de données Cadre FREMIT : Structure Fédérative de Recherche

Plus en détail

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande

Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande Université de Nantes M2 Ingénierie Mathématiques Rapport de chimiométrie Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de

Plus en détail

Utilisation des Structures Combinatoires pour le Test Statistique. Contexte. Plan. Le test de logiciel. Les structures combinatoires décomposables

Utilisation des Structures Combinatoires pour le Test Statistique. Contexte. Plan. Le test de logiciel. Les structures combinatoires décomposables Utilisation des Structures Combinatoires pour le Test Statistique Sandrine-Dominique GOURAUD Équipe Programmation et Génie Logiciel, L.R.I. Co-encadrants: M.-C. Gaudel et A. Denise Plan Contexte Structures

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Classification de variables qualitatives pour la compréhension de la prise en compte de l'environnement par les agriculteurs

Classification de variables qualitatives pour la compréhension de la prise en compte de l'environnement par les agriculteurs Classification de variables qualitatives pour la compréhension de la prise en compte de l'environnement par les agriculteurs Vanessa KUENTZ-SIMONET, Sandrine LYSER, Jacqueline CANDAU, Philippe DEUFFIC,

Plus en détail

L'Intelligence Artificielle pour les développeurs Concepts et implémentations en Java

L'Intelligence Artificielle pour les développeurs Concepts et implémentations en Java Avant-propos 1. Objectifs du livre 15 2. Public et prérequis 15 3. Structure du livre 16 4. Code en téléchargement 18 Introduction 1. Présentation du chapitre 19 2. Définir l intelligence 19 3. L intelligence

Plus en détail

L'Intelligence Artificielle pour les développeurs Concepts et implémentations en C#

L'Intelligence Artificielle pour les développeurs Concepts et implémentations en C# Introduction 1. Structure du chapitre 19 2. Définir l intelligence 19 3. L intelligence du vivant 22 4. L intelligence artificielle 23 5. Domaines d application 25 6. Synthèse 27 Systèmes experts 1. Présentation

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

Partie I : Séries statistiques descriptives univariées (SSDU)... 1

Partie I : Séries statistiques descriptives univariées (SSDU)... 1 Table des matières Préface Avant-propos Pourquoi un tel ouvrage?... À propos de l ouvrage... À propos de la statistique................................................................ Remerciements....

Plus en détail

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification François Husson & Julie Josse Laboratoire de mathématiques appliquées Agrocampus Rennes husson@agrocampus-ouest.fr

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

STAGE. «Offre modulaire - Recueillir et analyser les besoins et attentes des usagers - Module 4 - L'analyse experte des données statistiques»

STAGE. «Offre modulaire - Recueillir et analyser les besoins et attentes des usagers - Module 4 - L'analyse experte des données statistiques» STAGE «Offre modulaire - Recueillir et analyser les besoins et attentes des usagers - Module 4 - L'analyse experte des données statistiques» PROGRAMME DETAILLE Intervenant : PARIS nicolas Cabinet : OPTIMA

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

Le contexte méthodologique. Les techniques multidimensionnelles. Les techniques factorielles. www.deenov.com

Le contexte méthodologique. Les techniques multidimensionnelles. Les techniques factorielles. www.deenov.com Le contexte méthodologique Les techniques descriptives multidimensionnelles et techniques de Data mining (mises en œuvre par exemple dans le logiciel SPAD que nous avons développé au sein de la société

Plus en détail

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

Classification simultanée des lignes et des colonnes de plusieurs tableaux de contingence

Classification simultanée des lignes et des colonnes de plusieurs tableaux de contingence Classification simultanée des lignes et des colonnes de plusieurs tableaux de contingence Vincent Loonis Ensae Timbre J120-3 avenue Pierre Larousse FR-92245 Malakoff Cedex France RÉSUMÉ Le présent article

Plus en détail

PRÉSENTATION D'APPLICATIONS STATISTIQUES ET DE SIMULATIONS SOUS GEOPLAN-GEOSPACE

PRÉSENTATION D'APPLICATIONS STATISTIQUES ET DE SIMULATIONS SOUS GEOPLAN-GEOSPACE PRÉSENTATIN D'APPLICATINS STATISTIQUES ET DE SIMULATINS SUS GEPLAN-GESPACE Daniel MULLER Professeur agrégé de mathématique Formateur en formation continue à l' I.U.F.M. d' Aix-Marseille Jas "Le Château"

Plus en détail

La Grille, moyen fondamental de l analyse

La Grille, moyen fondamental de l analyse Fiche méthodologie #1 La Grille, moyen fondamental de l analyse Cette rubrique présente des notes et documents publiés par Philippe Latour, enseignant au Master Géomarketing et stratégies territoriales

Plus en détail

Statistiques descriptives Variance et écart type

Statistiques descriptives Variance et écart type Statistiques descriptives Variance et écart type I) Rappel : la moyenne (caractéristique de position ) Définition Soit la série statistique définie dans le tableau suivant : Valeur... Effectif... Fréquences

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

TABLE DES MATIÈRES CHAPITRE 1 LA CONSTRUCTION D UN INSTRUMENT DE MESURE... 9. Avant-propos... 5 Sommaire... 7

TABLE DES MATIÈRES CHAPITRE 1 LA CONSTRUCTION D UN INSTRUMENT DE MESURE... 9. Avant-propos... 5 Sommaire... 7 TABLE DES MATIÈRES Avant-propos... 5 Sommaire... 7 CHAPITRE 1 LA CONSTRUCTION D UN INSTRUMENT DE MESURE... 9 1. Le processus de construction d un test... 9 2. La construction d un test d acquis scolaires...

Plus en détail

UNIVERSITÉ LUMIÈRE LYON 2 UFR DE SCIENCES ÉCONOMIQUES ET DE GESTION. M1- Economie quantitative. Analyse des données

UNIVERSITÉ LUMIÈRE LYON 2 UFR DE SCIENCES ÉCONOMIQUES ET DE GESTION. M1- Economie quantitative. Analyse des données UNIVERSITÉ LUMIÈRE LYON 2 UFR DE SCIENCES ÉCONOMIQUES ET DE GESTION M1- Economie quantitative Analyse des données Polycopié 2 : Classification automatique Année Universitaire 2013-2014 Courriel ; rafik.abdesselam@univ-lyon2.fr

Plus en détail

M2, spécialité Ingénierie Mathématique Laboratoire de Mathématiques Jean Leray Département de Mathématiques Université de Nantes. Programme 2013-2014

M2, spécialité Ingénierie Mathématique Laboratoire de Mathématiques Jean Leray Département de Mathématiques Université de Nantes. Programme 2013-2014 M2, spécialité Ingénierie Mathématique Laboratoire de Mathématiques Jean Leray Département de Mathématiques Université de Nantes Programme 2013-2014 Contact : master-pro@math.univ-nantes.fr Option : CS

Plus en détail

Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599. Moustapha DOUMIATI. pour obtenir le diplôme Master de recherche en informatique

Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599. Moustapha DOUMIATI. pour obtenir le diplôme Master de recherche en informatique Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599 présenté par Moustapha DOUMIATI pour obtenir le diplôme Master de recherche en informatique Fouille de données pour l analyse des performances

Plus en détail

Semestre 1. Volume horaire hebdomadaire. Cours TD TP T.Perso. Total. Calcul de Probabilité 3 1,5 1,5 6 84 2. Introduction à l Economie 1,5 1,5 3 42 2

Semestre 1. Volume horaire hebdomadaire. Cours TD TP T.Perso. Total. Calcul de Probabilité 3 1,5 1,5 6 84 2. Introduction à l Economie 1,5 1,5 3 42 2 3ème Année Semestre 1 N MODULES MATIERES Volume horaire hebdomadaire Cours TD TP T.Perso. Total Volume horaire semestriel (14 semaines) Coefficients Régime d'examen 1 Modèle Probabiliste 1,5 1,5 1,5 4,5

Plus en détail

Méthodes de Résolution de problèmes En Intelligence Artificielle

Méthodes de Résolution de problèmes En Intelligence Artificielle Méthodes de Résolution de problèmes En Intelligence Artificielle Résolution de Problèmes et Intelligence Artificielle Résoudre des puzzles Jouer aux échecs Faire des mathématiques Et même conduire une

Plus en détail

Statistiques descriptives (1/2)

Statistiques descriptives (1/2) Statistiques descriptives (1/2) Anita Burgun 2011-2012 http://www.med.univ-rennes1.fr Introduction! Statistique: méthode scientifique qui consiste à réunir des données chiffrées sur des ensembles d individus

Plus en détail

Clustering Méthodes et algorithmes avancés Mars - 2006

Clustering Méthodes et algorithmes avancés Mars - 2006 Clustering Méthodes et algorithmes avancés Mars - 2006 Clustering (catégorisation) Objectifs du clustering Mesures de distances habituelles, similarités entre objets Les différents algorithmes Clustering

Plus en détail

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC)

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC) L3 Géographie UE Méthodologie Statistiques COURS 1 Salle 125 Intervenants : Nadège Martiny & Julien Crétat UFR Sciences Humaines (Département de Géographie) UMR Centre de Recherches de Climatologie (CRC)

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Analyse factorielle des correspondances de Benzécri

Analyse factorielle des correspondances de Benzécri Analyse factorielle des correspondances de Benzécri One Pager Décembre 2013 Vol. 8 Num. 011 Copyright Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Construction à partir d une régression logistique

Construction à partir d une régression logistique Construction à partir d une régression logistique Ricco RAKOTOMALALA Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 PLAN 1. Position du problème Grille de score?

Plus en détail

Renforcer ses compétences

Renforcer ses compétences Renforcer ses compétences en mathématiques Tome 1 AVANT PROPOS Vos études ou vos activités professionnelles vous ont peut-être éloignés des mathématiques et ceci, parfois depuis longtemps. Vous souhaitez

Plus en détail

Data Mining: Activité hospitalière

Data Mining: Activité hospitalière Data Mining: Activité hospitalière DIAGNE Sénéba 1, Huai Yuan WAN 2 1. S2IFA 2. DRM Chapitre 1 Clustering : Activité hospitalière 1.1 Présentation des données Le périmètre des données représente ici un

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM Emmanuel Rachelson and Matthieu Vignes 9 octobre 2013, SupAero - ISAE 1 Présidentielles 2008 - AFC Récupérer les données,

Plus en détail

Simulation centrée individus

Simulation centrée individus Simulation centrée individus Théorie des jeux Bruno BEAUFILS Université de Lille Année 4/5 Ce document est mis à disposition selon les termes de la Licence Creative Commons Attribution - Partage dans les

Plus en détail

Choix de modèle en régression linéaire

Choix de modèle en régression linéaire Master pro Fouille de données Philippe Besse 1 Objectif Choix de modèle en régression linéaire La construction d un score d appétence sur les données bancaires correspond au choix et à l estimation d un

Plus en détail

Systèmes d Information Décisionnels RICM5

Systèmes d Information Décisionnels RICM5 Systèmes d Information Décisionnels RICM5 Durée : 2h heures Documents autorisés. Des réponses brèves, mais claires, sont attendues. Problème : Analyse de données d assurances Nous disposons d une base

Plus en détail

Module A ALGEBRE MATRICIELLE. Prçesentation - Plan

Module A ALGEBRE MATRICIELLE. Prçesentation - Plan Module A ALGEBRE MATRICIELLE Prçesentation - Plan Ce module occupe une place particuliçere dans le dispositif de formation ça la statistique mis en place par le service de Formation Permanente et le dçepartement

Plus en détail

ACM DE L EXEMPLE «TASTE»

ACM DE L EXEMPLE «TASTE» ACM DE L EXEMPLE «TASTE» AVEC SPAD (VERSION 7.4) BRIGITTE LE ROUX 1 ET PHILIPPE BONNET 2 UNIVERSITE PARIS DESCARTES 1 INTRODUCTION... 2 2 POUR DÉMARRER... 2 2.1 Ouverture du projet archivé TasteMCA_fr...

Plus en détail

Apprentissage statistique Stratégie du Data-Mining

Apprentissage statistique Stratégie du Data-Mining Apprentissage statistique Stratégie du Data-Mining Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Apprentissage statistique

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Remerciements. Partie 1 Algèbre linéaire 1

Remerciements. Partie 1 Algèbre linéaire 1 Table des matières Préface Remerciements xix xxi Partie 1 Algèbre linéaire 1 1 Compléments d algèbre linéaire 3 I Rappels du cours de première année.......................... 3 I.1 Famille dans un espace

Plus en détail

COURBOTREE : APPLICATION DES ARBRES DE REGRESSION MULTIVARIES POUR LA CLASSIFICATION DE COURBES

COURBOTREE : APPLICATION DES ARBRES DE REGRESSION MULTIVARIES POUR LA CLASSIFICATION DE COURBES COURBOTREE : APPLICATION DES ARBRES DE REGRESSION MULTIVARIES POUR LA CLASSIFICATION DE COURBES Véronique Stéphan (1) & Frédéric Cogordan (2) (1) EDF R&D 1, av. du Général de Gaulle 92 141 Clamart Cédex

Plus en détail

Atelier N 6 : Analyse en composantes principales (ACP) Présentation des méthodes d analyses multivariées

Atelier N 6 : Analyse en composantes principales (ACP) Présentation des méthodes d analyses multivariées Atelier N 6 : Analyse en composantes principales (ACP) Contenu : Présentation des méthodes d analyses multivariées Présentation des méthodes d analyses multivariées Classification des méthodes : Les méthodes

Plus en détail

1. Explorer, organiser et démontrer des propriétés géométriques en termes de longueurs et d angles. Découvrir et étudier des nombres irrationnels.

1. Explorer, organiser et démontrer des propriétés géométriques en termes de longueurs et d angles. Découvrir et étudier des nombres irrationnels. Compétences : math, 2 ème degré (pages 1 à 3) math, 3 ème degré (pages 4 à 8) 3 grands thèmes du cours à 4h sem (pages 9 à 11) 3 grands thèmes du cours à 2h sem (pages 12 à 14) (Seules les définitions

Plus en détail

P R O G R A M M E E T I N S T R U C T I O N S O F F I C I E L L E S

P R O G R A M M E E T I N S T R U C T I O N S O F F I C I E L L E S P R O G R A M M E E T I N S T R U C T I O N S O F F I C I E L L E S MP deuxième années PREAMBULE Sommaire I. Contexte de la réforme de l informatique en C.P.G.E II. Objectifs de la formation III. Moyens

Plus en détail

Data Mining, fouille de données: Concepts et techniques. Marius Fieschi Faculté de Médecine de Marseille

Data Mining, fouille de données: Concepts et techniques. Marius Fieschi Faculté de Médecine de Marseille Data Mining, fouille de données: Concepts et techniques Marius Fieschi Faculté de Médecine de Marseille Data Mining, fouille de données: Concepts et techniques Ce cours est très proche du cours diffusé

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels D1 RECRUTEMENT DES ASSISTANTS INGÉNIEURS...2 D1.1 Assistant cartographe (nouveau programme)...2 D1.2 Assistant en production et

Plus en détail

Prédiction de la Structure des Protéines. touzet@lifl.fr

Prédiction de la Structure des Protéines. touzet@lifl.fr Prédiction de la Structure des Protéines Hélène TOUZET touzet@lifl.fr Structure Structure Structure Structure primaire secondaire tertiaire quaternaire Exemple : la structure secondaire de la transthyretine

Plus en détail

Pertinence d une page Web (TS spécialité)

Pertinence d une page Web (TS spécialité) Université d été de Mathématiques Août 202 Pertinence d une page Web (TS spécialité) Exercice Un groupe de musique a mis en place un site internet selon le plan ci-dessous, où les flèches représentent

Plus en détail

Modélisation de la demande de transport

Modélisation de la demande de transport Modélisation de la demande de transport Fabien Leurent ENPC / LVMT Introduction Approche empirique Fonctions de répartition Position microéconomique : préférences et rationalité Distribution des décideurs,

Plus en détail

Ana-Maria Olteanu-Raimond, C. Plumejeaud, L.Nahassia GÉOPEUPLE : PEUPLEMENT, ESPACE NATUREL ET ESPACE CONSTRUIT : QUELLES INTERACTIONS?

Ana-Maria Olteanu-Raimond, C. Plumejeaud, L.Nahassia GÉOPEUPLE : PEUPLEMENT, ESPACE NATUREL ET ESPACE CONSTRUIT : QUELLES INTERACTIONS? Ana-Maria Olteanu-Raimond, C. Plumejeaud, L.Nahassia GÉOPEUPLE : PEUPLEMENT, ESPACE NATUREL ET ESPACE CONSTRUIT : QUELLES INTERACTIONS? 1 Méthode globale COGIT-IGN, Projet Geopeuple 1 Données construites

Plus en détail

Prérequis et tarification des services pour les projets Vocaza Feedback Automation

Prérequis et tarification des services pour les projets Vocaza Feedback Automation Prérequis et tarification des services pour les projets Vocaza Feedback Automation 22 09 2015 V1.0 22 09 2015 V1.0 1 SOMMAIRE Table des matières INTRODUCTION 3 2 INTRODUCTION L objet de ce document est

Plus en détail

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Alzennyr Da Silva, Yves Lechevallier Projet AxIS, INRIA Paris-Rocquencourt Domaine de Voluceau,

Plus en détail

Stéréogrammes sur Excel Par Vincent Papillon, Collège Jean-de-Brébeuf

Stéréogrammes sur Excel Par Vincent Papillon, Collège Jean-de-Brébeuf ANALYSE PÉDAGOGIQUE ET DIDACTIQUE Stéréogrammes sur Excel Par Vincent Papillon, Collège Jean-de-Brébeuf Critères 1. Développement de l autonomie dans l apprentissage des élèves Évaluation Passif 1 2 3

Plus en détail

Placements de tours sur les diagrammes de permutations

Placements de tours sur les diagrammes de permutations Placements de tours sur les diagrammes de permutations 5 août 0 Résumé Le problème des placements de tours consiste à compter le nombre de manières de placer k tours sur un échiquier sans que les tours

Plus en détail

PSY C3 Eléments de statistique

PSY C3 Eléments de statistique PSY C3 Eléments de statistique Responsables : Amandine Penel & Fabrice Guillaume Maîtres de conférence en Psychologie Cognitive penel@up.univ-mrs.fr guillaume@isc.cnrs.fr semaine du 4 Sept semaine du oct

Plus en détail

Data Mining : la classification non supervisée

Data Mining : la classification non supervisée Data Mining : la classification non supervisée Clustering : une affaire de distance. Etude préliminaire. Valeurs discrètes. Soient les deux individus suivants correspondant à des séquences ADN : X = AGGGTGGC

Plus en détail

MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE A^-

MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE A^- Le Président de la République, Sur proposition du ministre de l enseignement supérieur et de la recherche scientifique, Vu la loi n 2008-19 du 25 février 2008, relative à l enseignement supérieur, Vu le

Plus en détail

Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI

Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI Introduction On assiste de plus en plus à la création d entrepôts de données. Les raisons sont multiples : 1. le tout numérique

Plus en détail

WCUM pour l analyse d un site Web

WCUM pour l analyse d un site Web WCUM pour l analyse d un site Web Malika Charrad 1 Yves Lechevallier 2 Gilbert Saporta 3 Mohamed Ben Ahmed 4 1,4 Ecole Nationale des Sciences de l Informatique, Tunis 2 INRIA Rocquencourt, Paris 1,3 Conservatoire

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

Session 1 durée 3 heures

Session 1 durée 3 heures Université de Nantes Mai 27 Master MIM Examen d'analyse de données Session durée 3 heures Les documents sont interdits. Les calculatrices sont autorisées. Exercice : - Etude d un tableau à l aide d une

Plus en détail

PLACE DES STATISTIQUES DANS LA RECHERCHE MEDICALE

PLACE DES STATISTIQUES DANS LA RECHERCHE MEDICALE PLACE DES STATISTIQUES DANS LA RECHERCHE MEDICALE PLAN Définition des statistiques Échantillonnage Mise en place d une étude Interprétation des résultats Petits échantillons Analyse des bases de données

Plus en détail

Apprentissage non supervisé

Apprentissage non supervisé Apprentissage non supervisé Françoise Fessant TECH/SUSI 28/09/2006 Introduction (1) Apprentissage non supervisé Consiste à inférer des connaissances sur les données Sur la seule base des échantillons d'apprentissage,

Plus en détail

Les Design Patterns en Java

Les Design Patterns en Java Les Design Patterns en Java Les 23 modèles de conception fondamentaux Steven John Metsker et William C. Wake Pearson Education France a apporté le plus grand soin à la réalisation de ce livre afin de vous

Plus en détail

1. Qu est-ce que l économétrie? 1. 2. Le modèle de régression simple 15

1. Qu est-ce que l économétrie? 1. 2. Le modèle de régression simple 15 9782100567355-Bourbo-tdm.qxd 14/06/11 10:28 Page V Table des matières Avant-propos XI 1. Qu est-ce que l économétrie? 1 I. La notion de modèle 1 A. Définition 1 B. La construction des modèles en économétrie

Plus en détail

DataHighDim. ACI «Masse de Données» - 2003. Analyse exploratoire et discriminante de données en grande dimension

DataHighDim. ACI «Masse de Données» - 2003. Analyse exploratoire et discriminante de données en grande dimension ACI «Masse de Données» - 2003 DataHighDim Analyse exploratoire et discriminante de données en grande dimension Anne Guérin-Dugué Laboratoire CLIPS Grenoble UJF, CNRS UMR 5524 Communication Langagière et

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Chapitre 3 Dénombrement et représentation d un caractère continu. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

Chapitre 3 Dénombrement et représentation d un caractère continu. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel Chapitre 3 Dénombrement et représentation d un caractère continu Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel Introduction Un caractère quantitatif est continu si ses modalités possibles

Plus en détail