Le contexte méthodologique. Les techniques multidimensionnelles. Les techniques factorielles.

Dimension: px
Commencer à balayer dès la page:

Download "Le contexte méthodologique. Les techniques multidimensionnelles. Les techniques factorielles. www.deenov.com"

Transcription

1 Le contexte méthodologique Les techniques descriptives multidimensionnelles et techniques de Data mining (mises en œuvre par exemple dans le logiciel SPAD que nous avons développé au sein de la société CISIA) sont exécutées dans le cadre d'enchaînements de procédures de visualisation et de synthèse utilisant leurs complémentarités, et filtrant la complexité et la redondance des données brutes. Ces méthodes sont présentées en détail dans les ouvrages "Technique de la Description Statistique" (Lebart, Morineau, Tabard, 1977), et "Traitement des Données Statistiques" (Lebart, Morineau, Piron, 1995, 2006). L'ouvrage "Multivariate Descriptive Statistical Analysis"(Lebart, Morineau, Warwick) est une documentation en anglais comportant des exemples d'application et incluant la description des techniques. Les techniques multidimensionnelles Le développement de ces techniques procède de l'effet conjugué de plusieurs facteurs: la possibilité de traiter des tableaux de données complexes et de grandes tailles, le regain d'intérêt suscité par de tels tableaux, la possibilité d'effectuer des opérations algorithmiques complexes, le désir de s'affranchir des hypothèses techniques rarement réalistes. Ces techniques comprennent deux familles de méthodes: les méthodes faisant appel à l'algèbre linéaire, désignées en France sous le nom de méthodes factorielles, et les techniques de classification automatique. Les techniques factorielles Il est toujours possible de calculer des distances entre les lignes et les colonnes d'un tableau rectangulaire de valeurs numériques. Ces distances peuvent s'interpréter en termes de corrélations ou de similarités. En revanche, il n'est pas possible de visualiser ces distances de façon immédiate: il est nécessaire de procéder à des transformations ou à des approximations pour en obtenir une représentation plane. C'est là l'une des tâches dévolues à l'analyse factorielle au sens large: opérer une réduction de dimension de certaines représentations "multidimensionnelles". Techniquement, les techniques factorielles reposent toutes sur une propriété mathématique des tableaux (ou matrices) rectangulaires: la décomposition aux valeurs singulières (décomposition d' Eckart et Young). Cette propriété qui concernera le tableau de données lui-même, et non pas seulement la matrice de corrélation ou un tableau de distances construit à partir des données, a ceci de remarquable qu'elle implique de façon similaire les lignes et les colonnes du tableau, et donc en général les individus (lignes) et les variables Alain Morineau Page 1 DeeNov

2 (colonnes). Cette "restitution des individus à la statistique" (travaux de Jean-Paul Benzécri) induit une attitude nouvelle vis-à-vis des traitements statistiques. L'analyse en composantes principales Conçue pour la première fois par Karl Pearson en 1901, intégrée à la statistique mathématique par Harold Hotelling en 1933, l'analyse en composantes principales n'est vraiment utilisée que depuis l avènement de micros-ordinateurs. Elle s'applique aux tableaux de type "variables-individus" dont les colonnes représentent des variables à valeurs numériques, et les lignes des individus, des observations, des objets, etc. Les proximités entre variables s'interprètent en termes de corrélation, les proximités entre individus s'interprétent en termes de similitudes globales des valeurs centrées réduites correspondantes. L'analyse en composantes principales peut donner lieu à de nombreuses variantes: elle peut s'appliquer à des rangs (diagonalisation de la matrice de corrélation des rangs de Spearman), elle peut s'appliquer après l'élimination de l'effet de certaines variables (analyse locale ou partielle). Elle peut donner lieu à la projection de variables supplémentaires (numériques ou nominales) sur les plans factoriels. Ainsi, sur une typologie de 1000 consommateurs (chacun ayant été décrit par 12 variables numériques) on peut faire apparaître les caractéristiques des personnes concernées: sexe, catégorie sicioprofessionnelle, nombre d enfants, mode d habitat, etc. Les applications de cette technique aux études marketing ont été spectaculaires. L'analyse des correspondances Cette technique, présentée sous ce nom et de façon systématique par J.P. Benzécri, a un certain nombre de précurseurs, parmi lesquels il faut citer L. Guttman et C. Hayashi. Elle s'applique aux tables de contingences ou à certains tableaux binaires (formés de 0 et de 1). Elle fournit des représentations des associations entre lignes et colonnes de ces tableaux fondées sur une distance entre profils (vecteurs de fréquences conditionnelles) désignée sous le nom de distance du Khi-2. L'analyse des correspondances multiples. L'analyse des correspondances multiples fait l'objet d'une mention particulière en raison de l'étendue de son champ d'application. Elle permet de décrire de vastes tableaux binaires, dont les fichiers d'enquêtes socio-économiques constituent un exemple privilégié: les lignes de ces tableaux sont en général des individus ou observations (plusieurs milliers) ; les colonnes sont des modalités de variables nominales, le plus souvent des modalités de réponses à des questions. Il s'agit en fait d'une extension du domaine d'application de l'analyse des correspondances, avec cependant des procédures de calcul et des règles d'interprétation spécifiques. Cette extension se fonde sur la remarque suivante. On dispose pour k individus des valeurs prises par deux variables nominales ayant respectivement n et p modalités. Il est alors équivalent de soumettre à l'analyse des correspondances la table de contingence (n,p) croisant les deux variables, ou d'analyser le tableau binaire, codé 0 et 1, à k lignes et (n+p) colonnes qui décrit les réponses. L'analyse Alain Morineau Page 2 DeeNov

3 de ce dernier tableau paraît plus coûteuse mais elle est plus intéressante car elle se généralise immédiatement au cas de plus de deux variables. Les techniques de classification Il s agit ici de faire des groupements d'éléments (en général, les lignes d'un tableau), les moins arbitraires possibles, à partir de leurs vecteurs de description. (les colonnes du tableau). Notons qu une classification peut se faire directement à partir de distances entre couples d'éléments, mais il s'agit là d'un type de données moins fréquent. Ces groupements peuvent se faire par agglomération progressive des éléments deux à deux (comme cela se fait en classification hiérarchique), ou par recherche directe d'une partition, en affectant les éléments à des centres provisoires de classes, puis en recentrant ces classes (méthode itérative des centres mobiles, ou méthode "k-means"). Il est possible aussi de combiner les deux types d agorithmes de façon à profiter des avantages de chacun. L algorithme mixte ainsi obtenu permet de traiter de gros ensembles de données de façon efficace. Il procède en quatre étapes: 1) Partitionnement initial en quelques dizaines ou centaines de classes (par une technique du type centres mobiles). 2) Agrégation des classes obtenues L'agrégation hiérarchique est assez coûteuse si elle s'applique à des milliers d'individus, mais on réduit le volume des calculs en construisant l arbre hiérarchique sur les regroupements préalables de l étape 1. 3) Choix du nombre de classes par coupure de l'arbre (en général après une inspection visuelle) et optimisation de la partition obtenue par réaffectations (de type centres mobiles). 4) Caractérisation statistique des classes Une fois les individus regroupés en classes, il est facile d'obtenir une description statistique de ces classes: on peut en effet, pour les variables numériques comme pour les variables nominales, calculer des statistiques d'écarts entre les valeurs internes à la classe et les valeurs globales; on peut également convertir ces statistiques en valeurs-tests et opérer un tri sur ces valeurs-test. On obtient finalement, pour chaque classe, les modalités et les variables les plus caractéristiques. Les classes ainsi typées constituent une typologie. Complémentarité de la Classification et des méthodes factorielles Les techniques de classification fournissent un éclairage des données différent de celui des techniques factorielles: les deux approches sont complémentaires. Les regroupements peuvent en effet permettre de corriger les déformations opérées lors des projections sur les plans factoriels. De plus, il est plus facile de décrire des paquets (les classes) qu'un continuum spatial (les plans factoriels) : 1) Les visualisations sont limitées à deux, ou en tout cas, à très peu de dimensions, alors que le nombre d'axes utilisables pour les calculs peut atteindre plusieurs dizaines, voir centaines. 2) Les visualisations peuvent inclure des milliers de points et donc founir des graphiques illisibles. Alain Morineau Page 3 DeeNov

4 L'utilisation conjointe de la classification automatique et des analyses factorielles permet de remédier à ces difficultés. Lorsqu'il y a trop de points sur un graphique, il est opportun de les regrouper en classes homogènes. Que les éléments soient situés dans un espace à deux ou à cent dimensions, les algorithmes utilisés pour ces regroupements fonctionnent de la même façon.. Autrement dit, l'opération de regroupement présente un double intérêt: allégement des sorties graphiques d'une part, prise en compte de la dimension réelle du nuage de points d'autre part. La notion de classe est intuitive (groupes d'individus les plus semblables possibles). La description des classes fait appel à la lecture de libellés rangés par ordre d intérêt. Les descriptions sont donc faciles à lire (le rangement par ordre d intérêt est fondé sur des comparaisons de pourcentages). Mais ce sont les méthodes factorielles qui permettent de visualiser les positions relatives des classes dans l'espace, et aussi de mettre en évidence certaines variations continues ou certaines dérives dans cet espace (phénomènes qui auraient pu être masqués par la discontinuité des classes). Les deux techniques sont donc complémentaires, et se valident mutuellement. Variables actives et illustratives L'analyse des correspondances et l'analyse en composantes principales, permettent de trouver de bons sous-espaces pour représenter des proximités entre profils ou entre vecteurs de description d'observations. De plus ces analyses permettent de positionner des lignes ou des colonnes supplémentaires du tableau dans ces sous-espaces. On peut ainsi illustrer les plans factoriels par des informations n'ayant pas participé à la construction de ces plans, opération qui va avoir des conséquences très importantes au niveau de l'interprétation des résultats. Les éléments ou variables servant à calculer les plans factoriels sont appelés éléments actifs ou variables actives: ils doivent former un ensemble homogène pour que les distances entre individus ou observations s'interprètent facilement. Ils sont en général relatifs à un même thème ou point-de-vue. Cette dichotomie entre variables actives et variables illustratives est fondamentale. Elle est du même ordre que la distinction que l'on établit entre variables endogènes (variable y à expliquer) et exogènes (variables x explicatives) dans les modèles de régression multiple. D'un point de vue géométrique, les deux situations sont d'ailleurs très similaires. Les variables exogènes engendrent un sous-espace sur lequel seront projetées les variables endogènes. De façon analogue, les variables actives engendrent un sous-espace que l'on va réduire pour le visualiser. C'est sur cet espace réduit que l'on va projeter les variables illustratives. Alain Morineau Page 4 DeeNov

5 Le thèmascope L'enchaînement classique de méthodes que l'on peut désigner sous le nom de thèmascope comprend les étapes suivantes : 1) Choix d'un thème, c'est-à-dire d'une batterie homogène d'éléments actifs. Ce thème définira un point de vue particulier pour la description. On peut décrire les individus du point de vue de leurs caractéristiques de base, mais aussi à partir d'un thème particulier: habitudes de consommation, opinions politiques, etc... 2) Etablissement d'une cartographie des observations à partir des variables actives (analyse des correspondances simples ou multiples, ou analyse en composantes principales, selon la nature des éléments actifs). 3) Positionnement des éléments illustratifs. On projettera toute l'information disponible susceptible d'aider à comprendre ou à interpréter la cartographie produte par les éléments actifs. En fait, la sélection des variables supplémentaires ayant des coordonnées significatives sur les axes factoriels peut se faire de façon automatique, ce qui permet d'envisager des explorations systématiques, avec de nombreux croisements de variables. 4) Partition de l'ensemble des observations, en utilisant par exemple la procédure mixte décrite plus haut. 5) Positionnement sur les graphiques précédents des centres des classes (une partition définit en fait une variable nominale particulière). Ces modalités peuvent elles aussi être projetées en éléments illustratifs sur les plans factoriels. 6) Description systématique des classes par les modalités et les variables les plus caractéristiques. En somme, cet enchaînement décrit un thème (multidimensionnel par nature) par la conjonction des deux techniques disponibles: réduction de dimension d'une part, regroupement d'autre part. Il plonge ce thème dans le contexte général de l étude, grâce aux deux techniques de projection de variables illustratives et de description automatique des classes. La sélection des éléments les plus significatifs sur les plans factoriels et lors de la description des classes, est faite automatiquement (elle est pilotée par des seuils de type statistque). Les éléments sélectionnés peuvent être décrits par des libellés explicites. Le lecteur dispose donc d'une information filtrée et parfaitement lisible. Alain Morineau Page 5 DeeNov

6 Le «Thèmascope» Les procédures préconisées pour traiter l'information issue des grands tableaux sont de type exploratoire (elles ne présupposent pas de modèles a priori, ni d'hypothèses sur les distributions théoriques des quantités observées), mais font autant appel aux possibilités de gestion de l'ordinateur qu'à ses possibilités de calcul. A des opérations de réduction de l'information (analyses factorielles descriptives, classification automatique) s'ajoutent des procédures de classements systématiques, de tri, de sélection, qui contribuent à la mise en forme et à la lisibilité des résultats obtenus. Les idées générales de ces traitements exploratoires systématiques sont les suivantes : 1. L'utilisation des techniques d'analyse des données est surtout justifiée lorsque le volume des données est un obstacle à l'assimilation directe de l'information. Suivant le cas c'est le nombre d'individus statistiques (lignes du tableau) ou le nombre de variables observées (colonnes) ou les deux qui sont sources de problèmes. Dans tous les cas, un "dictionnaire" complet décrivant les libellés de chaque variable et de ses modalités est indispensable pour obtenir des listages de résultats rapidement utilisables. Ainsi, pour décrire un axe factoriel, on donnera rarement un listage exhaustif des coordonnées des modalités sur cet axe : on imprimera seulement les libellés complets des modalités occupant les positions les plus significatives. De la même façon, pour décrire une classe d'individus (fournie par un algorithme de classification automatique), on sélectionnera les variables ou les modalités les plus caractéristiques de cette classe, et l'on imprimera les libellés correspondants dans leur ordre d importance. Il sera nécessaire de disposer de telles descriptions compactes et claires des résultats pour pouvoir juger de la pertinence d'une analyse, sans avoir à déchiffrer des colonnes de valeurs numériques ou à griffonner des graphiques. 2. Il existe une dichotomie fondamentale entre éléments actifs (participant à la construction des axes et des classes) et éléments illustratifs, qui interviennent a posteriori pour caractériser ces axes ou ces classes. Une analyse exploratoire ne fournira qu'un point de vue, hypothéqué par le choix des éléments actifs (variables ou modalités). L'ensemble des éléments actifs doit être homogène, car il doit permettre de calculer des distances entre individus ou observations qui aient un sens. Dans un traitement d'enquête par exemple, il serait maladroit de mélanger des informations signalétiques (âge, sexe...) et les opinions des personnes. Comment interpréterait-on alors la proximité entre deux individus? Il est important d'obtenir une typologie des individus d'un seul point de vue, quitte ensuite à utiliser toute l'information disponible sur ces individus pour identifier et interpréter les classes obtenues. On se restreint à analyser un seul thème à chaque fois (d'où le nom de "thèmascope"). L'ensemble des éléments illustratifs n'a nul besoin d'être homogène. On a même intérêt à ce qu'il soit le plus étendu possible, car cela augmente la possibilité de découvrir la "bonne" variable ou le bon croisement de variables susceptible d'expliquer les axes ou les classes. D'où l'importance des techniques permettant de procéder à une sélection automatique et à une édition claire des éléments les plus significatifs. 3. Analyse factorielle et classification sont complémentaires. La classification permet de corriger les déformations que l'analyse factorielle fait subir aux données en les réduisant à des représentations planes ; elle permet également de disséquer l'espace en isolant des zones homogènes, et d'en faciliter ainsi la description. Il est en effet beaucoup plus facile de décrire quelques paquets d'individus plutôt qu'un continuum de points. Chaque analyse est complétée par de telles classifications, avec identification systématique des classes. Alain Morineau Page 6 DeeNov

7 4. Tri systématique des caractéristiques. Positionnement systématique des caractéristiques des individus Les individus-lignes du tableau sont en général "anonymes", et ne nous intéressent que par leurs caractéristiques (âge, sexe... ou tout autre attribut). Au lieu de représenter les positions des individus dans l'espace factoriel, il est donc utile de représenter les centres de gravité des groupes d'individus correspondant aux divers attributs. Il y a parfois plusieurs milliers de modalités, et il est exclu de faire une représentation graphique de l'ensemble des points correspondants. Le critère de sélection statistique des réponses significatives est la valeur-test. Les valeurs-tests pour un axe factoriel ou une variable C'est une quantité attachée (sur chaque axe factoriel) à chaque modalité de réponse. Précisons le principe de son calcul : si les individus caractérisés par une modalité sont répartis aléatoirement dans la population, leur centre de gravité sera proche de celui de l'ensemble des individus (on tient évidemment compte de l'effectif de la modalité dans ces calculs). Ce que mesure la valeur-test est précisément la distance entre les centres de gravité, distance qui est convertie en "variable normale centrée réduite". Les valeurs-tests pour une classe ou un groupe Un attribut est considéré comme caractéristique de la classe si son abondance dans la classe est jugée significativement supérieure à son abondance dans la population. L'abondance de la modalité s'apprécie en premier lieu en comparant son pourcentage dans la classe à son pourcentage dans la population. Mais cette comparaison est insuffisante: il faut aussi tenir compte du degré d'inclusion de la classe dans la modalité. Le critère "valeur-test" tient compte de tous ces éléments. Il s'agit d'un critère statistique analogue à une variable normale centrée réduite: le critère s évaluen en nombre d écarts-types d une loi normale. On peut alors trier ces valeurs-tests et n'imprimer que les plus significatives, ce qui permet de caractériser très rapidement les classes. Quelques références Benzécri J-P. (1973). L'Analyse des Données, Tome 1: La Taxinomie, Tome 2: L'Analyse des Correspondances Dunod, Paris (2de. éd. 1976). Benzécri J-P. (1992). Correspondance Analysis Handbook, Marcel Dekber, New York. Bouroche J-M., Saporta G. (1983, 2006). L'analyse des Données. P.U.F., Collection "Que sais-je", Paris. Diday E., Lemaire J., Pouget J., Tetsu C. (1983). Eléments d'analyse des Données. Dunod, Paris. Escofier B., Pagès J. (1997).Initiation aux traitements statistiques. PUR, Rennes. Jolliffe I.T.(1986), Principal Component Analysis, Springer Verlag, New York. Lebart L., Morineau A. (1987). SPAD Système Portable pour l'analyse des Données. CISIA Paris. Lebart L., Morineau A., Fénelon J-P. (1979). Traitement des Données Statistiques, Méthodes et Programmes. Dunod, Paris. Lebart L., Morineau A., Piron, M. (1984, 2006). Analyse exploratoire Multidimensionnelle. Dunod, Paris. Lebart L., Morineau A., Warwick K.W. (1984). Multivariate Descriptive Statistical Analysis, Correspondence Analysis and Related Techniques for Large Matrices. Wiley, New York. Lebart L., Salem A. (1988). Analyse Statistique des Données Textuelles. Dunod, Paris. Lerman I. C. (1981). Classification et Analyse Ordinale des Données. Dunod. Paris. Nishisato S. (1980). Analysis of Categorical Data, Dual Scaling and its Applications. Universty of Toronto Press, Toronto. Roux M. (1985). Algorithmes de Classification. Masson, Paris. Saporta G. (1990, 2006). Probabilités, Analyse des Données et Statistiques. Technip, Paris. Tenenhaus M. (2007). Statistique : méthodes pour décrire, expliquer et prévoir. Dunod, Paris.. Volle M. (1981, 1997). Analyse des Données. Economica, Paris. Alain Morineau Page 7 DeeNov

Introduction. Préambule. Le contexte

Introduction. Préambule. Le contexte Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

1 - PRESENTATION GENERALE...

1 - PRESENTATION GENERALE... Contenu PREAMBULE... 2 INTRODUCTION... 2 1 - PRESENTATION GENERALE... 4 Qualité et optimalité... 8 2 - AGREGATION AUTOUR DE CENTRES MOBILES... 9 2.1 LES BASES DE L'ALGORITHME... 10 2.2 TECHNIQUES CONNEXES...

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Quelques éléments de statistique multidimensionnelle

Quelques éléments de statistique multidimensionnelle ANNEXE 1 Quelques éléments de statistique multidimensionnelle Les méthodes d analyse statistique exploratoire utilisées au cours des chapitres précédents visent à mettre en forme de vastes ensembles de

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES Patrick Rousset 1,2 et Christiane Guinot 3 1 CEREQ, Service

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

SIG ET ANALYSE EXPLORATOIRE

SIG ET ANALYSE EXPLORATOIRE SIG ET ANALYSE EXPLORATOIRE VERS DE NOUVELLES PRATIQUES EN GÉOGRAPHIE Jean-Marc ORHAN Equipe P.A.R.I.S., URA 1243 du CNRS Paris Résumé L'offre actuelle dans le domaine des logiciels de type Système d'information

Plus en détail

1. Les types d enquêtes

1. Les types d enquêtes La conduite d une enquête par questionnaire La conception d un questionnaire ne doit pas être réalisée de façon hasardeuse. Elle suit une méthodologie stricte qui permet d atteindre des résultats utilisables

Plus en détail

Analyse tarifaire en ligne (TAO) de l'omc

Analyse tarifaire en ligne (TAO) de l'omc Analyse tarifaire en ligne (TAO) de l'omc L'analyse tarifaire en ligne (TAO) permet d'effectuer des recherches et d'analyser les données tarifaires conservées dans deux bases de données de l'omc, à savoir

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées : a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN

Plus en détail

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure

Plus en détail

SEP 2B juin 20. Guide méthodologique de calcul du coût d une prestation

SEP 2B juin 20. Guide méthodologique de calcul du coût d une prestation SEP 2B juin 20 12 Guide méthodologique de calcul du coût d une Sommaire Préambule 3 Objectif et démarche 3 1 Les objectifs de la connaissance des coûts 4 2 Définir et identifier une 5 Calculer le coût

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Introduction à Business Objects. J. Akoka I. Wattiau

Introduction à Business Objects. J. Akoka I. Wattiau Introduction à Business Objects J. Akoka I. Wattiau Introduction Un outil d'aide à la décision accès aux informations stockées dans les bases de données et les progiciels interrogation génération d'états

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Rapport d'analyse des besoins

Rapport d'analyse des besoins Projet ANR 2011 - BR4CP (Business Recommendation for Configurable products) Rapport d'analyse des besoins Janvier 2013 Rapport IRIT/RR--2013-17 FR Redacteur : 0. Lhomme Introduction...4 La configuration

Plus en détail

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

CONCEPTION Support de cours n 3 DE BASES DE DONNEES CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...

Plus en détail

Introduction : présentation de la Business Intelligence

Introduction : présentation de la Business Intelligence Les exemples cités tout au long de cet ouvrage sont téléchargeables à l'adresse suivante : http://www.editions-eni.fr Saisissez la référence ENI de l'ouvrage RI3WXIBUSO dans la zone de recherche et validez.

Plus en détail

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN L'analyse de données Polycopié de cours ENSIETA - Réf : 1463 Arnaud MARTIN Septembre 2004 Table des matières 1 Introduction 1 11 Domaines d'application 2 12 Les données 2 13 Les objectifs 3 14 Les méthodes

Plus en détail

Annexe sur la maîtrise de la qualité

Annexe sur la maîtrise de la qualité Version du 09/07/08 Annexe sur la maîtrise de la qualité La présente annexe précise les modalités d'application, en matière de maîtrise de la qualité, de la circulaire du 7 janvier 2008 fixant les modalités

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS 1 sur 9 COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS (L'article intégral est paru dans Gestions Hospitalières n 357 de juin-juillet 1996) Pour plus d'informations concernant

Plus en détail

Cycle de formation certifiante Sphinx

Cycle de formation certifiante Sphinx Cycle de formation certifiante Sphinx 28, 29, 30 Mai 2015 Initiation, Approfondissement et Maîtrise Etudes qualitatives / quantitatives Initiation, approfondissement et maîtrise des études qualitatives

Plus en détail

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand Service méthodes statistiques Institut National d Etudes Démographiques (Ined)

Plus en détail

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur NOTIFICATIONS GUIDE Le module Notifications permet de retrouver des notifications en utilisant les champs spécifiques de la base de données du Registre central des notifications (RCN). Il comporte une

Plus en détail

Analyse hiérarchique de tâches (AHT)

Analyse hiérarchique de tâches (AHT) (AHT) Définition Cette méthode consiste à décomposer la tâche principale (ou le but) de l'opérateur en sous-tâches (ou sous-buts), puis chacune de ces sous-tâches en plusieurs sous-sous-tâches, et ainsi

Plus en détail

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

SPHINX Logiciel de dépouillement d enquêtes

SPHINX Logiciel de dépouillement d enquêtes SPHINX Logiciel de dépouillement d enquêtes sphinx50frversion4.doc 1 Les trois stades du SPHINX sont ceux que comporte habituellement toute enquête d opinion: Elaboration du questionnaire (fiche outil

Plus en détail

NORME INTERNATIONALE D AUDIT 260 COMMUNICATION DES QUESTIONS SOULEVÉES À L OCCASION DE L AUDIT AUX PERSONNES CONSTITUANT LE GOUVERNEMENT D'ENTREPRISE

NORME INTERNATIONALE D AUDIT 260 COMMUNICATION DES QUESTIONS SOULEVÉES À L OCCASION DE L AUDIT AUX PERSONNES CONSTITUANT LE GOUVERNEMENT D'ENTREPRISE NORME INTERNATIONALE D AUDIT 260 COMMUNICATION DES QUESTIONS SOULEVÉES À L OCCASION DE L AUDIT AUX PERSONNES CONSTITUANT LE GOUVERNEMENT D'ENTREPRISE SOMMAIRE Paragraphes Introduction... 1-4 Personnes

Plus en détail

2 Grad Info Soir Langage C++ Juin 2007. Projet BANQUE

2 Grad Info Soir Langage C++ Juin 2007. Projet BANQUE 2 Grad Info Soir Langage C++ Juin 2007 Projet BANQUE 1. Explications L'examen comprend un projet à réaliser à domicile et à documenter : - structure des données, - objets utilisés, - relations de dépendance

Plus en détail

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.

Plus en détail

NOTIONS DE PROBABILITÉS

NOTIONS DE PROBABILITÉS NOTIONS DE PROBABILITÉS Sommaire 1. Expérience aléatoire... 1 2. Espace échantillonnal... 2 3. Événement... 2 4. Calcul des probabilités... 3 4.1. Ensemble fondamental... 3 4.2. Calcul de la probabilité...

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

REVUE DE STATISTIQUE APPLIQUÉE

REVUE DE STATISTIQUE APPLIQUÉE REVUE DE STATISTIQUE APPLIQUÉE H. ABDALLAH G. SAPORTA Mesures de distance entre modalités de variables qualitatives; application à la classification Revue de statistique appliquée, tome 51, n o 2 (2003),

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

OBJET : Utilisation des données contenues dans les annuaires téléphoniques.

OBJET : Utilisation des données contenues dans les annuaires téléphoniques. RECOMMANDATION N 01 / 1999 du 23 juin 1999 N. Réf. : 10 / IP / 1998 / 389 / 27 / ACL OBJET : Utilisation des données contenues dans les annuaires téléphoniques. La Commission de la protection de la vie

Plus en détail

Les tableaux croisés dynamiques

Les tableaux croisés dynamiques Les tableaux croisés dynamiques Table des matières Les tableaux croisés dynamiques... 1 1. Les tutoriels... 1. Quelle est l'utilité d'un tableau croisé dynamique... 3. Vérifier les données de départ...

Plus en détail

Traitement numérique de l'image. Raphaël Isdant - 2009

Traitement numérique de l'image. Raphaël Isdant - 2009 Traitement numérique de l'image 1/ L'IMAGE NUMÉRIQUE : COMPOSITION ET CARACTÉRISTIQUES 1.1 - Le pixel: Une image numérique est constituée d'un ensemble de points appelés pixels (abréviation de PICture

Plus en détail

Les clients puissance cube

Les clients puissance cube LETTRE CONVERGENCE Les clients puissance cube L intelligence artificielle au service du marketing des services N 28 To get there. Together. A PROPOS DE BEARINGPOINT BearingPoint est un cabinet de conseil

Plus en détail

Mémo d'utilisation de BD Dico1.6

Mémo d'utilisation de BD Dico1.6 Mémo d'utilisation de BD Dico1.6 L'application BDDico a été développée par la Section Cadastre et Géomatique de la RCJU. Son utilisation demeure réservée aux personnes autorisées. Les demandes d'utilisation

Plus en détail

Université de Bangui. Modélisons en UML

Université de Bangui. Modélisons en UML Université de Bangui CRM Modélisons en UML Ce cours a été possible grâce à l initiative d Apollinaire MOLAYE qui m a contacté pour vous faire bénéficier de mes connaissances en nouvelles technologies et

Plus en détail

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage, SYNTHÈSE DU CHAPITRE 11 : LA SEGMENTATION DE LA DEMANDE. La segmentation. La segmentation de la demande consiste à définir des groupes de clients (des segments de clientèle) ayant des comportements homogènes

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Contenu attendu des guides nationaux de bonnes pratiques d hygiène GBPH

Contenu attendu des guides nationaux de bonnes pratiques d hygiène GBPH Contenu attendu des guides nationaux de bonnes pratiques d hygiène GBPH Note d information à l usage des professionnels En complément de cette note, des informations relatives au contenu des GBPH sont

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

DURÉE DE VIE ET DE. Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique

DURÉE DE VIE ET DE. Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique ESTIMATION ET PRÉDICTION DE LA FIDÉLITÉ, DE LA DURÉE DE VIE ET DE LA VALEUR ÉCONOMIQUE DES CLIENTS PAR DES TECHNIQUES DE DATAMINING Michel JAMBU, Centre National d'etudes des Télécommunications France

Plus en détail

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident? Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident? Nathalie LEPINE GREMAQ, Université de Toulouse1, 31042 Toulouse, France GRAPE, Université Montesquieu-Bordeaux

Plus en détail

Aider à la décision. - La matrice d Eisenhower - Le diagramme de Pareto - Les arbres d objectifs - Le diagramme d affinités - La méthode Philips 6.

Aider à la décision. - La matrice d Eisenhower - Le diagramme de Pareto - Les arbres d objectifs - Le diagramme d affinités - La méthode Philips 6. Guide méthodologique du travail en commun Aider à la décision > Hiérarchiser les priorités > Choisir les bonnes solutions > Hiérarchiser les priorités - La matrice d Eisenhower - Le diagramme de Pareto

Plus en détail

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration L'évolution de VISUAL MESSAGE CENTER Architecture et intégration Sommaire Résumé exécutif Base technologique : VISUAL Message Center 2 3 VISUAL Message Center Core Engine VISUAL Message Center Extended

Plus en détail

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. Synthèse des travaux réalisés 1. Problématique La question D7 du plan d exécution du Programme National de Recherches

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Localisation des fonctions

Localisation des fonctions MODALISA 7 Localisation des fonctions Vous trouverez dans ce document la position des principales fonctions ventilées selon l organisation de Modalisa en onglets. Sommaire A. Fonctions communes à tous

Plus en détail

Les bases de données Page 1 / 8

Les bases de données Page 1 / 8 Les bases de données Page 1 / 8 Sommaire 1 Définitions... 1 2 Historique... 2 2.1 L'organisation en fichier... 2 2.2 L'apparition des SGBD... 2 2.3 Les SGBD relationnels... 3 2.4 Les bases de données objet...

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

LibreOffice Calc : introduction aux tableaux croisés dynamiques

LibreOffice Calc : introduction aux tableaux croisés dynamiques Fiche logiciel LibreOffice Calc 3.x Tableur Niveau LibreOffice Calc : introduction aux tableaux croisés dynamiques Un tableau croisé dynamique (appelé Pilote de données dans LibreOffice) est un tableau

Plus en détail

2. Activités et Modèles de développement en Génie Logiciel

2. Activités et Modèles de développement en Génie Logiciel 2. Activités et Modèles de développement en Génie Logiciel Bernard ESPINASSE Professeur à l'université d'aix-marseille Plan Les Activités du GL Analyse des besoins Spécification globale Conceptions architecturale

Plus en détail

Evaluation de la variabilité d'un système de mesure

Evaluation de la variabilité d'un système de mesure Evaluation de la variabilité d'un système de mesure Exemple 1: Diamètres des injecteurs de carburant Problème Un fabricant d'injecteurs de carburant installe un nouveau système de mesure numérique. Les

Plus en détail

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement

Plus en détail

Fiche conseil n 16 Audit

Fiche conseil n 16 Audit AUDIT 1. Ce qu exigent les référentiels Environnement ISO 14001 4.5.5 : Audit interne EMAS Article 3 : Participation à l'emas, 2.b Annexe I.-A.5.4 : Audit du système de management environnemental SST OHSAS

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE L ENQUETE PAR SONDAGE : LA METHODE La définition La méthode Le questionnaire Les biais La passation du questionnaire La validité des réponses Les échelles de mesure Les échelles d évaluation Les échelles

Plus en détail

SAP BusinessObjects Web Intelligence (WebI) BI 4

SAP BusinessObjects Web Intelligence (WebI) BI 4 Présentation de la Business Intelligence 1. Outils de Business Intelligence 15 2. Historique des logiciels décisionnels 16 3. La suite de logiciels SAP BusinessObjects Business Intelligence Platform 18

Plus en détail

QUALITÉ DE L INFORMATION DANS LES

QUALITÉ DE L INFORMATION DANS LES QÜESTIIÓ, vol. 23, 2, p. 321-342, 1999 QUALITÉ DE L INFORMATION DANS LES ENQUÊTES L. LEBART Ecole Nationale Supérieure des Télécommunications Cet article tente de montrer les contributions des analyses

Plus en détail

Systèmes de transport public guidés urbains de personnes

Systèmes de transport public guidés urbains de personnes service technique des Remontées mécaniques et des Transports guidés Systèmes de transport public guidés urbains de personnes Principe «GAME» (Globalement Au Moins Équivalent) Méthodologie de démonstration

Plus en détail

Communiqué de Lancement

Communiqué de Lancement Direction du Marketing Produits Sage - Division Mid Market Communiqué de Lancement Rapprochement Bancaire 1000 Produit : Rapprochement Bancaire 1000 Bases de Données : Oracle - MS/SQL Server Microsoft

Plus en détail

Les risques liés à l activité de l entreprise : quels outils pour les identifier?

Les risques liés à l activité de l entreprise : quels outils pour les identifier? Les risques liés à l activité de l entreprise : quels outils pour les identifier? Alger, le 23-24 Novembre 2009 Présentée par: Mlle Amina NADJI Doctorante en 3ème année sciences économiques (CRIISEA, Centre

Plus en détail

Protection sociale complémentaire : les dispenses d'affiliation de vos salariés (retraite, prévoyance, mutuelle)

Protection sociale complémentaire : les dispenses d'affiliation de vos salariés (retraite, prévoyance, mutuelle) Protection sociale complémentaire : les dispenses d'affiliation de vos salariés (retraite, prévoyance, mutuelle) Un régime de retraite supplémentaire ou de prévoyance peut être considéré comme obligatoire.

Plus en détail

Associations Dossiers pratiques

Associations Dossiers pratiques Associations Dossiers pratiques Le tableau de bord, outil de pilotage de l association (Dossier réalisé par Laurent Simo, In Extenso Rhône-Alpes) Difficile d imaginer la conduite d un bateau sans boussole

Plus en détail

ORACLE TUNING PACK 11G

ORACLE TUNING PACK 11G ORACLE TUNING PACK 11G PRINCIPALES CARACTÉRISTIQUES : Conseiller d'optimisation SQL (SQL Tuning Advisor) Mode automatique du conseiller d'optimisation SQL Profils SQL Conseiller d'accès SQL (SQL Access

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010

MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010 E MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010 Professeure :Elissar Toufaily Plage horaire du cours : Cours en salle Jeudi 15h 30-18h30 Local 4221 PAP Du 2 septembre. 2010 au 9

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Annexe A de la norme 110

Annexe A de la norme 110 Annexe A de la norme 110 RAPPORTS D ÉVALUATION PRÉPARÉS AUX FINS DES TEXTES LÉGAUX OU RÉGLEMENTAIRES OU DES INSTRUCTIONS GÉNÉRALES CONCERNANT LES VALEURS MOBILIÈRES Introduction 1. L'annexe A a pour objet

Plus en détail

SERIE 1 Statistique descriptive - Graphiques

SERIE 1 Statistique descriptive - Graphiques Exercices de math ECG J.P. 2 ème A & B SERIE Statistique descriptive - Graphiques Collecte de l'information, dépouillement de l'information et vocabulaire La collecte de l information peut être : directe:

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail