PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE
|
|
|
- Aurélie Barrette
- il y a 10 ans
- Total affichages :
Transcription
1 PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée, le bruit inhérent aux données naturelles répartit les maxima entre des individus légèrement disjoints dans l espace. Une même structure spatiale peut être décrite par des variables qui vont se répartir en plusieurs facteurs de l ACP ; au vu des cartographies correspondantes, l utilisateur a néanmoins l intuition que ces facteurs reflètent un phénomène dont l organisation spatiale à grande échelle est commune. L analyse factorielle joue alors mal son rôle pour résumer les données, puisque l on ne parvient pas à regrouper en une cartographie unique le phénomène étudié. Comme la cause réside dans un bruit local, il est logique d envisager un lissage préalable. Nous reproduisons cette situation en construisant un lot de données synthétiques, comportant 500 individus répartis dans le plan géographique selon un réseau irrégulier, et décrits par 9 variables. Trois structures spatiales sont imposées : une structure circulaire, une structure diagonale, et une structure isotrope (bruit blanc). Pour chacune des structures circulaire et linéaire, 3 variables sont obtenues par duplication de la variable source décrivant la structure idéale, on ajoute à chaque variable un bruit blanc dont on contrôle l importance. METHODOLOGIE Trois approches sont classiquement proposées pour la description multivariée de données réparties dans l espace : préprocessing (par ex. : Benali et Escoffier, 1990), intégration des cooordonnées (x y) dans la chaîne de calcul, à la suite de Lebart (1969), ou postprocessing, (par exemple méthode RBM dans Berry & Linoff, 1997). Si l avantage d une procédure intégrée est d optimiser directement le résultat en fonction de la contrainte spatiale, souvent traduite sous forme d un graphe de contiguïté - voir par exemple Faraj (1993) -, des difficultés de mise en œuvre peuvent intervenir, comme signalé par Aragon & al ( 2001). Comme nous nous plaçons dans le cas où plusieurs structures spatiales différentes organisent les données, il peut être tentant de revenir à un préprocessing mis en œuvre variable par variable - ou par groupe cohérent de variables -, susceptible de contrôler avec plus de souplesse qu un calcul intégré l importance donnée à la contrainte spatiale. Pour cet objectif, des avantages sont offerts par l algorithme de lissage LOESS, proposé par Cleveland (1991) et postérieur aux travaux de Benali et Escoffier (ib) ; il permet un lissage plus ou moins fort, et fournit des critères de qualité sur le résultat. Nous cherchons ici à optimiser le lissage LOESS et les modalités de calcul de l ACP, en utilisant une approche itérative.
2 CRITERE DE COVARIANCE UTILISE Puisque l on cherche à regrouper en un facteur unique des variables suspectées de refléter un même phénomène (ici par exemple les 3 variables représentant la structure circulaire), nous prenons la part d inertie occupée par les p variables incriminées, choisies dans les N variables disponibles, on calcule donc pour chacun des K facteurs : %inertie K = 100 ( Σ v=1 à p cos 2 (V K ) / N ) (1) Cette formule est analogue à celle donnant la part d inertie d un facteur, on la restreint ici aux p variables d intérêt (connues a priori dans notre exemple). Comme on cherche une représentation sur un facteur unique en vue d une imagerie, on prend le facteur donnant, pour les variables considérées, la part d inertie maximale. Le coefficient de corrélation entre les coordonnées factorielles des individus et la variable initiale décrivant la structure est également considéré. Le critère (1) permet de comparer les résultats obtenus avec différentes modalités de préprocessing : en mettant en oeuvre ou non - le lissage Loess et, dans ce cas, en utilisant les données prédites ou les résidus comme proposé par Cliff & Ord (1981). L algorithme Loess peut être mis en œuvre successivement avec différentes tailles pour la fenêtre mobile. Des critères ont été proposés pour sélectionner la taille de fenêtre optimale : critère d Akaike (1973) ou validation croisée, voir Hurvich et al., (1998) et Cravan et Wahba, (1979). Enfin, la régression effectuée dans chaque fenêtre peut être calculée sur toutes les valeurs, ou avec des itérations pour éliminer des outliers. Enfin des conditions calculatoires variées peuvent être appliquées à l ACP ellemême. Sur la matrice factorielle décrivant les variables, une rotation des axes peut être appliquée, nous avons testé les algorithmes Varimax de Kayser (1958) et oblique de Harris Kayser (1964). Le nombre de facteurs retenus a également été pris en compte. Pour ces tests méthodologiques, on donc est amené à effectuer un grand nombre d analyses factorielles dans des conditions calculatoires différentes. Les résultats sont présentés sommairement. RESULTATS OBTENUS Sur les données synthétiques produites, les résultats obtenus pour la structure circulaire et pour la structure linéaires sont très proches (ci-après résultats pour la structure circulaire). La stratégie employée améliore fortement le critère (1). Selon ce critère, les meilleures solutions sont fournies par les valeurs prédites issues de LOESS reprises par ACP avec une rotation d axes oblique, surclassant d une dizaine de points en % d inertie les résultats d ACP Varimax sur valeurs brutes, et a fortiori ceux obtenus sans préprocessing ni rotation d axe. Cette tendance s affirme si on augmente le bruit introduit dans les données. Les critères testés pour sélectionner le lissage optimum fournissent des résultats équivalents sur ce jeu de données. Il peut arriver qu une solution itérative produise un choix meilleur. Les meilleurs résultats sont obtenus soit sur valeurs prédites sans
3 itération, soit avec 4 ou 5 itérations (pour éliminer les outliers), mais en prenant alors les résidus de la régression. Concernant la rotation des axes factoriels, les systèmes de rotation Varimax (Kayser 1958) ou oblique (Harris Kayser 1964) font jeu à peu près égal, avec un léger avantage pour la rotation oblique. DISCUSSION Le critère proposé est simple et rapide à calculer, il s inscrit dans la logique des résultats examinés habituellement par l utilisateur. Il est en relation satisfaisante avec le r 2, mais est probablement plus fiable dans les faibles niveaux de valeur. Son intérêt est de pouvoir sélectionner la combinaison (préprocessing, analyse factorielle) qui fournit la solution se rapprochant le plus de l objectif recherché, et de pouvoir trier un grand nombre de solutions, ce que l on ne peut faire par un examen subjectif d une collection de cartes. Dans le cas de l exemple simple ici traité, nous avons une connaissance a priori des variables à examiner conjointement. Dans d autres cas, une classification des variables pourrait être préalablement mise en œuvre. L intérêt des rotations d axes, antérieurement évoqué par Valois (1986) est ici quantifié. On constate qu une organisation des données, qui comme dans les milieux naturels, comporte une part au moins locale de stationnarité, permet à cet algorithme développé sur les variables, d avoir une efficacité pour regrouper les individus. L intérêt est la simplicité de mise en œuvre, et l absence de contrainte spatiale, donc la garantie de pouvoir s adapter à des structures spatiales très variées. Dans notre cas deux structures spatiales complètement différentes coexistent dans les données et sont correctement détectées. Concernant le lissage LOESS, nous n avons pas connaissance de critère sélectionnant le taux de lissage optimum en prenant en compte un point de vue multivarié. Les critères testés ne fonctionnent que pour chaque variable prise isolément. Une approche itérative a été mise en oeuvre pour pallier ce point. Il s avère que l optimum de lissage, d un point de vue multivarié, peut diffèrer de celui déduit variable par variable par les critères mentionnés. Remarquons qu aucune hypothèse sur la structure des données ni graphe de contiguïté n est introduit dans le traitement. Il s avère capable de rendre compte dans le même calcul de 2 structures spatiales complètement différentes (figures en annexe). L étude a été limitée à l ACP traditionnelle, elle pourrait être évidemment prendre en compte des modalités particulières d ACP : ACPLocale de Carlier (1985) ou l ACPUSC d Aragon et Caussinus (1980), ou d autres méthodes plus récentes mentionnées par Loader (1999) ou Hastie et al. (2001). Si le bruit contenue dans les données est plus fort que la gamme considérée ici, il peut être avantageux de coder les variables en seuils, ce qui reviendrait à proposer une AFCM lissée. Si certaines des conclusions sont spécifiques au cas de données utilisé, la méthodologie mise en œuvre peut être appliquée à d autres situations expérimentales.
4 Bibliographie [1] Akaike H. (1973), "Information Theory and an Extension of the Maximum Likelihood Principle," in Proceedings of the Second International Symposium on Information Theory, Petrov and Csaki, [2] Aragon Y., Caussinus H. (1980), Une analyse en composantes principales pour des unités statistiques corrélées. Data Analysis and Informatics, [3] Aragon Y., Goulard M., Malin E., Perrin O., Thomas-Agnan C. (2001), Estimation d une matrice de contiguïté et tests dans un modèle de dépendance, application à l offre de soins dans la région Midi-Pyrénées, XXXIIIèmes Journées de Statistiques, SFdS, Nantes. [4] Benali H. Escofier B. 1990, Analyse factorielle lissée et analyse factorielle des différences locales, Revue de Statistique Appliquée. XXXVIII (2), [5] Berry M.J.A. et Linoff G. (1997), Data Mining : for marketing, sales and customer support, John Wiley & sons, New York. [6] Carlier A. (1985), Application de l analyse factorielle des evolutions et de l analyse intra-périodes. Statistiques et Analyse des données. 10, 1, [7] Cleveland W.S. et Grosse E. (1991), Computational Methods for Local Regression, Statistics and Computing, 1, [8] Cliff A.D. et Ord J.K. (1981), Spatial processes, models and applications, Pion Limited. [9] Craven, P. and Wahba, G. (1979), "Smoothing Noisy Data with Spline Functions," Numerical Mathematics, 31, [10] Faraj A. (1993), Analyse de contiguïté, une analyse discriminante généralisée à plusieurs variables qualitatives. Revue de Statistique Appliquée, XLI (3), [11] Harris C.W., Kayser H.F. (1964) Oblique factor analytic solution in factor analysis, psychometrica, 29, [12] Hastie T., Tibshirani R. et Friedman J. (2001) The elements of statistical learning : Data Mining, Inference and Predition, Springer Series in Statistics. [13] Hurvich, C.M., Simonoff, J.S., and Tsai, C.L. (1998), "Smoothing Parameter Selection in Nonparametric Regression Using an Improved Akaike Information Criterion," Journal of the Royal Statistical Society B, 60, [14] Kayser H. (1958) The Varimax criterion, The varimax criterion for analytic rotation in factor analysis, Psychometrica, 23, [15] Lebart L. (1969), Analyse statistique de la contiguïté, Publications de l Université de Paris, 18, [16] Loader C. (1999) Local regression and likelihood, Statistics and Computing, Springer. [17] Valois J.-P. (1986), Mise en oeuvre interactive des choix algorithmiques : application à l'analyse factorielle des données géochimiques, in Data Analysis and Informatics, IV, Diday and al éd., Elsevier (North Holland),
5 ANNEXE : Figure illustrative Structure initiale 1, non bruitée Structure 1 bruitée (variable 1) Résultat du traitement Structure initiale 2, non bruitée Structure 2 bruitée (variable 4) Résultat du traitement Le sous-tableau gauche montre les structures prises pour test. Le sous-tableau médian reproduit l une des 3 variables, obtenues par duplication de la structure initiale additionnée d un bruit blanc (ici 60% de bruit sur chaque structure, pas de bruit en périphérie). Le sous-tableau droit visualise les résultats obtenus après préprocessing LOESS, utilisé sans itération, les valeurs prédites étant fournies en entrée d une ACP avec rotation d axes oblique.
Extraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 [email protected] 1 Introduction
TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux [email protected] www.pressesagro.be
L'analyse des données à l usage des non mathématiciens
Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015
Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!
CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE Information importante : Ces conseils ne sont pas exhaustifs! Conseils généraux : Entre 25 et 60 pages (hormis références, annexes, résumé) Format d un
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
AICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678
Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées
Arbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Théorèmes de Point Fixe et Applications 1
Théorèmes de Point Fixe et Applications 1 Victor Ginsburgh Université Libre de Bruxelles et CORE, Louvain-la-Neuve Janvier 1999 Published in C. Jessua, C. Labrousse et D. Vitry, eds., Dictionnaire des
Modélisation géostatistique des débits le long des cours d eau.
Modélisation géostatistique des débits le long des cours d eau. C. Bernard-Michel (actuellement à ) & C. de Fouquet MISTIS, INRIA Rhône-Alpes. 655 avenue de l Europe, 38334 SAINT ISMIER Cedex. Ecole des
Une comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS
1 sur 9 COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS (L'article intégral est paru dans Gestions Hospitalières n 357 de juin-juillet 1996) Pour plus d'informations concernant
Cycle de formation certifiante Sphinx
Cycle de formation certifiante Sphinx 28, 29, 30 Mai 2015 Initiation, Approfondissement et Maîtrise Etudes qualitatives / quantitatives Initiation, approfondissement et maîtrise des études qualitatives
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
STATISTIQUES. UE Modélisation pour la biologie
STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres
Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
(Customer Relationship Management, «Gestion de la Relation Client»)
(Customer Relationship Management, «Gestion de la Relation Client») Les Banques et sociétés d assurance sont aujourd'hui confrontées à une concurrence de plus en plus vive et leur stratégie " clientèle
Le CRM en BFI : une approche du pilotage stratégique
Le CRM en BFI : une approche du pilotage stratégique Sébastien Pasquet, Responsable de missions Le CRM (Customer Relationship Management) s est développé depuis 10 ans essentiellement par l intégration
e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi
e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi Julie Séguéla 1, 2, Gilbert Saporta 1, Stéphane Le Viet 2 1 Laboratoire Cédric CNAM 292 rue Saint Martin 75141 Paris
Introduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications
L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET [email protected] http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d
Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
ESIEA PARIS 2011-2012
ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données
1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données Votre interlocuteur Didier Gaultier Directeur Data Science Business & Decision Professeur de Statistique à l
EP 2 533 063 A1 (19) (11) EP 2 533 063 A1 (12) DEMANDE DE BREVET EUROPEEN. (43) Date de publication: 12.12.2012 Bulletin 2012/50
(19) (12) DEMANDE DE BREVET EUROPEEN (11) EP 2 33 063 A1 (43) Date de publication: 12.12.12 Bulletin 12/0 (1) Int Cl.: G01R 31/318 (06.01) (21) Numéro de dépôt: 1216093.1 (22) Date de dépôt: 23.04.12 (84)
Echantillonnage Non uniforme
Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas
COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES
COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée
Principe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, [email protected] 2 Université
1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
Production des Services d Assurance non-vie selon le SCN 2008
REPUBLIQUE DU CAMEROUN Paix - Travail Patrie ---------- INSTITUT NATIONAL DE LA STATISTIQUE ---------- REPUBLIC OF CAMEROON Peace - Work Fatherland ---------- NATIONAL INSTITUTE OF STATISTICS ----------
IBM SPSS Regression 21
IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics
MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie
S3 Spécialité : Recherches en psychologie UE OBLIGATOIRES UE 1 : Epistémologie et méthodes de recherche en psychologie Ce séminaire aborde plusieurs aspects de la recherche en psychologie. Il présente
Évaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin
Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet
Intelligence précoce
Les données de procédé constituent une mine d informations très utiles pour l entreprise Geoff Artley Le secteur du raffinage est aujourd hui soumis à forte pression financière : amputation des marges,
Le Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.
Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION
Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES [email protected] 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)
87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation
TABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Etude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Spécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala [email protected] http://chirouble.univ-lyon2.fr/~ricco/data-mining
NON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES
EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES Bruno Agard (1), Andrew Kusiak (2) (1) Département de Mathématiques et de Génie Industriel, École Polytechnique de Montréal,
De la mesure à l analyse des risques
De la mesure à l analyse des risques Séminaire ISFA - B&W Deloitte Jean-Paul LAURENT Professeur à l'isfa, Université Claude Bernard Lyon 1 [email protected] http://laurent.jeanpaul.free.fr/ 0 De
INTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1
UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés
Analyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Christophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE
Gestion du niveau de la franchise d un contrat avec bonus-malus Pierre THEROND & Stéphane BONCHE SOMMAIRE 1. Réduction de franchise en l absence de système bonus-malus A - Bonnes propriétés du modèle collectif
Construction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012
Construction de bases biométriques pour l assurance dépendance SCOR inform - Novembre 2012 Construction de bases biométriques pour l assurance dépendance Auteur Laure de Montesquieu Responsable Centre
Franck VAUTIER, Jean-Pierre TOUMAZET, Erwan ROUSSEL, Marlène FAURE, Mohamed ABADI, Marta FLOREZ, Bertrand DOUSTEYSSIER
Utilisation d images dérivées d un jeu de données LIDAR pour la détection automatisée de vestiges archéologiques (programme de recherche méthodologique LiDARCHEO) Franck VAUTIER, Jean-Pierre TOUMAZET,
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897
Conseil économique et social
NATIONS UNIES E Conseil économique et social Distr. GÉNÉRALE ECE/CES/GE.20/2008/3 12 février 2008 FRANÇAIS Original: ANGLAIS COMMISSION ÉCONOMIQUE POUR L EUROPE CONFÉRENCE DES STATISTICIENS EUROPÉENS Réunion
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
EVOLUTION SPATIO-TEMPORELLE DE L OCCUPATION DES ESPACES SUR LE TRIANGLE MARNAIS
EVOLUTION SPATIO-TEMPORELLE DE L OCCUPATION DES ESPACES SUR LE TRIANGLE MARNAIS MARTIN S. *, DELAHAYE F. ** Bureau d études E3C 2 rue Léon Patoux CS 50001 51664 REIMS CEDEX * Mr Stéphane MARTIN, Directeur
Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS
Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES
Mémo d utilisation de ADE-4
Mémo d utilisation de ADE-4 Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr 2003 ADE-4 est un logiciel d analyses des communautés écologiques créé par l équipe de biostatistiques de Lyon. Il propose
LES MODELES DE SCORE
LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d
Intégration de la dimension sémantique dans les réseaux sociaux
Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI [email protected] 1 Contexte : Recommandation dans les réseaux sociaux
Annexe 6. Notions d ordonnancement.
Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. [email protected] Résumé Ce document
Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes
de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,[email protected]
MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010
E MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010 Professeure :Elissar Toufaily Plage horaire du cours : Cours en salle Jeudi 15h 30-18h30 Local 4221 PAP Du 2 septembre. 2010 au 9
Cloud Computing, discours marketing ou solution à vos problèmes?
Cloud Computing, discours marketing ou solution à vos problèmes? Henri PORNON 3 avril 2012 IETI Consultants 17 boulevard des Etats-Unis - F-71000 Mâcon Tel : (0)3 85 21 91 91 - fax : (0)3 85 21 91 92-
SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...
SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... 3 Introduction... 3 Échelle Interactive... 4 Navigation
Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?
Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version
Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?
Exercices Alternatifs Quelqu un aurait-il vu passer un polynôme? c 2004 Frédéric Le Roux, François Béguin (copyleft LDL : Licence pour Documents Libres). Sources et figures: polynome-lagrange/. Version
TUTORIEL Qualit Eval. Introduction :
TUTORIEL Qualit Eval Introduction : Qualit Eval est à la fois un logiciel et un référentiel d évaluation de la qualité des prestations en établissements pour Personnes Agées. Notre outil a été spécifiquement
Le risque Idiosyncrasique
Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes
INF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Apprentissage symbolique et statistique à l ère du mariage pour tous
Apprentissage symbolique et statistique à l ère du mariage pour tous Stéphane Canu asi.insa-rouen.fr/enseignants/~scanu RFIA 2014, INSA Rouen 2 juillet 2014 Apprentissage : humain vs. machine Les apprentissages
EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE.
EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE. MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE DE LA MAÎTRISE EN ADMINISTRATION PUBLIQUE - «OPTION POUR ANALYSTES»
K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau
Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des
Analyse en Composantes Principales
Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées
Gestion obligataire passive
Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage
Projet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
FORMULAIRE DE STATISTIQUES
FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)
Item 169 : Évaluation thérapeutique et niveau de preuve
Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes
Les clients puissance cube
LETTRE CONVERGENCE Les clients puissance cube L intelligence artificielle au service du marketing des services N 28 To get there. Together. A PROPOS DE BEARINGPOINT BearingPoint est un cabinet de conseil
TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN
TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons
Laboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
[email protected] http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels,
Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 [email protected] http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens,
1 Installer des packages
10 mai 2014 Fabricɛ Dɛssaint Inra - UMR Agroécologie, Dijon 10 mai 2014 R est un système d analyse statistique et graphique, qui est distribué librement et dont le développement et la distribution sont
Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine
Mortalité observée et mortalité attendue au cours de la vague de chaleur de uillet en France métropolitaine FOUILLET A 1, REY G 1, JOUGLA E, HÉMON D 1 1 Inserm, U75, Villeuif, France. Inserm CépiDc, IFR9,
Opérations de base sur ImageJ
Opérations de base sur ImageJ TPs d hydrodynamique de l ESPCI, J. Bico, M. Reyssat, M. Fermigier ImageJ est un logiciel libre, qui fonctionne aussi bien sous plate-forme Windows, Mac ou Linux. Initialement
MODELE A CORRECTION D ERREUR ET APPLICATIONS
MODELE A CORRECTION D ERREUR ET APPLICATIONS Hélène HAMISULTANE Bibliographie : Bourbonnais R. (2000), Econométrie, DUNOD. Lardic S. et Mignon V. (2002), Econométrie des Séries Temporelles Macroéconomiques
Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.
Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air. Michel Bobbia 1 & Michel Misiti 2 & Yves Misiti 2 & Jean-Michel Poggi 3 & Bruno Portier 4 1 Air Normand,
