Gestion des données manquantes en Analyse en Composantes Principales
|
|
- Charles Simoneau
- il y a 8 ans
- Total affichages :
Transcription
1 Gestion des données manquantes en Analyse en Composantes Principales François Husson & Julie Josse Laboratoire de mathématiques appliquées, Agrocampus Rennes Bordeaux, 11 mars / 37
2 L'équipe d'agrocampus 5 enseignants-chercheurs (2 Pr, 3 MC) 1 ingénieure-doctorante / 3 doctorants / 1 secrétaire 2 / 37
3 Activités Recherche Analyse de données, modèles en grandes dimensions Domaines d'applications : analyse sensorielle et génomique Enseignement Généraliste : modèle linéaire, analyse des données, planication expérimentale, etc. Spécialisé avec une spécialité d'ingénieur et un master cohabilité avec Rennes 2 : sensométrie, données génomiques, tableaux multiples, etc. Développement Création de packages R : FactoMineR, SensoMineR, FAMT Organisation de congrès (user!2009, Carme 2011, Sensometrics 2012) 3 / 37
4 Publications - livres Analyses factorielles simples et multiples (B. Escoer, J. Pagès, 2008) Statistique générale pour utilisateurs : Cours (J. Pagès, 2005) Exercices (F. Husson, J. Pagès, 2005) Statistique avec R (Cornillon, Guyader, Husson, Jégou, Josse, Kloareg, Matzner-Løber, Rouvière, 2008, 2010) Analyse de données avec R (F. Husson, S. Lê, J. Pagès, 2009) 4 / 37
5 Plan 1 Contexte de l'étude 2 Estimation ponctuelle 3 Prise en compte de l'incertitude due aux données manquantes 4 Conclusion - perspectives 5 / 37
6 Evaluation sensorielle : Problématique sensorielle 99 juges, 12 parfums Recueil de données par Napping (Pagès 2003) Aromatics Elixir Chanel n 5 Shalimar Angel Lolita Lempika L instant Cinéma J adore (ET) Pure Poison Pleasures J adore (EP) Coco Mademoiselle Angel Chanel Coco Shalimar X Y / 37
7 Problématique sensorielle Figure: Structure des données Obtenir une carte "moyenne" des parfums Est-ce que les juges perçoivent les parfums de la même façon (consensus entre juges)? Confronter l'espace produit des experts à celui des consommateurs Problématique classique en analyse multi-tableaux : Analyse Factorielle Multiple (Escoer & Pagès, 1982) 7 / 37
8 Analyse Factorielle Multiple Figure: Tableaux multiples Questionnaire : santé des étudiants (consommation de drogues, état psychologique, qualité du sommeil, signalétique) Analyse sensorielle : données sensorielles, mesures physico-chimiques Données génomiques : protéine, ADN 8 / 37
9 Analyse Factorielle Multiple Equilibrer l'inuence des groupes Le c ur de l'afm est une ACP pondérée : ACP sur chaque groupe de variables λ 1 1,..., λj 1 ACP globale sur : ( X1,..., X J ) λ 1 1 λ J 1 Résultats classiques de l'analyse factorielle (représentation des individus, représentation des variables) Problématique enrichie : résultats spéciques de la structure en groupes de variables (représentation superposée, représentation globale des groupes) 9 / 37
10 Une conguration de données manquantes particulière Problème : chaque juge ne peut évaluer qu'un petit nombre de produits diculté et saturation Construire un plan d'expériences Figure: Structure de données manquantes But : obtenir la conguration compromis à partir du tableau de données incomplet (par une AFM avec données manquantes) 10 / 37
11 Ce qu'on veut faire... et ce qu'on a fait Gestion des données manquantes en tableau multiple (AFM)... gestion des données manquantes en tableau simple (ACP) 11 / 37
12 Comment aborder ce problème de données manquantes? Méthodes utilisées : Suppression des individus Imputation simple : moyenne, régression, hot deck,... Méthodes préconisées (Shafer 2002, Little & Rubin 2002) : Maximum de vraisemblance et algorithme EM (Dempster, Laird & Rubin 1977) Imputation multiple (Rubin 1987) 12 / 37
13 Plan 1 Contexte de l'étude 2 Estimation ponctuelle 3 Prise en compte de l'incertitude due aux données manquantes 4 Conclusion - perspectives 13 / 37
14 Deux points de vue : Point de vue géométrique maximisation de la variance des points projetés minimisation de l'erreur de reconstitution Approximation de X par une matrice de rang K < p F = X n p F n K u K p 2 = n p K (x ij F ik u jk ) 2 i=1 j=1 k=1 u axes principaux (normés à 1) F composantes principales (normées à la valeur propre) 14 / 37
15 Modèles Modèle à eets xes (Caussinus, 1986) : x ij = K F ik u jk + ε ij, avec ε ij N (0, σ 2 ) k=1 L c (X F, u, σ 2 ) = np 2 ln(2πσ2 ) 1 2σ 2 X Fu 2 15 / 37
16 Modèles Modèle à eets xes (Caussinus, 1986) : x ij = K F ik u jk + ε ij, avec ε ij N (0, σ 2 ) k=1 L c (X F, u, σ 2 ) = np 2 ln(2πσ2 ) 1 2σ 2 X Fu 2 Modèle à eets aléatoires (ACP Probabiliste, Bishop & Tipping, 1999 ; Roweis, 1998) : x i = Γz i + ε i, avec z i N (0, I K ) et ε i N (0, σ 2 I p ) Estimateurs du maximum de vraisemblance : ˆσ 2 = 1 p K p j=k+1 λ j ˆΓ = uk (Λ K σ 2 I K ) 1/2 15 / 37
17 Estimation des axes et composantes F et u peuvent être obtenus par : diagonalisation de la matrice de variance-covariance (ou de produit-scalaire) algorithmes itératifs 16 / 37
18 ACP via NIPALS (Non linear Iterative PArtial Least Squares) Wold (1966, 1969) : méthode séquentielle meilleure approximation de rang 1 F 1 = n i=1 j=1 p (x ij F i1 u j1 ) 2 F 1 = 0 u j1 = F i1 F 1 u j1 = 0 F i1 = i (x ij F i1 ) i F 2 i1 j (x ij u j1 ) j u2 j1 Composante F 1 Coordonnées des n individus axe u 1 Coordonnées des p variables Déation : une fois (ˆF1, û 1 ) trouvé, on cherche (ˆF2, û 2 ) premier axe et première composante de X = X ˆF1 û 1 17 / 37
19 ACP via la recherche directe du sous-espace F = X n p F n K u p K 2 Recherche directe du sous-espace de dimension K avec K > 1 { u = X F (F F ) 1 F = Xu(u u) 1 18 / 37
20 Moindres carrés pondérés n p K F = W (X Fu ) 2 = (w ij x ij F ik w ij u jk ) 2 i=1 j=1 k=1 avec W matrice de poids, w ij = 0 si x ij manquant, w ij = 1 sinon Mêmes algorithmes mais on "saute" les données manquantes NIPALS : u j1 = i (w ij x ij F i1 ) i w ij Fi1 2 ; F i1 = j (w ij x ij u j1 ) j w ij u 2 j1 Recherche directe du sous-espace (Gabriel & Zamir, 1979) 19 / 37
21 ACP itérative Kiers (1997) : minimiser W (X M) 2 par minimisation itérative de X M 2 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent (ou diminuent) X l 1 Fu 2 ; K dimensions sont retenues (b) ˆX l = ˆF lû l X l l = W X + (1 W ) ˆX 3 les étapes (a) et (b) sont répétées jusqu'à convergence Estimation/Imputation 20 / 37
22 Modèle à eets xes : x ij = ACP itérative = ACP-EM K F ik u jk + ε ij, avec ε ij N (0, σ 2 ) k=1 Vraisemblance : L c (X F, u, σ 2 ) = np 2 ln(2πσ2 ) 1 2σ 2 X Fu 2 Etape E : E(x ij X obs, F l, u l, σ l ) Imputation Etape M : Maximise l'espérance de L c ACP Etape M' : Augmente l'espérance de L c MCA ACP-GEM û l = X l 1 F l 1 (F l 1 F l 1 ) 1 ˆF l = X l 1 u l (u l u l ) 1 21 / 37
23 Propriétés Deux algorithmes = deux points de vues algorithme d'imputation impute par des données qui n'ont pas d'inuence sur l'estimation algorithme qui saute les données a une imputation implicite Décentrage : recentrage Minima locaux : plusieurs solutions initiales Solutions non emboîtées : choix du nombre d'axes Réduction de la variabilité Surajustement Diminuer K Pénaliser les régressions 22 / 37
24 Utilisation de l'acpp pour limiter le surajustement 1 initialisation l = 0 : X 0 2 itération l : (a) (F l, u l ) minimisent X l 1 Fu 2 ; K dimensions sont retenues ( ) (b) ˆX l = ˆF l λk ˆF l diag ˆσ2 û l λk k=1,...,k nouvelle imputation : X l = W X + (1 W ) ˆX l ; 3 les étapes (a) et (b) sont répétées jusqu'à convergence ACP-EM régularisée 23 / 37
25 Simulations 21 individus, 10 variables, 2 dimensions Ajout de bruit sur chaque variable (σ = 0.1, 0.2, 0.5, 1) diérentes structures de données Données manquantes : 10%, 20% 50% 100 simulations pour chaque jeu de paramètres 24 / 37
26 Simulations 21 individus, 10 variables, 2 dimensions Ajout de bruit sur chaque variable (σ = 0.1, 0.2, 0.5, 1) diérentes structures de données Données manquantes : 10%, 20% 50% 100 simulations pour chaque jeu de paramètres Deux critères : Erreur de reconstitution Coecient RV entre congurations des individus de l'acp (vraie / incomplète) 24 / 37
27 Simulations Diérents algorithmes : imputation par la moyenne, NIPALS, ACP-GEM et ACP-GEM régularisée nb.na = 0.2 nb.na = 0.4 coeffrv mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg 3 coeffrv mean ACP-GEM ACP-GEM reg ACP-GEM 3 ACP-GEM reg sigma sigma 25 / 37
28 De l'estimation ponctuelle... à l'imputation multiple Estimation ponctuelle : bonne estimation mais réduction de la variabilité Imputation multiple : visualisation de l'incertitude due aux données manquantes 26 / 37
29 Plan 1 Contexte de l'étude 2 Estimation ponctuelle 3 Prise en compte de l'incertitude due aux données manquantes 4 Conclusion - perspectives 27 / 37
30 Imputation Multiple Prise en compte de l'incertitude due aux données manquantes Trois étapes : 1 générer D tableaux imputés 2 réaliser l'analyse sur chaque tableau 3 combiner les résultats adapter l'imputation multiple à l'acp 28 / 37
31 Générer l'imputation multiple Modèle d'imputation de l'acp 1 obtenir D valeurs plausibles des paramètres (ˆF û ) 1,..., (ˆF û ) D bootstrap des individus bootstrap des résidus 2 pour d = 1,..., D, imputer les valeurs manquantes xij d en tirant ) dans N ((ˆF û ) dij, σ2 Etape 1 rend l'imputation "proper" 29 / 37
32 Algorithme ACP-IM 1 initialisation estimation ponctuelle pour obtenir ˆF et û ; reconstitution de ( ˆX = ˆF û ) et calcul de la matrice des résidus ˆε = X ˆX 2 variance d'estimation : bootstrap des résidus ε ; génération d'un nouveau tableau : X = ˆF û + ε ; estimation de (ˆF, û ) ; 3 bruit ) remplacement des données manquantes par N ((ˆF û ) dij, σ2 4 pour d = 1,.., D répéter les étapes 2 et 3 30 / 37
33 Tableau de l'estimation ponctuelle et D tableaux imputés Deux visualisations possible : instabilité des individus (et des variables) due aux données manquantes impact des données manquantes sur la construction des axes et des composantes 31 / 37
34 Projection en supplémentaire Projection des variables supplémentaires Projection des individus supplémentaires 32 / 37
35 Projection en supplémentaire Dim 2 (25.56%) % NA 1VAU 2ING T2 3EL T1 4EL 2DAM 2BEA PER1 2EL 1ING 1TUR 1BOI 1DAM 1ROC 1CHA 1FON 1POY DOM1 1BEN 2BOU Dim 2 (25.56%) Plante Spice Odor.Intensity Phenolic Flower Aroma.persistency Aroma.intensity Fruity Quality.of.odour Aroma.quality Dim 1 (49.35%) Dim 1 (49.35%) Dim 2 (28.88%) % NA 1VAU 2ING 3EL T2 T1 1FON 1ING2DAM 2BEA 4EL 1DAM 2EL PER1 DOM1 1CHA 1TUR 1ROC 1BEN 1POY 2BOU 1BOI Dim 2 (28.88%) Plante Spice Odor.Intensity Phenolic Flower Aroma.intensity Aroma.persistency Fruity Aroma.quality Quality.of.odour Dim 1 (55.37%) Dim 1 (55.37%) 33 / 37
36 ACP séparées - procrustes ACP séparée sur chaque jeu de données imputé rotation procrustéenne sur l'acp eectuée sur l'estimation ponctuelle construction d'ellipses de conance et projection des dimensions 34 / 37
37 ACP séparées - procrustes Dim 2 (25.2%) % NA 1VAU 2ING T2 3EL T1 4EL 2DAM 2BEA PER1 2EL 1ING 1TUR 1BOI 1DAM 1ROC 1CHA 1FON 1POY DOM1 1BEN 2BOU Dim 2 (25.2%) Dim 1 (49.26%) Dim 1 (49.26%) Dim 2 (28.22%) % NA 1VAU 2ING 3EL T2 T1 1FON 1ING 2DAM 2BEA 4EL 1DAM 2EL PER1 DOM1 1CHA 1TUR 1ROC 1BEN 1POY 1BOI 2BOU Dim 2 (28.22%) Dim 1 (55.54%) Dim 1 (55.54%) 35 / 37
38 Plan 1 Contexte de l'étude 2 Estimation ponctuelle 3 Prise en compte de l'incertitude due aux données manquantes 4 Conclusion - perspectives 36 / 37
39 Conclusion - perspective adaptation (immédiate?) aux données qualitatives tableaux multiples choix du nombre d'axes 37 / 37
Analyse en Composantes Principales
Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées
Plus en détailL ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détail6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses
6. Hachage Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses PLAN Définition Fonctions de Hachage Méthodes de résolution de collisions Estimation
Plus en détailTABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailINTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Plus en détailMASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie
S3 Spécialité : Recherches en psychologie UE OBLIGATOIRES UE 1 : Epistémologie et méthodes de recherche en psychologie Ce séminaire aborde plusieurs aspects de la recherche en psychologie. Il présente
Plus en détailAlgorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Plus en détailCouples de variables aléatoires discrètes
Couples de variables aléatoires discrètes ECE Lycée Carnot mai Dans ce dernier chapitre de probabilités de l'année, nous allons introduire l'étude de couples de variables aléatoires, c'est-à-dire l'étude
Plus en détailNOTATIONS PRÉLIMINAIRES
Pour le Jeudi 14 Octobre 2010 NOTATIONS Soit V un espace vectoriel réel ; l'espace vectoriel des endomorphismes de l'espace vectoriel V est désigné par L(V ). Soit f un endomorphisme de l'espace vectoriel
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailSTATISTIQUES. UE Modélisation pour la biologie
STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres
Plus en détailL'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN
L'analyse de données Polycopié de cours ENSIETA - Réf : 1463 Arnaud MARTIN Septembre 2004 Table des matières 1 Introduction 1 11 Domaines d'application 2 12 Les données 2 13 Les objectifs 3 14 Les méthodes
Plus en détailNon-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011
Non-réponse et données manquantes Sylvie Rousseau & Gilbert Saporta décembre 2011 1 EXEMPLES DE TAUX DE RÉPONSE À CERTAINES ENQUÊTES Pour les enquêtes auprès des entreprises, le taux de non-réponse est
Plus en détailCHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle
CHAPITRE I Modélisation de processus et estimation des paramètres d un modèle I. INTRODUCTION. Dans la première partie de ce chapitre, nous rappelons les notions de processus et de modèle, ainsi que divers
Plus en détailAgrégation des portefeuilles de contrats d assurance vie
Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l
Plus en détailRenforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.
Master Mathématiques et Applications Spécialité : Ingénierie mathématique et modélisation Parcours : Mathématique et Informatique : Statistique, Signal, Santé (MI3S) 2015-2016 RÉSUMÉ DES COURS : (dernière
Plus en détailLa Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Plus en détail1 Imputation par la moyenne
Introduction au data mining L3 MIS - STA 1616-2010 V. Monbet Données manquantes L'objectif de ce TD est de manipuler et de comparer plusieurs méthodes d'imputation de données manquantes. La première partie
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailL'analyse des données à l usage des non mathématiciens
Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.
Plus en détail1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
Plus en détailChapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Plus en détailDébouchés professionnels
Master Domaine Droit, Economie, Gestion Mention : Monnaie, Banque, Finance, Assurance Spécialité : Risque, Assurance, Décision Année universitaire 2014/2015 DIRECTEUR de la spécialité : Monsieur Kouroche
Plus en détailIntroduction. Préambule. Le contexte
Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments
Plus en détailAnalyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?
Analyses multivariées avec R Commander Analyses multivariées avec R Commander (via le package FactoMineR) Plate-forme de Support en Méthodologie et Calcul Statistique (SMCS) - UCL 1 Introduction à R 2
Plus en détailProgrammes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailApprentissage non paramétrique en régression
1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus
Plus en détailAlgorithmes de recherche
Algorithmes de recherche 1 Résolution de problèmes par recherche On représente un problème par un espace d'états (arbre/graphe). Chaque état est une conguration possible du problème. Résoudre le problème
Plus en détailCours Informatique Master STEP
Cours Informatique Master STEP Bases de la programmation: Compilateurs/logiciels Algorithmique et structure d'un programme Programmation en langage structuré (Fortran 90) Variables, expressions, instructions
Plus en détailCritère du choix des variables auxiliaires à utiliser dans l'estimateur par calage
des variables auxiliaires à utiliser dans l'estimateur par calage Mohammed El Haj Tirari Institut National de Statistique et d'economie Appliquée - roc Laboratoire de Statistique d'enquêtes, CREST - Ensai
Plus en détailRégression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr
Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailFormation continue. Ensae-Ensai Formation Continue (Cepe)
CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat
Plus en détailChapitre 6 Apprentissage des réseaux de neurones et régularisation
Chapitre 6 : Apprentissage des réseaux de neurones et régularisation 77 Chapitre 6 Apprentissage des réseaux de neurones et régularisation Après une introduction rapide aux réseaux de neurones et à la
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailMises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.
Cet ouvrage est fondé sur les notes d un cours dispensé pendant quelques années à l Institut universitaire de technologie de Grenoble 2, au sein du Département statistique et informatique décisionnelle
Plus en détailAnalyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Plus en détailPREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE
PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,
Plus en détailTESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun
Plus en détailALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE
ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE P. Baudet, C. Azzaro-Pantel, S. Domenech et L. Pibouleau Laboratoire de Génie Chimique - URA 192 du
Plus en détail$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Plus en détailEtude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailIntroduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY
Introduction à l'analyse multivariée (factorielle) sous R Stéphane CHAMPELY 7 septembre 2005 2 Table des matières 1 Introduction 5 1.1 Les données multivariées....................... 5 1.2 L'approche factorielle
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailIntroduction à la Statistique Inférentielle
UNIVERSITE MOHAMMED V-AGDAL SCIENCES FACULTE DES DEPARTEMENT DE MATHEMATIQUES SMI semestre 4 : Probabilités - Statistique Introduction à la Statistique Inférentielle Prinemps 2013 0 INTRODUCTION La statistique
Plus en détailDETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES
Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application
Plus en détailCAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Plus en détail(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01)
(19) TEPZZ 8 8 4_A_T (11) EP 2 838 241 A1 (12) DEMANDE DE BREVET EUROPEEN (43) Date de publication: 18.02.1 Bulletin 1/08 (1) Int Cl.: H04L 29/06 (06.01) G06F 21/ (13.01) (21) Numéro de dépôt: 141781.4
Plus en détailTempérature corporelle d un castor (une petite introduction aux séries temporelles)
Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature
Plus en détailÉvaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Plus en détailDONNEES MASSIVES POUR LA STATISTIQUE
DONNEES MASSIVES POUR LA STATISTIQUE PUBLIQUE : ENJEUX, METHODES ET PERSPECTIVES Résumé Pauline GIVORD(*), Stéphanie COMBES(*) (*)INSEE-DMCSI La prolifération exceptionnelle des données numériques ces
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailExtraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailde calibration Master 2: Calibration de modèles: présentation et simulation d
Master 2: Calibration de modèles: présentation et simulation de quelques problèmes de calibration Plan de la présentation 1. Présentation de quelques modèles à calibrer 1a. Reconstruction d une courbe
Plus en détailFORMULAIRE DE STATISTIQUES
FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)
Plus en détailUniversité de Montréal. département de sociologie. L'analyse factorielle et l'analyse de fidélité. notes de cours et exemples
Université de Montréal département de sociologie L'analyse factorielle et l'analyse de fidélité notes de cours et exemples Claire Durand, 2003 Notes aux lecteurs... Ce texte a d'abord été préparé pour
Plus en détail4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Plus en détailGestion du niveau de la franchise d'un contrat avec bonus-malus
Gestion du niveau de la franchise d'un contrat avec bonus-malus Pierre Thérond Stéphane Bonche Résumé Réduire la franchise d'un contrat d'assurance permet d'améliorer la qualité du contrat du point de
Plus en détailArchitecture des Systèmes d Information Architecture des Systèmes d Information
Plan... Tableaux et tris I3 - Algorithmique et programmation 1 Rappels Nicol Delestre 2 Tableaux à n dimensions 3 Initiation aux tris Tableaux - v2.0.1 1 / 27 Tableaux - v2.0.1 2 / 27 Rappels : tableau
Plus en détailProjet Scientique Collectif Les Paris Sportifs. Dugarzhapov, Hippolyte, Hoang, Jacquemart, Meyer, Sellami, Watine
Projet Scientique Collectif Les Paris Sportifs Dugarzhapov, Hippolyte, Hoang, Jacquemart, Meyer, Sellami, Watine Lundi 4 mai 2009 1 Introduction Le marché des paris sportifs est en plein essor. Bien qu'étant
Plus en détailHistorique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications
L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d
Plus en détailLa programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique
La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation
Plus en détailESIEA PARIS 2011-2012
ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire
Plus en détailMABioVis. Bio-informatique et la
MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID
Plus en détailProcessus de Développement Logiciel
Processus de Développement Logiciel Cours M14 Pierre Gérard Université de Paris 13 IUT Villetaneuse Formation Continue Licence Pro SIL - 2007/2008 Table des matières 1 Des besoins au code avec UML 1 2
Plus en détailImplémentation de Nouveaux Elements Finis dans Life et Applications
1 Département Informatique et Mathématiques Appliquées Année Universitaire 29-21 Rapport de stage Implémentation de Nouveaux Elements Finis dans Life et Applications Présenté par Abdoulaye Samake M1 Mathématiques
Plus en détailImputation du salaire d ego dans TeO
Imputation du salaire d ego dans TeO Objet de la note : linéariser la réponse en tranche du salaire, et imputer le salaire en cas de non réponse Champ et principe de la méthode Les individus qui se sont
Plus en détailContents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes
Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire
Plus en détailProcessus de Développement Logiciel
Processus de Développement Logiciel Cours M14 Pierre Gérard Université de Paris 13 IUT Villetaneuse Formation Continue Licence Pro SIL LA TE X Pierre Gérard (P13 IUT FC) Processus de Développement Logiciel
Plus en détailCycle de formation certifiante Sphinx
Cycle de formation certifiante Sphinx 28, 29, 30 Mai 2015 Initiation, Approfondissement et Maîtrise Etudes qualitatives / quantitatives Initiation, approfondissement et maîtrise des études qualitatives
Plus en détail1.5 0.5 -0.5 -1.5 0 20 40 60 80 100 120. (VM(t i ),Q(t i+j ),VM(t i+j ))
La logique oue dans les PME/PMI Application au dosage de l'eau dans les bétons P.Y. Glorennec INSA de Rennes/IRISA glorenne@irisa.fr C. Hérault Hydrostop christophe@hydrostop.fr V. Hulin Hydrostop vincent@hydrostop.fr
Plus en détailRéseaux sociaux en milieu scolaire Mémoire de recherche
Cuvilliez Julia M2 Economics and Public Policy Réseaux sociaux en milieu scolaire Mémoire de recherche 2012 2013 Sous la direction de Yann Algan Résumé Ce présent papier est eectué dans le cadre du mémoire
Plus en détailModélisation intégrée des écoulements pour la gestion en temps réel d'un bassin versant anthropisé
1 TGR Modélisation intégrée des écoulements pour la gestion en temps réel d'un bassin versant anthropisé Simon Munier Institut des Sciences et Industries du Vivant et de l'environnement (AgroParisTech)
Plus en détailModélisation aléatoire en fiabilité des logiciels
collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.
Plus en détailMCMC et approximations en champ moyen pour les modèles de Markov
MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:
Plus en détailAlgèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS
1er semestre UE1-01 E Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS Introduction au système SAS 25,5
Plus en détailSouad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Plus en détailComplexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation
Complexité Objectifs des calculs de complexité : - pouvoir prévoir le temps d'exécution d'un algorithme - pouvoir comparer deux algorithmes réalisant le même traitement Exemples : - si on lance le calcul
Plus en détailIntérêt du découpage en sous-bandes pour l analyse spectrale
Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,
Plus en détailCours de méthodes de scoring
UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-
Plus en détailVI. Tests non paramétriques sur un échantillon
VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes
Plus en détailUNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP250-97157 Pointe-à-Pitre Cedex CONTRAT 2010-2013 LE MASTER NOM DU DOMAINE STS
UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP20-9717 Pointe-à-Pitre Cedex CONTRAT 2010-201 LE MASTER NOM DU DOMAINE STS Mention : Mathématiques Implantation : Guadeloupe FICHES DESCRIPTIVES
Plus en détailSujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.
Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante. Objectifs et formulation du sujet Le syndrome de l apnée du sommeil (SAS) est un problème de santé publique
Plus en détailYAO : Un logiciel pour les modèles
YAO : Un logiciel pour les modèles numériques et l'assimilation de données Sylvie Thiria, Fouad Badran, Charles Sorror Rapport de recherche (22 juin 2006) 1 Table des matières 1 Introduction 3 2 Principes
Plus en détailApprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière
Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence
Plus en détailK. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau
Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des
Plus en détailChapitre 4 Vérication de tolérances 4.1 Introduction Dans la conception des pièces mécaniques, les valeurs des tolérances sont données. Ces tolérances ont pour but de préciser quelles variations de forme
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailLUT QU EST-CE QUE C EST? Version 1.0 Mars 2010
A1 BOX DOCUMENT TECHNIQUE LUT QU EST-CE QUE C EST? Version 1.0 Mars 2010 LUT veut dire Look Up Table, en francisant, table de conversion. Il en existe de différents degrés de complexité, dont les deux
Plus en détailTests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détail