Analyse des données et Data Mining
|
|
- Marie-Josèphe Jeanne Clermont
- il y a 8 ans
- Total affichages :
Transcription
1 Analyse des données et Data Mining Analyse en composantes principales utc sy09 1
2 Objectif des méthodes factorielles Visualiser, traiter des données multidimensionnelles Problème difficile Information apportée par ces variables souvent redondante Exploiter cette redondance pour remplacer les variables initiales par un nombre réduit de nouvelles variables sans perdre trop d information Remplacer plusieurs variables par une seule : démarche habituelle : Moyenne àl école QI répartition des hommes politiques sur l axe droite-gauche Mieux à faire : conserver un aspect multidimensionnel Psychologues américains (Spearman, Burt, Thurstone) Données : résultats à des tests psychologiques Objectif ; facteur général d aptitude + facteurs spécifiques (mémoire, intelligence,...) utc sy09 2
3 Exemple de l analyse en composantes principales Variables quantitatives Nouvelles variables = combinaisons linéaires des variables initiales Non corrélées Géométriquement : chercher les droites, les plans et de manière plus générale les variétés linéaires proches du nuage des individus K. Pearson (1900) : 2 variables H. Hotelling (1933) : plus de 2 variables de variables. Référence récente : Jackson (1991) utc sy09 3
4 Les différentes méthodes factorielles Dépendent de la forme des données Mêmes bases mathématiques Différent de «factor analysis» Anglo-saxons Statistiques inférentielles s appuyant sur un modèle statistique Assez peu utilisées en France ACP : tableaux de variables quantitatives AFC : tableaux de contingence ACM : tableaux de variables qualitatives AFTD : tableaux de proximités AFD : Variable à discriminer utc sy09 4
5 Les données X tableau individus, variables quantitatives Nuage N(Ω) de R p muni de la métrique euclidienne X centré en colonne Matriciellement : X = Y 1 n Y si Y est la matrice initiale utc sy09 5
6 Formulation du problème Représentation fidèle du nuage des individus dans un espace plus simple : Espaces choisis : Droite, plan,... Espace affine de dimension de petite dimension Il faut fixer la dimension k<p Il existe des extensions à d autres types d espaces Type de représentation : Projection orthogonale Fidélité : Minimisation des «écarts» entre les points du nuage et leurs projections Minimisation de l inertie par rapport à l espace affine utc sy09 6
7 Formulation mathématique Pb1 : Trouver le sous-espace affine E k de dimension k tel que I Ek Théorème de Huygens : E k g g =0 E k sous-espace vectoriel De plus I Ek + I E k = I = cste Pb2 : Trouver le sous-espace vectoriel E k t.q. I E k soit maximum k = 1 : droite des moindres carrés ACP : régression orthogonale Différent de la droite de régression de y par rapport à x Différent de la droite de régression de x par rapport à y soit minimum utc sy09 7
8 Résolution du problème : axes factoriels Décomposition spectrale de la matrice de variance S = 1 n XX S sym. 0 diagonalisable, valeurs propres 0, vecteurs propres λ 1... λ p valeurs propres ordonnées u 1,...,u p les vecteurs propres normés correspondant : base orthonormée Solution : les propriétés spectrales permettent de montrer que les sous-espaces recherchés sont définis de la façon suivante : E 1 = u 1 ; E 2 = E 1 u 2... E k = E k 1 u k En outre : I u k = λ k u k : axe factoriel (ou axe principal d inertie) utc sy09 8
9 Résultats pratiques La recherche des sous-espaces E k est donc obtenue de la façon suivante : Diagonaliser S Ordonner les vecteurs propres dans l ordre décroissant des valeurs propres Normaliser des vecteurs propres Notations matricielles : Matrice des vecteurs propres U =(u 1,...,u p ) Matrice diagonale des valeurs propres L =diag(λ 1,...,λ p ) Remarque : UU = I U SU = L SU = UL utc sy09 9
10 Inerties expliquées On a I u k = λ k E k = u 1... u k et u k orthogonaux D où I E k = λ λ k Remarques pour k = p : on retrouve I = trace(s) Si r est le rang de la matrice X(r min(p, n)) : λ 1,...,λ r > 0 et λ r+1,...,λ p =0 On a donc I E r = I : le nuage est donc dans E r utc sy09 10
11 Choix du nombre k d axes à retenir Avec le pourcentage d inertie pourcentage d inertie expliquée par E 1 = 100 λ 1 p α=1 λ = 100 λ 1 ; α trace(s) pourcentage d inertie expliquée par E 2 = 100 (λ 1+λ 2 ) p α=1 λ α... ; = 100 (λ 1+λ 2 ) trace(s) ; pourcentage d inertie expliquée par E k = 100 (λ 1+λ λ k ) p α=1 λ α = 100 (λ 1+λ λ k ) trace(s) Méthode graphique du «coude» Utilisation de tests : par exemple H 0 : λ k+1 =... = λ p utc sy09 11
12 Composantes Principales Définition Pb initial : représenter les individus dans un espace de petite dimension E k Comment obtenir cette représentation? Coordonnées d un individu i sur E k : c 1 i...,cα i,...,ck i où cα i est la position de i sur l axe α Composantes principales : c α =(c α 1,...,c α n) Pour tracer le plan factoriel (α, β), il suffit de calculer c α et c β Pour α>r,onac α = 0 (inertie expliquée nulle) i Ω (cα i )2 Expression des valeurs propres λ α = I uα = 1 n Calcul des composantes principales : projection des x i sur les vecteurs de base c α i =< x i, u α >= x iu α ou encore c α = Xu α Matriciellement si C =(c1,...,c p ): C = XU utc sy09 12
13 Composantes principales : nouvelles variables c α associe à chaque individu une valeur réelle : nouvelle variable Propriétes combinaisons linéaires des variables x j centrées, de variance λ α et non corrélées Vecteurs propres de 1 n XX, matrice des produits scalaires avec les valeurs propres λ α Autre interprétation de l ACP : Trouver k nouvelles variables, combinaisons linéaires normées ( u α =1)desp variables centrées initiales, non corrélées deux à deux et de variance maximum Solution : vecteurs propres normées de la matrice 1 n XX : c α Diagonaliser XX ou X X? utc sy09 13
14 Formule de reconstitution p r X = CU ou X = = c α u α = c α u α α=1 α=1 Décomposition de la matrice X en une somme de matrices de rang 1 «Reconstitution» de X avec les composantes principales et les axes factoriels Approximation : X X = k c α u α = CŨ. α=1 Relation quelquefois utilisée pour compresser les données utc sy09 14
15 Qualité delareprésentation Qualité globale : pourcentage d inertie pris en compte par E k λ λ k trace(s).100 Contribution d un axe à un individu : proportion de l inertie de l individu conservée sur l axe Inertie de l individu : 1 n x i 2 (I = p i=1 1 n x i 2 ) Inertie de l individu sur l axe : 1 n (ci α) 2 Contribution COR(i, α) = (cα i )2 x i 2 Carré du cosinus de l angle (x i, u α ) Varie de 1 (i bien représenté) à0(i mal représenté) Généralisation : contribution relative de E k k k α=1 QLT (i, k) = (cα i )2 x i 2 = COR(i, α) utc sy09 15 i=1
16 Qualité de la représentation (suite) Contribution d un individu à un axe: proportion d inertie de l axe apportée par un individu Inertie de l axe Contribution I uα = λ α = 1 n CTR(i, α) = n (c α i ) 2 i=1 1 n (cα i )2 λ α utc sy09 16
17 Représentation des variables Objectif : visualiser les corrélations x j, x j et les corrélations c α, x j Représentation des variables normées ( cercle des corrélations) : les corrélations x j, x j seront visualisées par les cosinus Les composantes principales normées v α = 1 λα c α forment une base orthonormée de l espace vectoriel engendré par les variables initiales Dans cette base : les coordonnées des variables normées sur les axes sont les corrélations c α, x j Calcul des coordonnées : d j α = cor(x j, c α ) ou encore D = D 1 σ UL1 2 Qualité de représentation : dépend de la position des projections par rapport au cercle de corrélations utc sy09 17
18 Les éléments supplémentaires (ou illustratifs) Représentation d individus ou de variables n ayant pas participé à l analyse Principe : leur appliquer les mêmes transformations que celles qui ont été appliquées aux individus ou aux variables de départ Individu supplémentaire : coordonnée sur l axe u α de l individu y s : centrage en colonne : x s = y s x =(y 1 s x 1,...,y p s x p ) Projection sur l axe : < x s, u α >= x su α Variable supplémentaire : coordonnée sur l axe v α de la variable s s Centrage en colonne : x s =(y s 1 y s,...,y s p y s ) Projection sur l axe : < x s, v α > Dp =(x s ) D p c α λα utc sy09 18
19 Les éléments supplémentaires : utilisation Représentation d individus dont la fiabilité est suspecte Représentation d individus prenant des valeurs atypiques qui prendraient une part trop prépondérante à la formation des axes s ils étaient pris en compte Représentation d un groupe d individus par leur centre de gravité Représentation d éléments de natures différentes des éléments initiaux : variables actives : notes scolaires et variables supplémentaires : notes de tests psychologiques Individus actifs : malades et individus supplémentaires : personnes saines utc sy09 19
20 Exemple d ACP : Les données math scie fran lati d-m jean aline annie monique didier andré pierre brigitte evelyne Moy Données initiales math scie fran lati dess Données centrées utc sy09 20
21 Matrice de variance S = 1 9 X X = math scie fran lati dess math scie fran lati dess Valeurs propres Axes factoriels Inertie % d inertie % d inertie expliquée expliquée cumulée u 1 u 2 u 3 u 4 u utc sy09 21
22 Contributions relatives des axes aux individus Contributions relatives des individus aux axes jean aline annie monique didier andré pierre brigitte evelyne jean aline annie monique didier andré pierre brigitte evelyne utc sy09 22
23 Composantes principales jean aline annie monique didier andré pierre brigitte evelyne Analyse dans R n F1 F2 F3 F4 F 5 math scie fran lati d-m utc sy09 23
24 ACP : Exemple des notes (variables) 1 fran 0.5 lati Axe 2 0 d m 0.5 math scie Axe 1 utc sy09 24
25 ACP : Exemple des notes (variables) Axe 3 0 fran math scie lati d m Axe 1 utc sy09 25
26 ACP : Exemple des notes (individus) 6 pier anni evel 2 Axe moni 1 alin 2 3 jean didi 4 brig andr Axe 1 utc sy09 26
27 3 2 jean alin ACP : Exemple des notes (individus) pier moni 1 didi 0 anni Axe andr brig evel Axe 1 utc sy09 27
28 Taille du cerveau et intelligence Référence : Reference : Willerman, L., Schultz, R., Rutledge, J. N., and Bigler, E. (1991), In Vivo Brain Size and Intelligence, Intelligence, 15, Description : 40 étudiants en psychologie et 7 variables Sexe 3 mesures d intelligence FSIQ : Full Scale IQ scores based on the four Wechsler (1981) subtests VIQ : Verbal IQ scores based on the four Wechsler (1981) subtests PIQ : Performance IQ scores based on the four Wechsler (1981) subtests Weight : taille de l étudiant Height : poids de l étudiant MRI (Magnetic Resonance Imaging) : taille du cerveau utc sy09 28
29 Les données FSIQ VIQ PIQ W H MRI 1F M M M F F F F M M F M M F F F F M F M FSIQ VIQ PIQ WEIG HEIG MRI 21M M F M F M F M F F F M M M F F M F M M utc sy09 29
30 Corrélations FSIQ VIQ PIQ WEIG HEIG MRI FSIQ VIQ PIQ WEIG HEIG MRI ACP : valeurs propres Variance Pourc. de variance Pourcentage cumulé utc sy09 30
31 ACP (correlation) : Taille du cerveau (variables) 1 MRI HEIG WEIG 0.5 PC 2 0 PIQ FSIQ VIQ utc sy PC 1
32 ACP (correlation) : Taille du cerveau (individus) PC utc sy09 PC 1 32
33 ACP (correlation) : Taille du cerveau (individus) 3 f m 2 1 PC utc sy09 PC 1 33
34 Fichier notes.rd math scie fran lati d-m jean aline annie monique didier andre pierre brigitte evelyne Y <- as.matrix(data) n <- dim(y)[1] Programme R # Centrage du tableau X <- Y-matrix(1,n,1)%*% apply(y,2,mean) # Reduction du tableau (eventuellement) #X <- X/matrix(1,n,1)%*% apply(x,2,sd) # Calcul de la matrice de covariance ou de correlation S <- (1/n)*t(X)%*%X # Calcul des valeurs propres et des axes d inertie tmp<-eigen(s,symmetric=true) L <- diag(tmp$values) U <- tmp$vectors # Calcul des composantes principales des individus C <- X%*% U # Représentation des variables D <- diag(1/(sqrt((n-1)/n)*sd(x))) %*% U %*% sqrt(l) # Calcul des contributions COR <- diag(1/apply(x^2,1,sum))%*% C^2 CTR <- (1/n)*C^2 %*% diag(1/diag(l)) # Tracé des graphiques plot(c[,1],c[,2],type="n") text(c[,1],c[,2],rownames(data));abline(h=0);abline(v=0) plot(c[,1],c[,3],type="n") text(c[,1],c[,3],rownames(data));abline(h=0);abline(v=0) plot(-1:1,-1:1,type="n",xlab= Axe 1,ylab= Axe 2 ) text(d[,1],d[,2],colnames(data));abline(h=0);abline(v=0) curve(sqrt(1-x^2),-1,1,add=true) curve(-sqrt(1-x^2),-1,1,add=true) plot(-1:1,-1:1,type="n",xlab= Axe 1,ylab= Axe 3 ) text(d[,1],d[,3],colnames(data));abline(h=0);abline(v=0) curve(sqrt(1-x^2),-1,1,add=true) curve(-sqrt(1-x^2),-1,1,add=true) utc sy09 34
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détail1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
Plus en détailStatistique Descriptive Multidimensionnelle. (pour les nuls)
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219
Plus en détailINTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Plus en détailAnalyse en Composantes Principales
Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailExtraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction
Plus en détailIntroduction. Préambule. Le contexte
Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments
Plus en détailL'analyse des données à l usage des non mathématiciens
Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailAnalyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?
Analyses multivariées avec R Commander Analyses multivariées avec R Commander (via le package FactoMineR) Plate-forme de Support en Méthodologie et Calcul Statistique (SMCS) - UCL 1 Introduction à R 2
Plus en détailInitiation à l analyse en composantes principales
Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.
Plus en détailData mining 1. Exploration Statistique
PUBLICATIONS DU LABORATOIRE DE STATISTIQUE ET PROBABILITÉS Data mining 1 Exploration Statistique ALAIN BACCINI & PHILIPPE BESSE Version septembre 2004 mises à jour : wwwlspups-tlsefr/besse Laboratoire
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailExercice : la frontière des portefeuilles optimaux sans actif certain
Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué
Plus en détailISFA 2 année 2002-2003. Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.
On considère la matrice de données : ISFA 2 année 22-23 Les questions sont en grande partie indépendantes Merci d utiliser l espace imparti pour vos réponses > ele JCVGE FM1 GM JCRB FM2 JMLP Paris 61 29
Plus en détailHistorique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications
L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d
Plus en détailMAP 553 Apprentissage statistique
MAP 553 Apprentissage statistique Université Paris Sud et Ecole Polytechnique http://www.cmap.polytechnique.fr/~giraud/map553/map553.html PC1 1/39 Apprentissage? 2/39 Apprentissage? L apprentissage au
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailIndividus et informations supplémentaires
ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter
Plus en détailAide-mémoire de statistique appliquée à la biologie
Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela
Plus en détailL'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN
L'analyse de données Polycopié de cours ENSIETA - Réf : 1463 Arnaud MARTIN Septembre 2004 Table des matières 1 Introduction 1 11 Domaines d'application 2 12 Les données 2 13 Les objectifs 3 14 Les méthodes
Plus en détailExercices Corrigés Premières notions sur les espaces vectoriels
Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3
Plus en détailRelation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
Plus en détailChapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Plus en détailProgrammes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Plus en détailde calibration Master 2: Calibration de modèles: présentation et simulation d
Master 2: Calibration de modèles: présentation et simulation de quelques problèmes de calibration Plan de la présentation 1. Présentation de quelques modèles à calibrer 1a. Reconstruction d une courbe
Plus en détailACP Voitures 1- Méthode
acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailQuelques éléments de statistique multidimensionnelle
ANNEXE 1 Quelques éléments de statistique multidimensionnelle Les méthodes d analyse statistique exploratoire utilisées au cours des chapitres précédents visent à mettre en forme de vastes ensembles de
Plus en détailAnalyse des correspondances avec colonne de référence
ADE-4 Analyse des correspondances avec colonne de référence Résumé Quand une table de contingence contient une colonne de poids très élevé, cette colonne peut servir de point de référence. La distribution
Plus en détailStatistique Descriptive Élémentaire
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier
Plus en détailFormes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions
Formes quadratiques Imen BHOURI 1 Ce cours s adresse aux étudiants de niveau deuxième année de Licence et à ceux qui préparent le capes. Il combine d une façon indissociable l étude des concepts bilinéaires
Plus en détailMémo d utilisation de ADE-4
Mémo d utilisation de ADE-4 Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr 2003 ADE-4 est un logiciel d analyses des communautés écologiques créé par l équipe de biostatistiques de Lyon. Il propose
Plus en détailAvant-après, amont-aval : les couples de tableaux totalement appariés
ADE-4 Avant-après, amont-aval : les couples de tableaux totalement appariés Résumé La fiche décrit les méthodes d analyse des couples de tableaux complètement appariés (mêmes individus, mêmes variables).
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailwww.h-k.fr/publications/objectif-agregation
«Sur C, tout est connexe!» www.h-k.fr/publications/objectif-agregation L idée de cette note est de montrer que, contrairement à ce qui se passe sur R, «sur C, tout est connexe». Cet abus de langage se
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailExo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.
Exo7 Matrice d une application linéaire Corrections d Arnaud odin. Exercice Soit R muni de la base canonique = ( i, j). Soit f : R R la projection sur l axe des abscisses R i parallèlement à R( i + j).
Plus en détailProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection
ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection Nicolas HEULOT (CEA LIST) Michaël AUPETIT (CEA LIST) Jean-Daniel FEKETE (INRIA Saclay) Journées Big Data
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailPremière partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015
Énoncé Soit V un espace vectoriel réel. L espace vectoriel des endomorphismes de V est désigné par L(V ). Lorsque f L(V ) et k N, on désigne par f 0 = Id V, f k = f k f la composée de f avec lui même k
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailThéorie et codage de l information
Théorie et codage de l information Les codes linéaires - Chapitre 6 - Principe Définition d un code linéaire Soient p un nombre premier et s est un entier positif. Il existe un unique corps de taille q
Plus en détailBac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)
Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre
Plus en détailCatalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.
Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands. Pourquoi un autre catalogue en Suisse romande Historique En 1990, la CRUS (Conférences des
Plus en détailFORMULAIRE DE STATISTIQUES
FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)
Plus en détailCours 7 : Utilisation de modules sous python
Cours 7 : Utilisation de modules sous python 2013/2014 Utilisation d un module Importer un module Exemple : le module random Importer un module Exemple : le module random Importer un module Un module est
Plus en détailNOTATIONS PRÉLIMINAIRES
Pour le Jeudi 14 Octobre 2010 NOTATIONS Soit V un espace vectoriel réel ; l'espace vectoriel des endomorphismes de l'espace vectoriel V est désigné par L(V ). Soit f un endomorphisme de l'espace vectoriel
Plus en détailFonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme
Fonctions linéaires et affines 3eme 1 Fonctions linéaires 1.1 Vocabulaire Définition 1 Soit a un nombre quelconque «fixe». Une fonction linéaire associe à un nombre x quelconque le nombre a x. a s appelle
Plus en détailt 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :
Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailCours d analyse numérique SMI-S4
ours d analyse numérique SMI-S4 Introduction L objet de l analyse numérique est de concevoir et d étudier des méthodes de résolution de certains problèmes mathématiques, en général issus de problèmes réels,
Plus en détailLa structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)
La structure de la base de données et l utilisation de PAST La structure de la base de données données originales SPÉCIMENS Code des spécimens: Identification des spécimens individuels. Dépend du but de
Plus en détailTable des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailLa Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Plus en détailLe Modèle Linéaire par l exemple :
Publications du Laboratoire de Statistique et Probabilités Le Modèle Linéaire par l exemple : Régression, Analyse de la Variance,... Jean-Marc Azaïs et Jean-Marc Bardet Laboratoire de Statistique et Probabilités
Plus en détailProgrammation linéaire et Optimisation. Didier Smets
Programmation linéaire et Optimisation Didier Smets Chapitre 1 Un problème d optimisation linéaire en dimension 2 On considère le cas d un fabricant d automobiles qui propose deux modèles à la vente, des
Plus en détail3 Approximation de solutions d équations
3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailScénario: Données bancaires et segmentation de clientèle
Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé
Plus en détailSAS de base : gestion des données et procédures élémentaires
1 SAS de base : gestion des données et procédures élémentaires SAS de base : gestion des données et procédures élémentaires Résumé Description des commandes (module SAS de base) les plus utiles de l étape
Plus en détailCours de méthodes de scoring
UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-
Plus en détailPlan du cours : électricité 1
Semestre : S2 Module Physique II 1 Electricité 1 2 Optique géométrique Plan du cours : électricité 1 Partie A : Electrostatique (discipline de l étude des phénomènes liés aux distributions de charges stationnaires)
Plus en détailCours d Analyse. Fonctions de plusieurs variables
Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........
Plus en détailModèles pour données répétées
Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailPEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?
PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS? Pierre Baumann, Michel Émery Résumé : Comment une propriété évidente visuellement en dimensions deux et trois s étend-elle aux autres dimensions? Voici une
Plus en détailRicco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours
Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours Références : 1. G. Saporta, «Probabilités, Analyse de données et Statistique», Dunod, 2006 ; partie théorique, pages 155 à 177 ; partie pratique,
Plus en détailSTATISTIQUES. UE Modélisation pour la biologie
STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres
Plus en détailLES DÉTERMINANTS DE MATRICES
LES DÉTERMINANTS DE MATRICES Sommaire Utilité... 1 1 Rappel Définition et composantes d'une matrice... 1 2 Le déterminant d'une matrice... 2 3 Calcul du déterminant pour une matrice... 2 4 Exercice...
Plus en détailLeçon N 4 : Statistiques à deux variables
Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailI. Polynômes de Tchebychev
Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire
Plus en détailCours de Mécanique du point matériel
Cours de Mécanique du point matériel SMPC1 Module 1 : Mécanique 1 Session : Automne 2014 Prof. M. EL BAZ Cours de Mécanique du Point matériel Chapitre 1 : Complément Mathématique SMPC1 Chapitre 1: Rappels
Plus en détailMaster IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008
Master IAD Module PS Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance
Plus en détailCorrection de l examen de la première session
de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi
Plus en détailÉvaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Plus en détailStatistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Plus en détailCours de mathématiques
DEUG MIAS premier niveau Cours de mathématiques année 2003/2004 Guillaume Legendre (version révisée du 3 avril 2015) Table des matières 1 Éléments de logique 1 1.1 Assertions...............................................
Plus en détailEVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE.
EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE. MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE DE LA MAÎTRISE EN ADMINISTRATION PUBLIQUE - «OPTION POUR ANALYSTES»
Plus en détailTests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA
Plus en détailLa segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Plus en détailThéorie des sondages : cours 5
Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur
Plus en détailCalcul différentiel sur R n Première partie
Calcul différentiel sur R n Première partie Université De Metz 2006-2007 1 Définitions générales On note L(R n, R m ) l espace vectoriel des applications linéaires de R n dans R m. Définition 1.1 (différentiabilité
Plus en détailBiostatistiques : Petits effectifs
Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l
Plus en détailStructure financière et performance économique des PME : Étude empirique sur les entreprises belges
Structure financière et performance économique des PME : Étude empirique sur les entreprises belges Tarek MILOUD (UCL) * Résumé : Notre But est de caractériser la propriété financière des petites et moyennes
Plus en détailFONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)
FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) Bernard Le Stum Université de Rennes 1 Version du 13 mars 2009 Table des matières 1 Fonctions partielles, courbes de niveau 1 2 Limites et continuité
Plus en détailCalcul intégral élémentaire en plusieurs variables
Calcul intégral élémentaire en plusieurs variables PC*2 2 septembre 2009 Avant-propos À part le théorème de Fubini qui sera démontré dans le cours sur les intégrales à paramètres et qui ne semble pas explicitement
Plus en détailFonctions de plusieurs variables
Maths MP Exercices Fonctions de plusieurs variables Les indications ne sont ici que pour être consultées après le T (pour les exercices non traités). Avant et pendant le T, tenez bon et n allez pas les
Plus en détailCalcul Formel et Numérique, Partie I
Calcul Formel et Numérique N.Vandenberghe nvdb@irphe.univ-mrs.fr Table des matières 1 Introduction à Matlab 2 1.1 Quelques généralités.......................... 2 2 Où trouver des informations 2 3 Opérations
Plus en détailCorrigé Problème. Partie I. I-A : Le sens direct et le cas n= 2
33 Corrigé Corrigé Problème Théorème de Motzkin-Taussky Partie I I-A : Le sens direct et le cas n= 2 1-a Stabilité des sous-espaces propres Soit λ une valeur propre de v et E λ (v) le sous-espace propre
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailCalcul différentiel. Chapitre 1. 1.1 Différentiabilité
Chapitre 1 Calcul différentiel L idée du calcul différentiel est d approcher au voisinage d un point une fonction f par une fonction plus simple (ou d approcher localement le graphe de f par un espace
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détailRésolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Plus en détail