Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification
|
|
- Christophe Cormier
- il y a 8 ans
- Total affichages :
Transcription
1 Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification François Husson & Julie Josse Laboratoire de mathématiques appliquées Agrocampus Rennes husson@agrocampus-ouest.fr
2 Plan Qu est-ce que et pourquoi? Les méthodes classiques et les aides à l interprétation Traitement de données multi-tableaux Complémentarité analyse factorielle - classification Interface graphique
3 Qu est-ce que? Logiciel gratuit de plus en plus utilisé Disponible sous Windows, Mac, Linux Permettant d utiliser et de fabriquer des librairies de fonctions pointues (plus de 2500 librairies) Évolution rapide du logiciel, disponibilité immédiate de nouvelles méthodes ou méthodologies Graphes et sorties facilement exportables Possibilité de modifier / sélectionner les données facilement Possibilité de combiner programmation et utilisation de fonctions pré-définies
4 Pourquoi? Pour pouvoir faire de l analyse de données en utilisant un point de vue géométrique permettant de dessiner des graphes en ayant la possibilité d ajouter de l information supplémentaire sur de nouvelles méthodes (prenant en compte différentes structures sur les données) à l aide d une interface graphique simple d utilisation et orientée vers l utilisateur
5 Les méthodes factorielles Différentes méthodes pour différents formats de données Données Variables quantitatives Table de contingence Variables qualitatives Variables quantitatives et qualitatives Groupes de variables Hiérarchie sur les variables Groupes d individus Méthode An. en Composantes Principales An. des Correspondances An. des Correspondances Multiples An. Factorielle de données mixtes An. Factorielle Multiple An. Factorielle Multiple Hiérarchique An. Factorielle Multiple Duale Fct. PCA CA MCA AFDM MFA HMFA DMFA
6 Les méthodes de classification Méthodes de classification Classification ascendante hiérarchique K-means Fonction HCPC kmeans Méthodes outils Description d une variable quantitative par des variables quantitatives et/ou qualitatives (ex. d une dimension) Description d une variable qualitative par des variables quantitatives et/ou qualitatives (ex. d une classe) Construction d un tableau de données textuel Fonction condes, dimdesc catdes textuel
7 Exemple en ACP Les données : 10 vins blancs (5 Sauvignons, 5 Vouvrays) évalués par des experts selon 27 variables sensorielles Int.av.agitation Int.ap.agitation Expression O.fruit O.passion O.agrume O.fruit.confit S Michaud Sauvignon S Renaudie Sauvignon S Trotignon Sauvignon S Buisse Domaine Sauvignon S Buisse Cristal Sauvignon V Aub Silex Vouvray V Aub Marigny Vouvray V Font Domaine Vouvray V Font Brûlés Vouvray V Font Coteaux Vouvray Astringence Fraicheur Oxydation Finesse Persistance.gustative Persistance.aromatique Appréciation.hédonique Appréciation.olfactive cepage
8 Exemple en ACP Dim 2 (27.64%) V Aub Marigny V Font Coteaux S Renaudie V Font Brûlés S Trotignon S Michaud V Font Domaine S Buisse Cristal S Buisse Domaine V Aub Silex Dim 1 (39.69%) Dim 2 (27.64%) Int.av.agitation Int.ap.agitation Int.attaque Persistance.aromatique Expression amere O.boisee Persistance.gustative acide O.vanille O.alcool Astringence O.fruit.confit Fraicheur O.passion O.champ Oxydation O.agrume Finesse O.florale O.fruit Typicite.olf.chenin O.vegetale sucree Dim 1 (39.69%) > resultat <- PCA(donnees, quali.sup=1, quanti.sup=40:41)
9 Exemple en ACP Introduction d information supplémentaire : Individus supp. Variables qualitatives supp. Dim 2 (27.64%) Sauvignon Vouvray V Aub Marigny V Font Coteaux V Font Brûlés Vouvray V Font Domaine V Aub Silex S Renaudie S Trotignon Sauvignon S Michaud S Buisse Cristal S Buisse Domaine Dim 1 (39.69%) > resultat <- PCA(donnees, quali.sup=1, quanti.sup=40:41)
10 Exemple en ACP Introduction d information supplémentaire : Individus supp. Variables qualitatives supp. Graphes enrichis : en coloriant les individus en fonction d information supplémentaire Dim 2 (27.64%) Sauvignon Vouvray V Aub Marigny V Font Coteaux V Font Brûlés Vouvray V Font Domaine V Aub Silex S Renaudie S Trotignon Sauvignon S Michaud S Buisse Cristal S Buisse Domaine Dim 1 (39.69%) > resultat <- PCA(donnees, quali.sup=1, quanti.sup=40:41) > plot(resultat, habillage=1)
11 Exemple en ACP Introduction d information supplémentaire : Individus supp. Variables qualitatives supp. Graphes enrichis : en coloriant les individus en fonction d information supplémentaire en construisant des ellipses de confiance autour des modalités Dim 2 (27.64%) Sauvignon Vouvray V Aub Marigny V Font Coteaux V Font Brûlés Vouvray V Font Domaine V Aub Silex S Renaudie S Trotignon Sauvignon S Michaud S Buisse Cristal S Buisse Domaine Dim 1 (39.69%)
12 Exemple en ACP Graphes enrichis : variables représentées en fonction de leur qualité de représentation Introduction d information supplémentaire : Variables quantitatives supplémentaires Dim 2 (27.64%) Int.av.agitation Int.ap.agitation Int.attaque Persistance.aromatique Expression amere Persistance.gustative O.boisee acide O.vanille O.alcool Astringence Appréciation.olfactive O.fruit.confit Fraicheur O.passion O.champ O.agrume Oxydation Appréciation.hédonique Finesse O.florale O.fruit Typicite.olf.chenin O.vegetale sucree Dim 1 (39.69%) > resultat <- PCA(donnees, quali.sup=1, quanti.sup=40:41)
13 Exemple en ACP Des indicateurs sont disponibles : Contribution des individus et des variables à la construction des axes Qualité de représentation des individus et des variables > $eig eigenvalue inertia cumulative inertia comp > $ind coord contrib cos2 Dim.1 Dim.2 Dim.1 Dim.2 Dim.1 Dim.2 S Michaud > $var coord contrib cos2 Dim.1 Dim.2 Dim.1 Dim.2 Dim.1 Dim.2 O.agrume > $quanti.sup > $quali.sup coord cos2 v-test Dim.1 Dim.2 Dim.1 Dim.2 Dim.1 Dim.2 Sauvignon > resultat
14 Description des dimensions Par des variables quantitatives : Calcul du coefficient de corrélation entre chaque variable et les coordonnées des individus sur l axe s Tri des coefficients de corrélation Les coefficients significativement différents de 0 sont fournis $Dim.1 $Dim.1$quanti Meilleures variables pour décrire la première dimension > dimdesc(resultat) correlation p.value A.alcool e-04 O.fruit.confit e-04 Typicite.olf.chenin e-03 O.champ e-03 Oxydation e-02 O.vegetale e-03 O.passion e-04 O.florale e-04 Fraicheur e-05
15 Description des dimensions Par les variables qualitatives : Réalisation d une analyse de variance avec les coordonnées des individus sur l axe en fonction de la variable qualitative Réalisation d un test T par modalité $Dim.1$quali R2 p.value cepage e-05 $Dim.1$category Estimate p.value Vouvray e-05 Sauvignon e-05
16 Groupes de variables (AFM) Les groupes de variables peuvent être quantitatifs et/ou qualitatifs Objectifs : un groupe) - équilibrer l influence de chaque groupe de variables - étudier le lien entre groupes de variables - fournir des graphes spécifiques : représentation partielle (individus vus par groupes de variables
17 Exemple d AFM : les données Les données : un panel d experts + 1 panel étudiant + 1 panel conso + données d appréciation + 1 variable qualitative (cépage) Expert (27) Groupes de variables quantitatives Conso (15) Etudiant (15) Appréciation (60) Qlt Cépage (1) Vin 1 Vin 2 Vin 10 > resafm <- MFA(don.comp, group=c(27,15,15,60,1), type=c(rep("s",4),"n"), num.group.sup=c(4:5), name.group=c("expert","conso","etudiant","appréciation","cépage"))
18 Exemple d AFM: représentation des individus Dim 2 (25.1 %) Sauvignon Vouvray S Trotignon S Renaudie Sauvignon S Michaud S Buisse Domaine V Aub Silex S Buisse Cristal Vouvray V Aub Marigny V Font Domaine V Font Brûlés V Font Coteaux Dim 1 (41.44 %)
19 Exemple d AFM : représentation des variables Dim 2 (24.42 %) Expert Conso Int.attaque Etudiant O.Av.Intensite_J2 Expression Int.av.agitation Fraicheur Int.ap.agitation O.passion acide O.Av.Intensite O.Fruitpassion_J2 O.Ap.Intensite_J2 O.Vegetale O.Fruitpassion O.Ap.Intensite Astringent_J2 O.florale Persistance.aromatique O.agrume amere Astringent Amere Equilibre_J2 O.vegetale Persistance.gustative Acide_J2 Finesse Acide G.Intensite O.Champignon_J2 O.Typicite_J2 O.fruit G.Alcool Amere_J2 O.boisee G.Intensite_J2 G.Typicite_J2 O.alcool O.vanille G.Alcool_J2 O.Champignon Equilibre G.Typicite Astringence O.Typicite Int.couleur Nuance.couleur Sucree Impression.surface Sucree_J2 O.fruit.confit Oxydation O.champ sucree O.Vegetale_J2 O.Alcool Typicite.olf.chenin O.Alcool_J Dim 1 (42.52 %)
20 Exemple d AFM : représentation des variables Dim 2 (24.42 %) Expert Conso Etudiant O.Fruitpassion_J2 O.Fruitpassion Sucree Sucree_J2 O.passion sucree acide Astringent_J2 amere Astringent Amere Acide_J2 Acide Amere_J2 Astringence Dim 1 (42.52 %)
21 Exemple d AFM : représentation des groupes Dim 2 (24.42 %) Cépage Expert Appréciation Etudiant Conso Dim 1 (42.52 %)
22 Exemple d AFM : représentation des points partiels Dim 2 (24.42 %) Expert Conso Etudiant S Trotignon S Renaudie S Michaud Sauvignon S Buisse Cristal S Buisse Domaine Vouvray V Font Brûlés V Aub Silex V Aub Marigny V Font Domaine V Font Coteaux Dim 1 (42.52 %)
23 Exemple d AFM : représentation des préférences Dim 2 (24.42 %) > resafm <- MFA(don.comp, group=c(27,15,15,60,1), Dim 1 (42.52 %) type=c(rep("s",4),"n"),num.group.sup=c(4:5), name.group=c("expert","jury 1","Jury 2","Appréciation","Cépage"))
24 Complémentarité analyse factorielle - classification Analyse factorielle comme prétraitement avant classification : transformation des variables qualitative en quantitative (ACM) équilibre de l influence des variables (AFM ou AFMH) suppression des dernières dimensions pour rendre la classification plus robuste Complémentarité graphique : vision continue (axes factoriels) et discontinue (classes) arbre hiérarchique donne une idée de l information portée par les autres dimensions de l analyse factorielle
25 Exemple de classification : arbre hiérarchique Hierarchical Clustering Hierarchical Classification inertia gain CAH sur les coordonnées de l AFM choix du nombre de classes > resclassif <- HCPC(resAFM) V Aub Silex S Trotignon S Renaudie S Michaud S Buisse Domaine S Buisse Cristal V Font Brûlés V Font Domaine V Aub Marigny V Font Coteaux
26 Exemple de classification : arbre hiérarchique Hierarchical Clustering Hierarchical Classification inertia gain CAH sur les coordonnées de l AFM choix du nombre de classes K-Means avec 5 groupes > resclassif <- HCPC(resAFM) V Aub Silex S Trotignon S Renaudie S Michaud S Buisse Domaine S Buisse Cristal V Font Brûlés V Font Domaine V Aub Marigny V Font Coteaux
27 Exemple de classification : arbre en 3D height cluster 1 cluster 2 cluster 3 cluster 4 cluster 5 Hierarchical clustering on the factor map > resclassif <- HCPC(resAFM) S Trotignon S Renaudie V Aub Marigny S Michaud 0 S Buisse Cristal V Font Coteaux -1 S Buisse Domaine V Font Domaine V Font Brûlés V Aub Silex Dim 1 (42.52%) Dim 2 (24.42%)
28 Exemple de classification : partition Dim 2 (24.42%) cluster 1 cluster 2 S Trotignon cluster 3 S Renaudie cluster 4 S Michaud cluster 5 S Buisse Cristal V Aub Marigny V Font Coteaux S Buisse Domaine V Font Domaine V Font Brûlés V Aub Silex > resclassif <- HCPC(resAFM) Dim 1 (42.52%)
29 Exemple : description des classes > $test.chi $test.chi2 p.value df cepage > resclassif <- HCPC(resAFM) > resclassif > $category$classe3 Cla/Mod Mod/Cla Global p.value v.test cepage=sauvignon cepage=vouvray > $quanti$classe5 v.test Mean in Overall sd in Overall p.value category mean category sd O.boisee O.vanille O.Champignon_J G.Intensite_J Amere_J O.Typicite_J G.Typicite_J
30 L interface graphique Menu déroulant de FactoMineR
31 L interface graphique Fenêtre principale de l ACP
32 L interface graphique Options graphiques
33 Les autres packages ade4 : équipe de Lyon; package complet, orienté données écologiques ca : Analyse des correspondances simple et multiple (Greenacre) homals : homogeneity analysis (De Leeuw) MASS : analyse des correspondances cluster : classification hopach : classification hiérarchique dyngraph : graphiques dynamiques missmda : gestion de données manquantes pour ACP ou ACM
34 Conclusion Pour les chercheurs, les utilisateurs et les étudiants : contient des méthodes classiques mais aussi des méthodes avancées FactoMineR est disponible sur le site officiel de R (CRAN) L interface graphique peut être chargée très facilement : source(" Un site web est dédié à cette librairie : Jeux de données : Gestion des données manquantes via le package missmda
35 Presses Universitaires de Rennes Conclusion Statistiques avec R (2008, 2010) Cornillon, Guyader, Husson, Jégou, Josse, Kloareg, Matzner-Lober, Rouvière Analyse de données avec R (2009) Husson, Lê, Pagès Nouvelle collection SpringR
36 L équipe de FactoMineR (lors d une évaluation sensorielle ou d une réflexion autour du package?)
Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière
Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière Ronan SYMONEAUX, Isabelle MAITRE, Frédérique JOURJON UMT VINITERA- Laboratoire GRAPPE
Plus en détailACP Voitures 1- Méthode
acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailMémo d utilisation de ADE-4
Mémo d utilisation de ADE-4 Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr 2003 ADE-4 est un logiciel d analyses des communautés écologiques créé par l équipe de biostatistiques de Lyon. Il propose
Plus en détailESIEA PARIS 2011-2012
ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire
Plus en détailAnalyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?
Analyses multivariées avec R Commander Analyses multivariées avec R Commander (via le package FactoMineR) Plate-forme de Support en Méthodologie et Calcul Statistique (SMCS) - UCL 1 Introduction à R 2
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailLa structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)
La structure de la base de données et l utilisation de PAST La structure de la base de données données originales SPÉCIMENS Code des spécimens: Identification des spécimens individuels. Dépend du but de
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailStéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Plus en détailL'analyse des données à l usage des non mathématiciens
Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.
Plus en détailPLAN. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Apprentissage non-supervisé ou apprentissage multi-supervisé? Ricco RAKOTOMALALA Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ PLAN. Classification automatique, typologie, etc.. Interprétation
Plus en détailInitiation à l analyse en composantes principales
Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.
Plus en détailWeb Mining. YOUSSOUF Kamal LACHAAL Rafik. [Tapez le résumé du document ici. Il s agit généralement d une courte synthèse du document.
Web Mining YOUSSOUF Kamal LACHAAL Rafik [Tapez le résumé du document ici. Il s agit généralement d une courte synthèse du document.] M1 - M A S S D é p a r t e m e n t d e Mat h é m a t i q u e s 2012-2
Plus en détailExtraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction
Plus en détailAgrégation des portefeuilles de contrats d assurance vie
Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l
Plus en détailHistorique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications
L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d
Plus en détailScénario: Données bancaires et segmentation de clientèle
Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé
Plus en détailLe potentiel phénolique du Cabernet franc
Le potentiel phénolique du Cabernet franc Synthèse de 8 années dʼexpérimentations Yves Cadot INRA, UE 1117 Vigne et Vin, F-49070 Beaucouzé, France Avec la collaboration de : Michel Chevalier INRA, UMR
Plus en détailExercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015
Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par
Plus en détailLa segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Plus en détailSolutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision
Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous
Plus en détailCycle de formation certifiante Sphinx
Cycle de formation certifiante Sphinx 28, 29, 30 Mai 2015 Initiation, Approfondissement et Maîtrise Etudes qualitatives / quantitatives Initiation, approfondissement et maîtrise des études qualitatives
Plus en détailINTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailComplet Intuitif Efficace. Références
Logiciel de référence en Analyse de Données, Data Mining et Text Mining pour transformer vos données en connaissance Complet Intuitif Efficace Dans un environnement convivial et intuitif, disposez de toute
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailAide-mémoire de statistique appliquée à la biologie
Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela
Plus en détailLa place de SAS dans l'informatique décisionnelle
La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie
Plus en détailPREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE
PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,
Plus en détailAnalyse des correspondances avec colonne de référence
ADE-4 Analyse des correspondances avec colonne de référence Résumé Quand une table de contingence contient une colonne de poids très élevé, cette colonne peut servir de point de référence. La distribution
Plus en détailSéance 0 : Linux + Octave : le compromis idéal
Séance 0 : Linux + Octave : le compromis idéal Introduction Linux est un système d'exploitation multi-tâches et multi-utilisateurs, basé sur la gratuité et développé par une communauté de passionnés. C'est
Plus en détailLocalisation des fonctions
MODALISA 7 Localisation des fonctions Vous trouverez dans ce document la position des principales fonctions ventilées selon l organisation de Modalisa en onglets. Sommaire A. Fonctions communes à tous
Plus en détail1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailBASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :
BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les
Plus en détailCOURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES
COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée
Plus en détailSpécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC
Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche
Plus en détailIntroduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
Plus en détailMises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.
Cet ouvrage est fondé sur les notes d un cours dispensé pendant quelques années à l Institut universitaire de technologie de Grenoble 2, au sein du Département statistique et informatique décisionnelle
Plus en détailCoheris est agréé organisme de formation, n d agrément 11 92 19507 92.
Formations 2015 Coheris est agréé organisme de formation, n d agrément 11 92 19507 92. Introduction La formation est une préoccupation constante de Coheris vis-à-vis de ses clients et de ses partenaires,
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailFouillez facilement dans votre système Big Data. Olivier TAVARD
Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailBio-Rad Laboratories CONTRÔLE DE QUALITÉ. Le logiciel de Bio-Rad pour une gestion experte du contrôle de qualité
Bio-Rad Laboratories CONTRÔLE DE QUALITÉ Le logiciel de Bio-Rad pour une gestion experte du contrôle de qualité CONTRÔLE DE QUALITÉ 1 Unity Real Time 2.0 Unity Real Time 2.0 est un logiciel pour la gestion
Plus en détailRicco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours
Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours Références : 1. G. Saporta, «Probabilités, Analyse de données et Statistique», Dunod, 2006 ; partie théorique, pages 155 à 177 ; partie pratique,
Plus en détailCréer, sur ce terroir d excellence, l un des plus grands vins blancs secs du marché. «Sur ce terroir exceptionnel, je suis venu
C est sur un très ancien terroir du Sauternais, parmi les plus grands du Bordelais, que se situe l acte de naissance du Clos des Lunes, récemment signé par Olivier Bernard et l équipe du Domaine de Chevalier.
Plus en détailMANIPULATION ET VISUALISATION DE GROSSES BASES DE DONNÉES AVEC R
MANIPULATION ET VISUALISATION DE GROSSES BASES DE DONNÉES AVEC R Jeudi 10 octobre 2013 CHAIGNEAU Alicia GAZAN Rozenn DAUFOUY Camille JOURDAN Sandra Introduction 2 Evolution des outils de collecte Big data
Plus en détailJérôme Mathieu janvier 2007. Débuter avec R. Ce document est disponible sur le site web : http://www.jerome.mathieu.freesurf.
Jérôme Mathieu janvier 2007 Débuter avec R Ce document est disponible sur le site web : http://www.jerome.mathieu.freesurf.fr - 1 - Sommaire 1 Principes de base pour utiliser R... 3 $$$ Démarrer R pour
Plus en détailµrv : Realité Virtuelle
µrv : Realité Virtuelle Edgar-Fernando ARRIAGA-GARCIA Charles-Henri BABIAUD Clément GRELLIER Quentin PETIT Jérôme Ricoeur Florent VIOLLEAU INSA Rennes 21 septembre 2011 1 / 15 Objectifs pour cette semaine
Plus en détailBUREAU VIRTUEL. Utilisation de l application sur ipad. Guide utilisateur. Sciences Po Utilisation du bureau virtuel sur ipad 1 / 6
BUREAU VIRTUEL Utilisation de l application sur ipad Guide utilisateur Sciences Po Utilisation du bureau virtuel sur ipad 1 / 6 Utilisation du bureau virtuel sur ipad Table des matières PREAMBULE...2 QU
Plus en détailPratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»
Centre de recherche en démographie et sociétés UCL/IACCHOS/DEMO Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» 1 2 3+ analyses univariées Type de variables
Plus en détailStatistique Descriptive Multidimensionnelle. (pour les nuls)
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219
Plus en détailArchitectures d implémentation de Click&DECiDE NSI
Architectures d implémentation de Click&DECiDE NSI de 1 à 300 millions de ligne de log par jour Dans ce document, nous allons étudier les différentes architectures à mettre en place pour Click&DECiDE NSI.
Plus en détailGestion de clusters de calcul avec Rocks
Gestion de clusters de calcul avec Laboratoire de Chimie et Physique Quantiques / IRSAMC, Toulouse scemama@irsamc.ups-tlse.fr 26 Avril 2012 Gestion de clusters de calcul avec Outline Contexte 1 Contexte
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailStatistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011
Master 1 Biologie et technologie du végétal Année 010-011 Statistiques Rappels de cours et travaux dirigés (Seul ce document sera autorisé en examen) auteur : Jean-Marc Labatte jean-marc.labatte@univ-angers.fr
Plus en détailLire ; Compter ; Tester... avec R
Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................
Plus en détailIntroduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014
Introduction aux algorithmes MapReduce Mathieu Dumoulin (GRAAL), 14 Février 2014 Plan Introduction de la problématique Tutoriel MapReduce Design d algorithmes MapReduce Tri, somme et calcul de moyenne
Plus en détailSPHINX Logiciel de dépouillement d enquêtes
SPHINX Logiciel de dépouillement d enquêtes sphinx50frversion4.doc 1 Les trois stades du SPHINX sont ceux que comporte habituellement toute enquête d opinion: Elaboration du questionnaire (fiche outil
Plus en détailAvant-après, amont-aval : les couples de tableaux totalement appariés
ADE-4 Avant-après, amont-aval : les couples de tableaux totalement appariés Résumé La fiche décrit les méthodes d analyse des couples de tableaux complètement appariés (mêmes individus, mêmes variables).
Plus en détail1 Importer et modifier des données avec R Commander
Université de Nantes 2015/2016 UFR des Sciences et Techniques Département de Mathématiques TP1 STATISTIQUE DESCRIPTIVE Frédéric Lavancier Avant propos Ouvrir l application R Saisir dans la console library(rcmdr)
Plus en détailDATA MINING - Analyses de données symboliques sur les restaurants
Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...
Plus en détailCanvas 3D et WebGL. Louis Giraud et Laetitia Montagny. 9 Avril 2013. Université Lyon 1
Canvas 3D et WebGL Louis Giraud et Laetitia Montagny Université Lyon 1 9 Avril 2013 1 Présentation du sujet Introduction Présentation du sujet Problématique : Représenter de la 3D dans le navigateur sans
Plus en détailPrésentation du logiciel
Chapitre A Présentation du logiciel R Pré-requis et objectif La lecture du chapitre sur l installation de R dans les Annexes peut se révéler utile. Ce chapitre présente les origines, l objectif et les
Plus en détailMASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie
S3 Spécialité : Recherches en psychologie UE OBLIGATOIRES UE 1 : Epistémologie et méthodes de recherche en psychologie Ce séminaire aborde plusieurs aspects de la recherche en psychologie. Il présente
Plus en détailSéance 11 : Typologies
Séance 11 : Typologies Sommaire Proc CLUSTER : Typologie hiérarchique... 3 Proc FASTCLUS : Typologie nodale... 8 Proc MODECLUS : Typologie non paramétrique... 11 - Les phénomènes observés (attitudes, comportements,
Plus en détailCommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU
CommentWatcher plateforme Web open-source pour analyser les discussions sur des forums en ligne Marian-Andrei RIZOIU 2ème octobre 2013 BLEND 2013 Lyon, France Contexte Laboratoire ERIC Université Lumière
Plus en détaildistribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position
Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons
Plus en détailJoomla! Création et administration d'un site web - Version numérique
Avant-propos 1. Objectifs du livre 15 1.1 Orientation 15 1.2 À qui s adresse ce livre? 16 2. Contenu de l ouvrage 17 3. Conclusion 18 Introduction 1. Un peu d histoire pour commencer... 19 1.1 Du web statique
Plus en détailISFA 2 année 2002-2003. Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.
On considère la matrice de données : ISFA 2 année 22-23 Les questions sont en grande partie indépendantes Merci d utiliser l espace imparti pour vos réponses > ele JCVGE FM1 GM JCRB FM2 JMLP Paris 61 29
Plus en détailR00 Installation du logiciel R sous Windows
R00 Installation du logiciel R sous Windows 1. Installation du package de base R est distribué gratuitement à partir du site du CRAN (Comprehensive R Archive Network) : http://www.r-project.org. Pour télécharger
Plus en détailQu est-ce que l analyse des données qualitatives? TAMS Analyzer n est: Projets collaboratifs. TAMS Analyzer permet:
Analyses de données qualitatives avec TAMS Analyzer Text Analysis Markup System Analyzer Outil d analyse de texte par système de codage Qu est-ce que l analyse des données qualitatives? Les données qualitatives
Plus en détailProgramme Recueil des résumés
Programme Recueil des résumés http: //r201 3- lyon. sciencesconf. org/ Jeudi 27 juin 201 3 - Programme Grand Amphi Petit Amphi 9h 1 5 30 45 1 0h 1 5 Ouverture des rencontres Conférence invitée Visualising
Plus en détailAnalyse en Composantes Principales
Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées
Plus en détail1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information
TP Numéro 2 CRÉER ET MANIPULER DES TABLEAUX (Mise en forme, insertion, suppression, tri...) 1 CRÉER UN TABLEAU 1.1 Présentation Pour organiser et présenter des données sous forme d un tableau, Word propose
Plus en détailLes cartes de fidélités... 2 Natures de pièces... 5 Impression des chèques cadeaux... 6 Statistiques fidélités... 8 Fiche client...
Sommaire Les cartes de fidélités... 2 Natures de pièces... 5 Impression des chèques cadeaux... 6 Statistiques fidélités... 8 Fiche client... 9 Copyright WaveSoft 1/9 La gestion des cartes de fidélités
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailIndividus et informations supplémentaires
ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailProposition d article pour le colloque SFER. ANGERS, décembre 2013
Proposition d article pour le colloque SFER ANGERS, décembre 2013 Convergence et différence dans la représentation des vins rouges de Bourgogne chez les professionnels de la filière viti-vinicole Monia
Plus en détailQuelques éléments de statistique multidimensionnelle
ANNEXE 1 Quelques éléments de statistique multidimensionnelle Les méthodes d analyse statistique exploratoire utilisées au cours des chapitres précédents visent à mettre en forme de vastes ensembles de
Plus en détailMise en lumière de votre excellence
isycard Sommelier Cartes & Menus numériques : tablettes, smartphones, bornes tactiles 39 90 H.T. / mois Mise en lumière de votre excellence hôtels restaurants bars boutiques spas vins isycard Sommelier
Plus en détailPRISE MAIN DE GOOGLE MAP ET GOOGLE EARTH DANS LE CADRE DE LA PREPARATION ET L EXPLOITATION D UNE JOURNEE DE TERRAIN
Stage CeFEG-TICE EL 2009 PRISE MAIN DE GOOGLE MAP ET GOOGLE EARTH DANS LE CADRE DE LA PREPARATION ET L EXPLOITATION D UNE JOURNEE DE TERRAIN PRESENTATION Objectif technique : Produire un fichier exportable
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailFOG : Free Open-Source Ghost. Solution libre de clonage et de déploiement de systèmes d'exploitation.
FOG : Free Open-Source Ghost Solution libre de clonage et de déploiement de systèmes d'exploitation. JoSy-Plume 22 novembre 2010 Logiciel développé par Chuck Syperski et Jian Zhang, IT à l'université "DuPage"
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailFORMULAIRE DE STATISTIQUES
FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)
Plus en détailAnne Tasso. Java. Le livre de. premier langage. 10 e édition. Avec 109 exercices corrigés. Groupe Eyrolles, 2000-2015, ISBN : 978-2-212-14154-2
Anne Tasso Java Le livre de premier langage 10 e édition Avec 109 exercices corrigés Groupe Eyrolles, 2000-2015, ISBN : 978-2-212-14154-2 Table des matières Avant-propos Organisation de l ouvrage..............................
Plus en détailFormation continue. Ensae-Ensai Formation Continue (Cepe)
CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat
Plus en détailHyper-V et SC Virtual Machine Manager Technologie de virtualisation sous Windows Server 2008 R2 [2ième édition]
Implémentation et gestion d'hyper-v 1. Introduction 13 1.1 Virtualisation et Green Computing 14 1.1.1 Le constat 14 1.1.2 Des chiffres 15 1.1.3 Pour corréler... 15 1.1.4 Agir! 16 1.2 Virtualisation et
Plus en détailPascal Schlich, INRA
Pascal Schlich, INRA 1. Les limites du profil sensoriel classique 2. La Dominance Temporelle des Sensation (DTS) 3. Un questionnaire de mesure de la complexité perçue 4. Quatre applications aux boissons
Plus en détailLES FONCTIONS DE SURVEILLANCE DES FICHIERS
SYSLOG and APPLICATION LOGS Knowledge Module for PATROL - Data Sheet Version 1.5 Développé par http://www.axivia.com/ PRESENTATION DU PRODUIT SYSLOG and APPLICATION LOGS Knowledge Module for PATROL est
Plus en détailRencontre des personnes-ressources en déficience motrice et organique RÉCIT MST - RÉCIT Adaptation scolaire Pierre Couillard
Rencontre des personnes-ressources en déficience motrice et organique RÉCIT MST - RÉCIT Adaptation scolaire Pierre Couillard Pylote (http://pascal.peter.free.fr/?17/pylote) Logiciels d aide en mathématique
Plus en détailProSimPlus HNO3 Résumé des nouvelles fonctionnalités, décembre 2008
ProSimPlus HNO3 Résumé des nouvelles fonctionnalités, décembre 2008 Cette page présente un résumé des derniers développements effectués dans le logiciel ProSimPlus HNO3. Ceux-ci correspondent à de nouvelles
Plus en détailManuel logiciel client Java
Manuel logiciel client Java 2 Copyright Systancia 2012 Tous droits réservés Les informations fournies dans le présent document sont fournies à titre d information, et de ce fait ne font l objet d aucun
Plus en détailAnalyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin
Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet
Plus en détailFORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)
87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation
Plus en détail