GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali
|
|
- Delphine Corriveau
- il y a 8 ans
- Total affichages :
Transcription
1 LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 6 Master 2 EID goutte@math.univ-paris13.fr Master 2 EID 07/08 1
2 Contents 1 Introduction Classer et Classier Vocabulaire Classication Ascendante Hierarchique (CAH) Introduction Critère d'agrégation Principe-Algorithme Méthode de Ward Attention aux inversions Classication K-means 8 4 Les classications avec SAS Les procédures: cluster - varclus - fastclus - tree La procédure CLUSTER But Choix de la distance goutte@math.univ-paris13.fr Master 2 EID 07/08 2
3 1 Introduction Pour rappel l'analyse de données, c'est: Méthodes factorielles: ACP AFC ACM Classication automatique: Classication hiérarchique (tree clustering): création d'arbres. Classication ascendante hiérarchique (CAH) Classication descendante hiérarchique Partitionnement (clustering): création de partitions, classes. 1.1 Classer et Classier Il est important de ne pa confondre Classer et Classier. Classier = construire des classes. On construit notre propre système de partionnement en fonction de l'information de notre base. Classer = classement dans des classes préétablies. On utilise un partionnement déjà existant. 1.2 Vocabulaire Voici deux notions importantes: Classe monothétique : classe dont tous les individus possèdent une caractéristique en commun. Classe polythétique : classe dont les individus possèdent plusieurs attributs en commun mais pas forcément tous (classe plus ou moins homogène) goutte@math.univ-paris13.fr Master 2 EID 07/08 3
4 2 Classication Ascendante Hierarchique (CAH) 2.1 Introduction La Classication Ascendante Hierarchique (CAH) s'applique "normalement" sur des individus statistiques (personnes, entreprises, données nancières,...). On souhaite regrouper ces individus selon un critère de ressemblance. On cherche donc à isoler des informations de notre base qui "rapprochent" des individus entre eux et qui en éloignent d'autres. Les données que nous possédons sont donc les suivantes: un tableau individus x variables. un tableau de distances entre individus. Nous devonc pour cela dénit les paramètres suivants: Les données d'origine (brutes, normalisées,...) La distance entre individus (euclidienne, χ 2,...) Le critère d'agrégation entre deux classes (saut minimum, diamètre=saut maximum, ward, moyenne,...) goutte@math.univ-paris13.fr Master 2 EID 07/08 4
5 2.2 Critère d'agrégation Master 2 EID 07/08 5
6 2.3 Principe-Algorithme Master 2 EID 07/08 6
7 Cependant lorsque l'on agrège 2 éléments, l'inertie intra-classe augmente et l'inertie interclasse diminue. Le critère de Ward tente de minimiser ces variations. Graphes: 2.5 Attention aux inversions Un critère d'agrégation doit être une fonction croissante. Certaines mauvaises "bonnes idées" de critère d'agrégation ne respecte pas cette condition et présente alors des inversion dans le dendrogramme (arbre). Voci un exemple d'inversion. Graphes: goutte@math.univ-paris13.fr Master 2 EID 07/08 7
8 3 Classication K-means Principe et Graphes: Master 2 EID 07/08 8
9 4 Les classications avec SAS 4.1 Les procédures: cluster - varclus - fastclus - tree Deux procédures SAS permettent de réaliser des classications: La PROC CLUSTER. La PROC VARCLUS (Cette procédure eectue une classication de variables). Pour dessiner les arbres et les "couper": La PROC TREE. Pour eectuer des partitions : La PROC FASTCLUS. 4.2 La procédure CLUSTER But Le but de la méthode est de construire une partition de l'ensemble des individus de telle sorte que les individus d'une même classe soient "proches" et ceux issus de classes distinctes soient "éloignés" Choix de la distance Pour savoir si des individus sont proches ou éloignés, il faut mesurer la distance qui les sépare. Nous devons donc choisir une distance. Quantitative : Distance euclidienne. Qualitative: Distance χ 2. La syntaxe de la procédure T-Test est la suiante: PROC CLUSTER METHOD= <options>; BY variables; VAR variables; ID variable; FREQ variable; RUN; Les options: Algorithme 1: Syntaxe de la procédure CLUSTER goutte@math.univ-paris13.fr Master 2 EID 07/08 9
10 DATA=Table-SAS. OUTTREE=Table-SAS : Table SAS qui contient les données concernant l'arbre. METHOD=indique le critère d'agrégation à utiliser. De façon plus concrête: * METHOD: SAS connaît 11 méthodes diérentes pour eectuer la classication. AVER- AGE, CENTROID, COMPLETE, DENSITY, EML, FLEXIBLE, MCQUITTY, MEDIAN, SINGLE, TWOSTAGE, WARD. Nous utiliserons souvent WARD, CENTROID ou AVER- AGE. * OUTTREE =Nom de chier de données SAS. Pour indiquer un chier de données où SAS mettra les résultats des calculs de la procédure CLUSTER. Ces résultats pourront être récupérés par la procédure PROC TREE qui permet d'eectuer un découpage en classes des données, de tracer un pseudo dendrogramme. * STANDARD :Pour demander à SAS de travailler sur des données centrées réduites. * NOTIE : Pour demander à SAS de ne pas vérier l'existence d'exaequos. * RSQUARE : Pour acher le R 2 qui est l'indice mesurant la qualité de la classication dont nous parlions plus haut (Inertie inter-classes/inertie-totale). Cette option est automatiquement activée pour METHOD=WARD. SAS ache également un R 2 partiel qui est en fait la perte de R 2 à chaque étape. * NOPRINT : Supprime l achage. PROC VARCLUS <options>; BY variables; VAR variables; WEIGHT variable; RUN; Algorithme 2: Syntaxe de la procédure VARCLUS Les options: DATA=Table-SAS OUTTREE=Table-SAS MAXCLUSTER= CENTROID goutte@math.univ-paris13.fr Master 2 EID 07/08 10
11 PROC TREE <options>; BY variables; ID variable; RUN; Algorithme 3: Syntaxe de la procédure TREE Les options: DATA=Table-SAS OUT=Table-SAS NCL=nombre de classe HORIZONTAL PROC FASTCLUS MAXCLUSTERS= ; BY variables; VAR variables; ID variable; WEIGHT variable; RUN; Algorithme 4: Syntaxe de la procédure FASTCLUS Les options: DATA=Table-SAS OUT=Table-SAS goutte@math.univ-paris13.fr Master 2 EID 07/08 11
12 Liste des Algorithmes 1 Syntaxe de la procédure CLUSTER Syntaxe de la procédure VARCLUS Syntaxe de la procédure TREE Syntaxe de la procédure FASTCLUS goutte@math.univ-paris13.fr Master 2 EID 07/08 12
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailStéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Plus en détailLa segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Plus en détailSéance 11 : Typologies
Séance 11 : Typologies Sommaire Proc CLUSTER : Typologie hiérarchique... 3 Proc FASTCLUS : Typologie nodale... 8 Proc MODECLUS : Typologie non paramétrique... 11 - Les phénomènes observés (attitudes, comportements,
Plus en détailACP Voitures 1- Méthode
acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788
Plus en détailCOURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES
COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée
Plus en détailClassification non supervisée
AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................
Plus en détail1 - PRESENTATION GENERALE...
Contenu PREAMBULE... 2 INTRODUCTION... 2 1 - PRESENTATION GENERALE... 4 Qualité et optimalité... 8 2 - AGREGATION AUTOUR DE CENTRES MOBILES... 9 2.1 LES BASES DE L'ALGORITHME... 10 2.2 TECHNIQUES CONNEXES...
Plus en détailCompte-rendu de projet de Système de gestion de base de données
Compte-rendu de projet de Système de gestion de base de données Création et utilisation d'un index de jointure LAMBERT VELLER Sylvain M1 STIC Université de Bourgogne 2010-2011 Reponsable : Mr Thierry Grison
Plus en détailAgrégation des portefeuilles de contrats d assurance vie
Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailPLAN. Ricco Rakotomalala Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Apprentissage non-supervisé ou apprentissage multi-supervisé? Ricco RAKOTOMALALA Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ PLAN. Classification automatique, typologie, etc.. Interprétation
Plus en détailRapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
Plus en détailScénario: Données bancaires et segmentation de clientèle
Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé
Plus en détailEtudes marketing et connaissance client
Master deuxième année Mention : Statistique et Traitement de Données Etudes marketing et connaissance client Imane Hammouali Tuteur de stage: M. Sébastien Confesson Stage effectué au Service Etudes Marketing
Plus en détailINTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Plus en détailAlgorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Plus en détailHistorique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications
L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d
Plus en détailchapitre 4 Nombres de Catalan
chapitre 4 Nombres de Catalan I Dénitions Dénition 1 La suite de Catalan (C n ) n est la suite dénie par C 0 = 1 et, pour tout n N, C n+1 = C k C n k. Exemple 2 On trouve rapidement C 0 = 1, C 1 = 1, C
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailBASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :
BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les
Plus en détailL'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN
L'analyse de données Polycopié de cours ENSIETA - Réf : 1463 Arnaud MARTIN Septembre 2004 Table des matières 1 Introduction 1 11 Domaines d'application 2 12 Les données 2 13 Les objectifs 3 14 Les méthodes
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailCrédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH
Master 2 SRO Année scolaire 2009/2010 Crédit Scoring Professeur : RICHARD EMILION Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH Master_2_SRO_Data-Mining 1 Table des matières PARTIE 1 1. Résumé
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailEbauche Rapport finale
Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailMode d'emploi du plugin Grayscale_Granulometry
Mode d'emploi du plugin Grayscale_Granulometry D. Legland 27 mars 2013 Mode d'emploi rapide du plugin Grayscale Granulometry pour ImageJ. Le plugin permet de calculer des courbes de granulométrie en niveaux
Plus en détailTP2 - Conguration réseau et commandes utiles. 1 Généralités. 2 Conguration de la machine. 2.1 Commande hostname
Département d'informatique Architecture des réseaux TP2 - Conguration réseau et commandes utiles L'objectif de ce TP est d'une part de vous présenter la conguration réseau d'une machine dans l'environnement
Plus en détail1.5 0.5 -0.5 -1.5 0 20 40 60 80 100 120. (VM(t i ),Q(t i+j ),VM(t i+j ))
La logique oue dans les PME/PMI Application au dosage de l'eau dans les bétons P.Y. Glorennec INSA de Rennes/IRISA glorenne@irisa.fr C. Hérault Hydrostop christophe@hydrostop.fr V. Hulin Hydrostop vincent@hydrostop.fr
Plus en détailIndividus et informations supplémentaires
ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter
Plus en détailLa Gestion de fichiers Supports réalisés avec OpenOffice.org 2.3 Writer. La Gestion de fichiers. Niveau : Débutant Auteur : Antonio da Silva
La Gestion de fichiers Niveau : Débutant Auteur : Antonio da Silva Table des matières I.Introduction....3 II.La création d'un fichier......4 III.L'arborescence......7 IV.La gestion des dossiers......11
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailEncryptions, compression et partitionnement des données
Encryptions, compression et partitionnement des données Version 1.0 Grégory CASANOVA 2 Compression, encryption et partitionnement des données Sommaire 1 Introduction... 3 2 Encryption transparente des
Plus en détailDATAMINING C4.5 - DBSCAN
14-16 rue Voltaire 94270 Kremlin Bicêtre Benjamin DEVÈZE Matthieu FOUQUIN PROMOTION 2005 SCIA DATAMINING C4.5 - DBSCAN Mai 2004 Responsable de spécialité SCIA : M. Akli Adjaoute Table des matières Table
Plus en détailTravail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt
Travail de session : Mémoire Le clustering de données Par Nicolas Sola & Mathieu Schmitt Résumé Le travail du clustering consiste à regrouper les données en classe ; nous obtenons par ce biais une forte
Plus en détailApplication de K-means à la définition du nombre de VM optimal dans un cloud
Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février
Plus en détailManuel d Utilisateur - Logiciel ModAFi. Jonathan ANJOU - Maud EYZAT - Kévin NAVARRO
Manuel d Utilisateur - Logiciel ModAFi Jonathan ANJOU - Maud EYZAT - Kévin NAVARRO Grenoble, 12 juin 2012 Table des matières 1 Introduction 3 2 Modèles supportés 3 2.1 Les diérents modèles supportés pour
Plus en détailOptimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Plus en détailRapport de Stage. Titre : Clustering à l aide d une représentation supervisée
Nicolas Creff Du 1er février au 31 juillet 2011 Promotion 2011 Majeure SCIA Rapport de Stage Titre : Clustering à l aide d une représentation supervisée Sujet : Personnalisation de scores à l aide de la
Plus en détailSolutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision
Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailAnalyse dialectométrique des parlers berbères de Kabylie
Saïd GUERRAB Analyse dialectométrique des parlers berbères de Kabylie Résumé de la thèse (pour affichage) Il est difficile de parler du berbère sans parler de la variation. Il y a d abord une variation
Plus en détailt 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :
Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant
Plus en détailLES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas
Plus en détailAnnée Universitaire 2009/2010 Session 2 de Printemps
Année Universitaire 2009/2010 Session 2 de Printemps DISVE Licence PARCOURS : CSB4 & CSB6 UE : INF 159, Bases de données Épreuve : INF 159 EX Date : Mardi 22 juin 2010 Heure : 8 heures 30 Durée : 1 heure
Plus en détailProjet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies
Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure
Plus en détailDATA MINING - Analyses de données symboliques sur les restaurants
Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...
Plus en détailIntroduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY
Introduction à l'analyse multivariée (factorielle) sous R Stéphane CHAMPELY 7 septembre 2005 2 Table des matières 1 Introduction 5 1.1 Les données multivariées....................... 5 1.2 L'approche factorielle
Plus en détailRaja Bases de données distribuées A Lire - Tutoriel
Université des Sciences de Montpellier Master 2 Semestre 1 Unité d'enseignement FMIN306 Raja Bases de données distribuées A Lire - Tutoriel 26 janvier 2011 Audrey Novak Romain Maneschi Jonathan Fhal Aloys
Plus en détailSAS de base : gestion des données et procédures élémentaires
1 SAS de base : gestion des données et procédures élémentaires SAS de base : gestion des données et procédures élémentaires Résumé Description des commandes (module SAS de base) les plus utiles de l étape
Plus en détailQuestions d Entretiens en Finance de Marché Retour 2011/2012
Questions d Entretiens en Finance de Marché Retour 2011/2012 Université Lille 1 - Master 2 Mathématiques et Finance Mathématiques du Risque Contact : alexis.fauth@invivoo.com http://samm.univ-paris1.fr/-alexis-fauth-
Plus en détaildistribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position
Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons
Plus en détailIntroduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014
Introduction aux algorithmes MapReduce Mathieu Dumoulin (GRAAL), 14 Février 2014 Plan Introduction de la problématique Tutoriel MapReduce Design d algorithmes MapReduce Tri, somme et calcul de moyenne
Plus en détailIntroduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.
Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis
Plus en détailTD 1 - Structures de Traits et Unification
TD 1 - Structures de Traits et Unification 1 Définitions Un trait (en: feature) est un couple attribut-valeur. Une structure de traits (en: feature structure) est un ensemble de traits. On peut les représenter
Plus en détailESIEA PARIS 2011-2012
ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire
Plus en détailCommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU
CommentWatcher plateforme Web open-source pour analyser les discussions sur des forums en ligne Marian-Andrei RIZOIU 2ème octobre 2013 BLEND 2013 Lyon, France Contexte Laboratoire ERIC Université Lumière
Plus en détail1. Vocabulaire : Introduction au tableau élémentaire
L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie
Plus en détailExtraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction
Plus en détailStatistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Plus en détailBaccalauréat ES Pondichéry 7 avril 2014 Corrigé
Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient
Plus en détailMasters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»
Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :
Plus en détailAnalyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?
Analyses multivariées avec R Commander Analyses multivariées avec R Commander (via le package FactoMineR) Plate-forme de Support en Méthodologie et Calcul Statistique (SMCS) - UCL 1 Introduction à R 2
Plus en détailPropagation sur réseau statique et dynamique
Université de la Méditerranée UFR Sciences de Luminy Rapport de stage informatique pour le Master 2 de Physique, Parcours Physique Théorique et Mathématique, Physique des Particules et Astroparticules.
Plus en détailFICHE N 8 Photodiversité, d une banque d images à un portail d activités en ligne Anne-Marie Michaud, académie de Versailles
FICHE N 8 Photodiversité, d une banque d images à un portail d activités en ligne Anne-Marie Michaud, académie de Versailles Niveaux et thèmes de programme Sixième : 1 ère partie : caractéristiques de
Plus en détailPierre Couprie. «Analyser la musique électroacoustique avec le logiciel ianalyse» EMS08
Pierre Couprie «Analyser la musique électroacoustique avec le logiciel ianalyse» EMS08 Electroacoacoustic Music Studies Network International Conference 3-7 juin 2008 (Paris) - INA-GRM et Université Paris-Sorbonne
Plus en détailIntroduction. Préambule. Le contexte
Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments
Plus en détailLes algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
Plus en détailDocteur en Informatique. Haytham ELGHAZEL. Classification et Prévision des Données Hétérogènes : Application aux Trajectoires et Séjours Hospitaliers
Université Claude Bernard Lyon 1 École Doctorale Informatique et Information pour la Société 2007 2008 THÈSE pour obtenir le grade de Docteur en Informatique (arrêté du 7 août 2006) présentée et soutenue
Plus en détailConception d un lecteur de musique intelligent basé sur l apprentissage automatique.
Université de Mons Faculté des Sciences Institut d Informatique Service d Algorithmique Conception d un lecteur de musique intelligent basé sur l apprentissage automatique. Mémoire réalisé par Xavier DUBUC
Plus en détailComplet Intuitif Efficace. Références
Logiciel de référence en Analyse de Données, Data Mining et Text Mining pour transformer vos données en connaissance Complet Intuitif Efficace Dans un environnement convivial et intuitif, disposez de toute
Plus en détailObjectifs : piloter l organisation à travers des indicateurs (regroupés dans un tableau de bord), et informer des résultats la hiérarchie.
C HAPI TRE 8 Tableau de bord et reporting Objectifs : piloter l organisation à travers des indicateurs (regroupés dans un tableau de bord), et informer des résultats la hiérarchie. 1 Principes A Le tableau
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailRappels sur les suites - Algorithme
DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................
Plus en détailChapitre 4: Dérivée d'une fonction et règles de calcul
DERIVEES ET REGLES DE CALCULS 69 Chapitre 4: Dérivée d'une fonction et règles de calcul Prérequis: Généralités sur les fonctions, Introduction dérivée Requis pour: Croissance, Optimisation, Études de fct.
Plus en détailStages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr
Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE Contact : Mme Lapedra, stage@isoft.fr ISoft, éditeur de logiciels, est spécialisé dans l informatique décisionnelle et l analyse de données. Son expertise
Plus en détailStatistique : Résumé de cours et méthodes
Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère
Plus en détailSegmentation d'images à l'aide d'agents sociaux : applications GPU
Segmentation d'images à l'aide d'agents sociaux : applications GPU Richard MOUSSA Laboratoire Bordelais de Recherche en Informatique (LaBRI) - UMR 5800 Université de Bordeaux - France Laboratoire de recherche
Plus en détailVISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES
VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES Patrick Rousset 1,2 et Christiane Guinot 3 1 CEREQ, Service
Plus en détailOPTIMISATION À UNE VARIABLE
OPTIMISATION À UNE VARIABLE Sommaire 1. Optimum locaux d'une fonction... 1 1.1. Maximum local... 1 1.2. Minimum local... 1 1.3. Points stationnaires et points critiques... 2 1.4. Recherche d'un optimum
Plus en détailChapitre 1 : Introduction aux bases de données
Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données
Plus en détailEquilibrage de charge multi-critère pour les serveurs DNS(SEC)
Equilibrage de charge multi-critère pour les serveurs DNS(SEC) Stanislas Francfort, Stéphane Sénécal, Qinghui Xu, Daniel Migault 6 décembre 2010 Résumé Cet article présente le problème de répartition de
Plus en détailRecherche dans un tableau
Chapitre 3 Recherche dans un tableau 3.1 Introduction 3.1.1 Tranche On appelle tranche de tableau, la donnée d'un tableau t et de deux indices a et b. On note cette tranche t.(a..b). Exemple 3.1 : 3 6
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailODS : organiser et diffuser des sorties
1 ODS : organiser et diffuser des sorties Objectifs Depuis l éphémère version 7 de SAS, l ODS (Output Delivery System) permet de produire des sorties de tous formats : tables SAS, pages HTML, documents
Plus en détailL export de SAS vers Excel expliqué à ma fille
L export de SAS vers Excel expliqué à ma fille SAS est un logiciel merveilleux, mais tous n y ont pas accès. Pour contenter la soif de données de vos collègues qui n auraient pas d autre outil à disposition,
Plus en détailÉvolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses
Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses Thèse présentée par Cécile FAVRE pour obtenir le titre de Docteur en Informatique
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailPeut-on tout programmer?
Chapitre 8 Peut-on tout programmer? 8.1 Que peut-on programmer? Vous voici au terme de votre initiation à la programmation. Vous avez vu comment représenter des données de plus en plus structurées à partir
Plus en détailALGORITHMES DE CLASSIFICATION
ALGORITHMES DE CLASSIFICATION Maurice ROUX Professeur émérite Université Paul Cézanne Marseille, France. Avertissement Cet ouvrage a été publié aux éditions Masson, Paris, en 1985. Il est maintenant épuisé
Plus en détailEntrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Plus en détailTravaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation
Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des
Plus en détailBases de données réparties: Fragmentation et allocation
Pourquoi une base de données distribuée? Bibliographie Patrick Valduriez, S. Ceri, Guiseppe Delagatti Bases de données réparties: Fragmentation et allocation 1 - Introduction inventés à la fin des années
Plus en détail