Analyse exploratoire des données

Dimension: px
Commencer à balayer dès la page:

Download "Analyse exploratoire des données"

Transcription

1 Analyse exploratoire des données Christophe Lalanne Centre international d études pédagogiques juillet 2007 C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

2 Organisation Introduction Analyse en composantes principales Échelonnement multidimensionnel Analyse des correspondances C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

3 Introduction Objectifs décrire une structure de données complexes (cadre multivarié ou multidimensionnel) quantifier et interpréter des associations (distance, similarité, etc.) différentes techniques adaptées selon le type de variables manipulées et selon la visée inférentielle ou descriptive (ACP, AFC, ACM, MDS, CAH, k-means, AD, MANOVA, CART, modèle log-linéaire, etc.) C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

4 Analyse en composantes principales Object de l ACP décrire les variations d un ensemble de variables corrélées X i à partir d un nouvel ensemble de variables non corrélées Y i, obtenues à partir de combinaisons linéaires des premières procédé itératif de construction de ces variables Y i : maximiser la variance expliquer + combinaisons linéaires orthogonales dans leur ensemble ces nouvelles variables Y i sont appelées composantes principales et permettent d expliquer une part substantielle de la variabilité observée (par ordre décroissant) C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

5 Analyse en composantes principales Principe général utilisable avec des variables continues (en principe) aucune condition de validité réduction de dimensions du n individus et p variables (en général, n et p sont supérieurs à 10 ou 20) : retenir 2 ou 3 dimensions qui contiennent le maximum d information sur les données originales normalisation éventuelle des données originales (cas de variables dont les unités diffèrent fortement et contribuent à augmenter artificiellement les diparités entre variables) : utilisation de la matrice de corrélation des X i au lieu de la matrice de covariance (dans ce dernier cas, on peut tester l égalité de groupes de composantes principales) C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

6 Analyse en composantes principales Application (1) À partir d une matrice de corrélation : load ( cor1. RData ) eigen ( cor )$ values eigen ( cor )$ vectors valeurs propres : part de variance expliquée vecteurs propres : composantes principales C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

7 Analyse en composantes principales Application (2) À partir d un fichier de données brutes (ex. R) : summary (pc.cr <- princomp ( USArrests, cor = TRUE )) Importance of components : Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation Proportion of Variance Cumulative Proportion loadings (pc.cr) Loadings : Comp.1 Comp.2 Comp.3 Comp.4 Murder Assault UrbanPop Rape Comp.1 Comp.2 Comp.3 Comp.4 SS loadings Proportion C. Lalanne (CIEP) Var 0.25 Analyse 0.25 exploratoire 0.25 des données 0.25 juillet / 25

8 Analyse en composantes principales Application (3) C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

9 Analyse en composantes principales Application (4) plot (pc.cr) biplot (pc.cr) graphique des valeurs propres : critère du coude pour la sélection des axes à retenir biplot : représentation des point individus et des corrélations entre variables corrélation entre les variables : cosinus de l angle formé par les vecteurs distance entre individus C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

10 Analyse en composantes principales Application (5) C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

11 Analyse en composantes principales Application (5) C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

12 Analyse en composantes principales Application (6) Associé à un arbre de classification hiérarchique : plot ( hclust ( dist ( USArrests ))) C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

13 Analyse en composantes principales Remarques sur l ACP avec R fonction : princomp (plutôt que prcomp) 2 packages utiles : ade4 psy C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

14 Échelonnement multidimensionnel Objectifs du MDS ACP : représenter dans un espace de faible dimension des variables en préservant autant que possible les distances euclidiennes entre les observations des p variables initiales extension de cette technique à un type de variable plus spécifique, non nécessairement continues, et pour lesquelles la notion de distance euclidienne n a pas de sens 2 cas de figure : représenter graphiquement des données de type mesure de similitude ou de préférence adapter l ACP pour représenter les données non pas sur un plan mais sur une courbe ou un sous-espace : déploiement non-linéaire C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

15 Échelonnement multidimensionnel Analyse de similitudes ou de préférences Analyse de similitudes classement par niveau de similitude (subjectif) décroissant de modalités proches d une autre modalité représenter les similitudes entre variables à partir de la matrice de corrélation identifier des regroupements de modalités permettant de définir des situations particulières Analyse de préférences ACP sur un tableau n p regroupant des les rangs de préférence exprimés par les n individus pour chacune des p variables la première composante résumera «au mieux» l ensemble des préférences adaptation de la représentation graphique aux données ordinales C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

16 Analyse des correspondances Objectifs de l AC représenter graphiquement les associations entre 2 (AFC) ou plusieurs (ACM) variables qualitatives calcul de nouvelles coordonnées lignes/colonnes permettant de représenter l association entre variables par leur proximité dans un plan 2 façons de voir l AC sur le plan mathématique : méthode de décomposition de la statistique du χ 2 en différentes composantes correspondant à plusieurs dimensions de la variance entre les colonnes du tableau de contingence méthode pour assigner simultanément une échelle aux profils lignes et une autre échelle aux profils colonnes de façon à maximiser la corrélation entre ces deux échelles C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

17 Analyse des correspondances Rappels : le test du χ 2 associations entre les modalités de 2 variables qualitatives = écart à l indépendance tableau de contingence I J : représentation des effectifs observés (n ij ou O) et des effectifs théoriques (ñ ij, ou E) effectifs théoriques (indépendance entre lignes et colonnes du tableau des effectifs) : ñ ij = n i n j n on définit la distance du χ 2 comme suit : d 2 = (O E) 2 E χ 2 (I 1)(J 1) C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

18 Analyse des correspondances Exemple Consommation de caféine et statut marital (Dalgaard, 2002) : caff. marital <- matrix (c (652,1537,598,242,36,46,38,21,218,327,106,67), nrow =3, byrow =T) colnames ( caff. marital ) <- c("0"," "," "," >300") rownames ( caff. marital ) <- c(" Married "," Prev. married "," Single ") caff. marital >300 Married Prev. married Single chisq. test ( caff. marital ) Pearson s Chi - squared test data : caff. marital X- squared = , df = 6, p- value = e -09 C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

19 Analyse des correspondances Exemple (2) E <- chisq. test ( caff. marital )$ expected E >300 Married Prev. married Single O <- chisq. test ( caff. marital )$ observed (O-E)^2/E >300 Married Prev. married Single C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

20 Analyse des correspondances Exemple (3) C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

21 Analyse des correspondances Principe général de l AFC utilisable avec des variables qualitatives (nominales) aucune condition de validité peut être dérivée de l ACP ou du MDS (optimisation de la représentation sptiale dans le cadre de données qualitatives, grâce à la distance du χ 2 ) chaque modalité est représentée par un point dans l espace 2D les valeurs propres ne permettent pas (contrairement au cas de l ACP) d estimer correctement la part de variance distinction entre variables actives et illustratives (utilisées après construction de la représentation) interprétation des axes en fonction de la position des modalités représentées sur le nuage des variables ou de leur contribution à l inertie et vérification de la qualité de représentation de chaque point sur les différents axes C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

22 Analyse des correspondances Interprétation lorsque les coordonnées pour les modalités en lignes et en colonnes sont larges et positives (ou négatives), cela indique une association entre la ligne i et la colonne j (n ij > ñ ij ) lorsque les coordonnées sont large en valeurs absolues mais de signe différent pour les lignes et les colonnes, il existe une association négative entre les lignes et les colonnes correspondantes (n ij < ñ ij ) lorsque le produit des coordonnées est proche de 0, l association est faible (n ij ñ ij ) C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

23 Analyse des correspondances Application (1) Couleur des yeux et couleur des cheveux, selon le sexe (ex. R) : library ( MASS ) data ( HairEyeColor ) HairEyeColor,, Sex = Male Eye Hair Brown Blue Hazel Green Black Brown Red Blond ,, Sex = Female Eye Hair Brown Blue Hazel Green Black Brown Red Blond C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

24 Analyse des correspondances Application (2) x <- HairEyeColor [,,1]+ HairEyeColor [,,2] corresp (x, nf = 2) First canonical correlation ( s): Hair scores : [,1] [,2] Black Brown Red Blond Eye scores : [,1] [,2] Brown Blue Hazel Green C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

25 Analyse des correspondances Application (3) biplot ( corresp (x, nf = 2)) C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

26 Analyse des correspondances Remarques distance entre les colonnes i et j : d J ij = J k=1 avec p k = n k n distance entre les lignes i et j : d I ij = I k=1 1 p k (p ki p kj ) 2 1 p k (p ik p jk ) 2 avec p k = n k n l AC revient à faire du MDS sur chaque matrice de distance (lignes et colonnes) et à représenter graphiquement les deux premières coordonnées pour les modalités en colonnes et celles pour les modalités en lignes sur le même plan C. Lalanne (CIEP) Analyse exploratoire des données juillet / 25

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R? Analyses multivariées avec R Commander Analyses multivariées avec R Commander (via le package FactoMineR) Plate-forme de Support en Méthodologie et Calcul Statistique (SMCS) - UCL 1 Introduction à R 2

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.

Plus en détail

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren) La structure de la base de données et l utilisation de PAST La structure de la base de données données originales SPÉCIMENS Code des spécimens: Identification des spécimens individuels. Dépend du but de

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Gestion des données avec R

Gestion des données avec R Gestion des données avec R Christophe Lalanne & Bruno Falissard Table des matières 1 Introduction 1 2 Importation de fichiers CSV 1 2.1 Structure du fichier de données...................................

Plus en détail

Introduction. Préambule. Le contexte

Introduction. Préambule. Le contexte Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Analyse des correspondances avec colonne de référence

Analyse des correspondances avec colonne de référence ADE-4 Analyse des correspondances avec colonne de référence Résumé Quand une table de contingence contient une colonne de poids très élevé, cette colonne peut servir de point de référence. La distribution

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours Références : 1. G. Saporta, «Probabilités, Analyse de données et Statistique», Dunod, 2006 ; partie théorique, pages 155 à 177 ; partie pratique,

Plus en détail

Scénario: Données bancaires et segmentation de clientèle

Scénario: Données bancaires et segmentation de clientèle Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé

Plus en détail

La place de SAS dans l'informatique décisionnelle

La place de SAS dans l'informatique décisionnelle La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont

Plus en détail

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand Service méthodes statistiques Institut National d Etudes Démographiques (Ined)

Plus en détail

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011 Master 1 Biologie et technologie du végétal Année 010-011 Statistiques Rappels de cours et travaux dirigés (Seul ce document sera autorisé en examen) auteur : Jean-Marc Labatte jean-marc.labatte@univ-angers.fr

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Partie II Cours 3 (suite) : Sécurité de bases de données

Partie II Cours 3 (suite) : Sécurité de bases de données Partie II Cours 3 (suite) : Sécurité de bases de données ESIL Université de la méditerranée Odile.Papini@esil.univ-mrs.fr http://odile.papini.perso.esil.univmed.fr/sources/ssi.html Plan du cours 1 Introduction

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9 Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9 L analyse de variance à un facteur permet de vérifier, moyennant certaines hypothèses, si un facteur (un critère de classification,

Plus en détail

Mémo d utilisation de ADE-4

Mémo d utilisation de ADE-4 Mémo d utilisation de ADE-4 Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr 2003 ADE-4 est un logiciel d analyses des communautés écologiques créé par l équipe de biostatistiques de Lyon. Il propose

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

ISFA 2 année 2002-2003. Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

ISFA 2 année 2002-2003. Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses. On considère la matrice de données : ISFA 2 année 22-23 Les questions sont en grande partie indépendantes Merci d utiliser l espace imparti pour vos réponses > ele JCVGE FM1 GM JCRB FM2 JMLP Paris 61 29

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

6 ème. Rallye mathématique de la Sarthe 2013/2014. 1 ère épreuve de qualification : Problèmes Jeudi 21 novembre 2013

6 ème. Rallye mathématique de la Sarthe 2013/2014. 1 ère épreuve de qualification : Problèmes Jeudi 21 novembre 2013 Retrouver tous les sujets, les corrigés, les annales, les finales sur le site du rallye : http://sarthe.cijm.org I Stéphane, Eric et Christophe sont 3 garçons avec des chevelures différentes. Stéphane

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Chapitre 5 : Flot maximal dans un graphe

Chapitre 5 : Flot maximal dans un graphe Graphes et RO TELECOM Nancy A Chapitre 5 : Flot maximal dans un graphe J.-F. Scheid 1 Plan du chapitre I. Définitions 1 Graphe Graphe valué 3 Représentation d un graphe (matrice d incidence, matrice d

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

Avant-après, amont-aval : les couples de tableaux totalement appariés

Avant-après, amont-aval : les couples de tableaux totalement appariés ADE-4 Avant-après, amont-aval : les couples de tableaux totalement appariés Résumé La fiche décrit les méthodes d analyse des couples de tableaux complètement appariés (mêmes individus, mêmes variables).

Plus en détail

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples 45 Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples Les espaces vectoriels considérés sont réels, non réduits au vecteur nul et

Plus en détail

SAS de base : gestion des données et procédures élémentaires

SAS de base : gestion des données et procédures élémentaires 1 SAS de base : gestion des données et procédures élémentaires SAS de base : gestion des données et procédures élémentaires Résumé Description des commandes (module SAS de base) les plus utiles de l étape

Plus en détail

Traits biologiques : variables ou K-tableaux?

Traits biologiques : variables ou K-tableaux? Consultations statistiques avec le logiciel Traits biologiques : variables ou K-tableaux? Résumé La fiche donne des indications sur la nature des tableaux de traits biologiques. A partir de plusieurs exemples,

Plus en détail

Cours d analyse numérique SMI-S4

Cours d analyse numérique SMI-S4 ours d analyse numérique SMI-S4 Introduction L objet de l analyse numérique est de concevoir et d étudier des méthodes de résolution de certains problèmes mathématiques, en général issus de problèmes réels,

Plus en détail

Individus et informations supplémentaires

Individus et informations supplémentaires ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Plus courts chemins, programmation dynamique

Plus courts chemins, programmation dynamique 1 Plus courts chemins, programmation dynamique 1. Plus courts chemins à partir d un sommet 2. Plus courts chemins entre tous les sommets 3. Semi-anneau 4. Programmation dynamique 5. Applications à la bio-informatique

Plus en détail

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+ ERRATA ET AJOUTS Chapitre, p. 64, l équation se lit comme suit : 008, Taux effectif = 1+ 0 0816 =, Chapitre 3, p. 84, l équation se lit comme suit : 0, 075 1 000 C = = 37, 50$ Chapitre 4, p. 108, note

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle Panorama des problématiques de traitement de l information Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle Conduite d une étude statistique Larbi Aït Hennani, maître de conférences en mathématiques

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» Centre de recherche en démographie et sociétés UCL/IACCHOS/DEMO Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» 1 2 3+ analyses univariées Type de variables

Plus en détail

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercice : la frontière des portefeuilles optimaux sans actif certain Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué

Plus en détail

EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE.

EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE. EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE. MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE DE LA MAÎTRISE EN ADMINISTRATION PUBLIQUE - «OPTION POUR ANALYSTES»

Plus en détail

Optimiser les performances du mouvement de monte de l Axe Z.

Optimiser les performances du mouvement de monte de l Axe Z. Page/0 - BUT DE LA MANIPULATION : Optimiser les performances du mouvement de monte de l Axe Z. - LES PLANS D EXPERIENCE -LA METHODE DU DOCTEUR TAGUCHI. La mthodologie Taguchi de mise en oeuvre des plans

Plus en détail

Modèles pour données répétées

Modèles pour données répétées Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque

Plus en détail

REVUE DE STATISTIQUE APPLIQUÉE

REVUE DE STATISTIQUE APPLIQUÉE REVUE DE STATISTIQUE APPLIQUÉE H. ABDALLAH G. SAPORTA Mesures de distance entre modalités de variables qualitatives; application à la classification Revue de statistique appliquée, tome 51, n o 2 (2003),

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes , avec prise en compte des plans d échantillonnage complexes par Joseph LARMARANGE version du 29 mars 2007 Ce cours a été développé pour une formation niveau M2 et Doctorat des étudiants du laboratoire

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Licence Sciences et Technologies Examen janvier 2010

Licence Sciences et Technologies Examen janvier 2010 Université de Provence Introduction à l Informatique Licence Sciences et Technologies Examen janvier 2010 Année 2009-10 Aucun document n est autorisé Les exercices peuvent être traités dans le désordre.

Plus en détail

Déterminants. Marc SAGE 9 août 2008. 2 Inverses et polynômes 3

Déterminants. Marc SAGE 9 août 2008. 2 Inverses et polynômes 3 Déterminants Marc SAGE 9 août 28 Table des matières Quid des formes n-linéaires alternées? 2 2 Inverses et polynômes 3 3 Formule de Miller pour calculer un déterminant (ou comment illustrer une idée géniale)

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Le chi carré. Le sommaire. Approche quantitative

Le chi carré. Le sommaire. Approche quantitative Approche quantitative Le chi carré Les objectifs pédagogiques Définir le test du chi carré Déterminer la nature des données propres au chi carré Savoir calculer le chi carré Savoir déterminer les fréquences

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

Cours 9 : Plans à plusieurs facteurs

Cours 9 : Plans à plusieurs facteurs Cours 9 : Plans à plusieurs facteurs Table des matières Section 1. Diviser pour regner, rassembler pour saisir... 3 Section 2. Définitions et notations... 3 2.1. Définitions... 3 2.2. Notations... 4 Section

Plus en détail

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Techniques d interaction dans la visualisation de l information Séminaire DIVA Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques

Plus en détail

Cours Fonctions de deux variables

Cours Fonctions de deux variables Cours Fonctions de deux variables par Pierre Veuillez 1 Support théorique 1.1 Représentation Plan et espace : Grâce à un repère cartésien ( ) O, i, j du plan, les couples (x, y) de R 2 peuvent être représenté

Plus en détail

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan 1 Objectifs Traitement statistique des données d enquête avec introduction à SPSS Gilbert Ritschard Département d économétrie, Université de Genève gilbert.ritschard@themes.unige.ch Bamako, 7-11 octobre

Plus en détail

SPHINX Logiciel de dépouillement d enquêtes

SPHINX Logiciel de dépouillement d enquêtes SPHINX Logiciel de dépouillement d enquêtes sphinx50frversion4.doc 1 Les trois stades du SPHINX sont ceux que comporte habituellement toute enquête d opinion: Elaboration du questionnaire (fiche outil

Plus en détail

Cette Leçon va remplir ces attentes spécifiques du curriculum :

Cette Leçon va remplir ces attentes spécifiques du curriculum : Dev4Plan1 Le Plan De Leçon 1. Information : Course : Français Cadre Niveau : Septième Année Unité : Mes Relations Interpersonnelles Thème du Leçon : Les Adjectifs Descriptifs Date : Temps : 55 minutes

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point 03 Mai 2013 Collège Oasis Durée de L épreuve : 2 heures. apple Le sujet comporte 4 pages et est présenté en livret ; apple La calculatrice est autorisée ; apple 4 points sont attribués à la qualité de

Plus en détail

FONCTION DE DEMANDE : REVENU ET PRIX

FONCTION DE DEMANDE : REVENU ET PRIX FONCTION DE DEMANDE : REVENU ET PRIX 1. L effet d une variation du revenu. Les lois d Engel a. Conditions du raisonnement : prix et goûts inchangés, variation du revenu (statique comparative) b. Partie

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Étudier si une famille est une base

Étudier si une famille est une base Base raisonnée d exercices de mathématiqes (Braise) Méthodes et techniqes des exercices Étdier si ne famille est ne base Soit E n K-espace vectoriel. Comment décider si ne famille donnée de vecters de

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY Introduction à l'analyse multivariée (factorielle) sous R Stéphane CHAMPELY 7 septembre 2005 2 Table des matières 1 Introduction 5 1.1 Les données multivariées....................... 5 1.2 L'approche factorielle

Plus en détail

LES DIFFERENTS TYPES DE MESURE

LES DIFFERENTS TYPES DE MESURE LES DIFFERENTS TYPES DE MESURE Licence - Statistiques 2004/2005 REALITE ET DONNEES CHIFFREES Recherche = - mesure. - traduction d une réalité en chiffre - abouti à des tableaux, des calculs 1) Qu est-ce

Plus en détail