Statistiques multivariées : analyse en composantes principales analyse factorielle des correspondances

Dimension: px
Commencer à balayer dès la page:

Download "Statistiques multivariées : analyse en composantes principales analyse factorielle des correspondances"

Transcription

1 Statistiques multivariées : analyse en composantes principales analyse factorielle des correspondances C. Bardel Septembre / 70

2 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 2 / 70

3 Analyse multivariée Principe Analyse des variations de plusieurs variables qui peuvent être corrélées ou non Forme des données (de façon générale) Individu Variable 1 Variable 2... Variable p 1 x 1,1 x 2,1... x p,1 2 x 1,2 x 2,2... x p,2... n x 1,n x 2,n... x p,n Les variables peuvent être qualitatives ou quantitatives dépendantes ou indépendantes 3 / 70

4 Les différents types de méthodes de stats multivariées Les 2 grands types de méthodes Les méthodes descriptives Toutes les variables jouent le même rôle (variables indépendantes) But : Visualiser et classer des données de grande dimension Les méthodes explicatives Une ou pls variable à expliquer et de nombreuses variables explicatives But : relier une variable à expliquer Y à des variables explicatives (= variables indépendantes = prédicteurs) X 1, X 2,... Les méthodes explicatives Variable à expliquer quantitative (loi normale) Variable explicatives quantitatives : régression Variables explicatives qualitatives : ANOVA Variable à expliquer qualitatives Analyse discriminante prédictive (AD) Régression logistique 4 / 70

5 Les méthodes descriptives Les méthodes de visualisation Variables X i quantitatives : Analyse en composantes principales (ACP) Analyse discriminante factorielle (AD) Variables X i qualitatives : Cas ou i = 2 : Analyse factorielle des correspondances (AFC) Cas ou i > 2 Analyse factorielle des correspondances multiples (AFCM) Méthodes traitées dans ce cours : ACP et AFC Les méthodes de classification Classification hiérarchique / non hiérarchique Classification supervisée/non supervisée Classification des individus/ des variables Non détaillées dans ce cours 5 / 70

6 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 6 / 70

7 L ACP : introduction Principe général de l ACP Résumer l information portée par un nombre élevé de variables quantitatives au moyen de variables quantitatives synthétiques appelées facteurs principaux de l ACP Les facteurs principaux sont des combinaisons linéaires des variables initiales Ils ne sont pas corrélés 2 à 2 Les 2 ou 3 premiers facteurs permettent d extraire la majorité de l information contenue dans les données D autant plus vrai si les variables initiales sont corrélées au départ Principe intuitif : projection 7 / 70

8 Analyses préalables Études univariées et bivariées Observation des distributions Calcul des moyennes, médianes, écart-types,... Matrice de variance/covariance ou de corrélation Identifier les valeurs aberrantes (par ex : erreur de saisie, de manipulation) et les données manquantes Traitement des données manquantes L ACP ne peut pas traiter de tableaux comportant des données manquantes. Suppression des individus avec données manquantes Imputation/extrapolation des données manquantes 8 / 70

9 Exemple des notes dans 4 matières Les données : notes de 9 élèves dans 4 disciplines maths phys fran angl Lea Jean Pierre Paul Marie Julie Sandra Alex Tom / 70

10 Analyse préliminaire univariée Résumés sur les distributions de chaque variable summary(d) MATH PHYS FRAN ANGL Min. : Min. : Min. : 5.00 Min. : st Qu. : st Qu. : st Qu. : st Qu. : 8.00 Median : Median : Median :11.00 Median : 9.50 Mean : Mean : Mean :10.22 Mean : rd Qu. : rd Qu. : rd Qu. : rd Qu. :12.00 Max. : Max. : Max. :15.50 Max. :15.00 Recherche de données manquantes Vérification de la longueur d un vecteur : > length(d$math) [1] 9 > is.na.data.frame(d) MATH PHYS FRAN ANGL [1,] FALSE FALSE FALSE FALSE [2,] FALSE FALSE FALSE FALSE [3,] FALSE FALSE FALSE FALSE [4,] FALSE FALSE FALSE FALSE [5,] FALSE FALSE FALSE FALSE [6,] FALSE FALSE FALSE FALSE / 70

11 Analyse préliminaire bivariée : nuages de point 2 à 2 Commande R : pairs(data) MATH PHYS FRAN ANGL 11 / 70

12 Analyse préliminaire bivariée : covariances et correlation Matrice de variance-covariance : cov(data) MATH PHYS FRAN ANGL MATH PHYS FRAN ANGL Matrice de corrélation : cor(data) MATH PHYS FRAN ANGL MATH PHYS FRAN ANGL L ACP est basée sur l analyse d une de ces 2 matrices 12 / 70

13 ACP normée vs ACP non normée ACP normée = ACP centrée réduite Les données sont centrée et réduites On travaille sur la matrice de corrélation Utilisée lorsque les données ne sont pas homogènes (= pas de la même unités) ACP non normée = ACP centrée Les données sont centrées On travaille sur la matrice de variance-covariance Utilisée lorsque les données sont dans la même unité où toutes en % Conséquences d une ACP centrée sur des données hétérogènes Les variables ayant un ordre de grandeur plus élevé auront une plus grande variance et donc seront prépondérants dans la définition des facteurs 13 / 70

14 Définition des axes de l ACP Exemple intuitif : On recherche le 1er axe de manière à ce que la projection du nuage de point sur cet axe ait une variance maximum Le second axe est orthogonal au premier et tel que la projection du nuage sur cet axe maximise la part de variance restante / 70

15 Vocabulaire Valeur propre/vecteur propre On sait calculer des vecteurs propres (eigenvectors) d une matrice et les valeurs propres (eigenvalues) qui leur sont associés. Les axes factoriels ils sont engendrés par les vecteurs propres normés ils ont perpendiculaires 2 à 2 ils correspondent aux directions dans laquelle la dispersion du nuage de point est la plus grande l axe principal est associé à la plus grande valeur propre λ 1 Les valeurs propres elles correspondent à la variance des projections du nuage de point sur l axe qui leur est associé elles rendent compte de l importance de l axe dans la représentation des données 15 / 70

16 Vocabulaire (suite) Les composantes principales Ce sont de nouvelles variables, combinaisons linéaires des anciennes variables C i = a i,1 X 1 + a i,2 X a i,p X p i-ème composante principale Elles permettent de calculer les coordonnées des individus dans le nouveau référentiel défini par les axes factoriels, (projections des individus sur les axes) Var 1... Var n ind 1 x 1,1... x 1,n ind 2 x 2,1... x 2,n Fact 1... Fact n ind 1 x 1,1... x 1,n ind 2 x 2,1... x 2,n 16 / 70

17 Qualité globale des représentations Variance du nuage sur l axe (k) Elle est donnée par λ k, la valeur propre associée au vecteur propre engendrant l axe k Plus λ k est élevé, plus l axe est important pour la représentation des données Part de variance portée par l axe k (=inertie) λ k p i=1 λ i Part de l inertie portée par les k premiers axes Elle représente la qualité globale de représentation des données dans l espace défini par les k premiers axes. k i=1 λ i p i=1 λ i 17 / 70

18 Cas de nos données Réalisation avec R (package FactoMineR) Réalisation de l acp : res<-pca(d, scale.unit = T) *ACP réduite* valeurs propres λ : res$eig Le tableau donne aussi la part de variance portée par chaque axe (%) et l inertie cumulée Résultats > res$eig eigenvalue perc. of variance cum perc. of variance comp comp comp comp Dans cet exemple, les 2 premiers facteurs restituent quasiment toute la dispersion du nuage. On peut donc négliger les 2 autres facteurs. 18 / 70

19 Critères de choix de la dimension de l espace de représentation (1) Rappel But de l ACP : résumer l information de nombreuses variables par un plus petit nombre de variables synthétiques appelées facteurs principaux. Comment choisir le nombre de facteurs à conserver? Théorème L espace à s dimensions (avec s < p où p est le nb de variables initiales) qui maximise l inertie du nuage de point initial est défini par les s vecteurs propres associés aux s plus grandes valeurs propres Critère 1 : seuil sur l inertie cumulée L information concernant la qualité globale de la représentation dans les espaces représentés par les k premiers facteurs correspond à l inertie cumulée par les k premiers facteurs Seuil arbitraire : inertie cumulée > 70% 19 / 70

20 Critère 2 : l éboulis des valeurs propres Critère de choix Éboulis des valeurs propres : diagramme en bâtons représentant les valeurs propres classées par ordre décroissant Critère : on cherche un coude dans le graphique (diminution brutale des valeurs propres) et on ne conserve que les valeurs propres antérieures au coude Eigenvalues Remarque Plus le nb de variables est élevé, plus il y a de risque que l éboulis des valeurs propres soit écrasés et donc qu il ne présente pas de coude très marqué barplot(res$eig[,1],main="eigenvalues",names.arg=1:nrow(res$eig)) 20 / 70

21 Critère 3 : la règle de Kaiser Critère de choix On ne conserve que les s premiers facteurs correspondant aux valeurs propres supérieures à la moyenne arithmétique de l ensemble des valeurs propres Remarque Dans le cas d une ACP centrée réduite, ce critère revient à conserver les s premières valeurs propres supérieures à 1 Ce critère a tendance à surestimer le nombre de composantes pertinentes Application à nos données (ACP normée) eigenvalue perc. of variance cum perc. of variance comp comp comp comp / 70

22 Critère de choix de la dimension de l espace de représentation Bilan En pratique, on utilise surtout La part d inertie expliquée Combinée avec l éboulis des valeurs propres Attention, ce nombre dépend aussi de la capacité à donner un sens aux axes Pas d intérêt de conserver des facteurs qu on ne peut interpréter ce qui est souvent le cas au delà de 3 facteurs 22 / 70

23 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 23 / 70

24 Coordonnées des variables (cas ACP non normée) Les coordonnées des variables dans le nouveau référentiel défini par les axes factoriels sont obtenu en projetant les variables sur les axes factoriels Remarque : En cas d ACP normée, ce tableau est le même que le tableau des corrélations variables/facteurs (cf plus loin) Avec FactoMineR, on obtient tous les tableaux de résultats sur les variables en tapant res$var $coord Dim.1 Dim.2 Dim.3 Dim.4 MATH PHYS FRAN ANGL / 70

25 Coordonnées des variables : graphique Variables factor map (PCA) FRAN Dim 2 (29.85%) ANGL PHYS MATH Dim 1 (70.05%) 2 groupes de variables 25 / 70

26 Qualité de représentation des variables Représentation des variables par le facteur axe 2 Plus l angle formé entre la variable initiale et un facteur est proche de zéro (cos α = 1), plus la variable est proche du facteur et donc bien représentée par le facteur Plus l angle formé entre la variable initiale et un facteur est proche de 90 degrés (cos α = 0), plus la variable est mal représentée par le facteur En pratique, on raisonne avec les cos 2 car la somme des cos 2 sur l ensemble des axes vaut 1 var1 axe 1 On peut donc calculer la qualité de la représentation de chacune des variables initiales dans le sous espace de représentation finale (somme des cos 2 sur les axes conservés) 26 / 70

27 Qualité de représentation des variables : exemple $cos2 Dim.1 Dim.2 Dim.3 Dim.4 Somme MATH PHYS FRAN ANGL Les 4 matières sont majoritairement représentées par le premier axe. On peut noter que maths et français sont assez bien représentés par le deuxième axe (il capte respectivement 34% et 43% de l information apportée par cette variable). Remarque On considère qu une variable est bien représentée sur un axe lorsque le cosinus carré de l angle qu elle forme avec cet axe est supérieur ou égal à 0.5 (valeur arbitraire, classiquement utilisée) 27 / 70

28 Contribution des variables dans la définition des axes factoriels But : quantifier l importance de chaque variable dans la définition des axes factoriels Intérêt : donner un sens aux facteurs de l ACP afin d interpréter les résultats $contrib Dim.1 Dim.2 Dim.3 Dim.4 MATH PHYS FRAN ANGL Somme Les variables physique et anglais contribuent à hauteur de 28/29% à la définition du facteur 1 Le facteur 2 est porté à 30 et 38% respectivement par les variables maths et français. 28 / 70

29 Les corrélations variables-facteurs $cor Cela correspond aux coefficients de corrélation entre les variables initiales et les facteurs issus de l ACP. Matrice utile pour l interprétation des facteurs Dim.1 Dim.2 Dim.3 Dim.4 MATH PHYS FRAN ANGL Facteur 1 : corrélé positivement avec toutes les disciplines, reflète le niveau d un étudiant (plus ses notes sont bonnes, plus le score est positif) Facteur 2 : corrélé positivement avec les matière littéraires et négativement avec les matières scientifiques, il oppose les disciplines littéraires (groupe 1) et scientifiques (groupe 2) 29 / 70

30 Représentation graphique : le cercle des corrélations Principe (ACP normée) : Pour chaque variable initiale X i, on associe un point dont l abcisse est la corrélation entre X i et le facteur 1 et l ordonnée est la corrélation entre X i et le facteur 2. Les points s inscrivent dans un cercle de centre 0 (origine) et de rayon 1 Plus les points sont proches du cercle, plus ils sont bien représentés par le plan factoriel (= plus ils sont corrélés aux deux facteurs) L angle entre 2 points-variables, mesuré par son cosinus est égal au coefficient de corrélation entre les 2 variables (ex : cos α=0, les deux variables sont indépendantes) Les variables qui ne sont pas situées au bord du cercle ne sont pas corrélées avec les deux facteurs représentés. Elles ne servent pas à l interprétation et l effet de perspective empêche d interpréter la proximité de ces variables 30 / 70

31 Exemple de cercle des corrélations Variables factor map (PCA) Dim 2 (27.99%) FRAN ANGL PHYS MATH / 70

32 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 32 / 70

33 Les coordonnées des individus Les résultats sur les individus sont tous accessibles par la commande res$ind Les coordonnées des individus dans le nouveau référentiel sont obtenues en projetant les individus sur les axes factoriels $coord Dim.1 Dim.2 Dim.3 Dim / 70

34 Le graphique des individus Individuals factor map (PCA) Dim 2 (27.99%) Intérêt : vue d ensemble montre des similarités entre individus par la formation de paquets de points disjoints montre les individus les plus influents (en périphérie) Dim 1 (71.89%) 34 / 70

35 Qualité de représentation d un individu $cos2 Elle est donnée par le cos 2 de l angle formé entre l individu et sa projection sur le facteur concerné La qualité de représentation d un individus dans le sous espace formé des k premiers facteur est égale à la somme des cos 2 associés à chacun des facteurs Dim.1 Dim.2 Dim.3 Dim.4 Somme e e e e e e e e e e e e e e e e e e / 70

36 Contribution des individus dans la définition des axes factoriels $contrib But : quantifier l importance de chaque individu dans la définition des axes. Identification des individus les plus influents En pratique, peu exploitable si nombre d individus grand. On préférera regarder le graphique des individus (+ influents en périphérie) Dim.1 Dim.2 Dim.3 Dim Somme / 70

37 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 37 / 70

38 Variables et individus supplémentaires Principe Introduire des variables ou de nouveaux individus que l on projette sur les plans factoriels obtenus à partir des données initiales (= variables actives) Intérêt Jouer un rôle de contrôle : on vérifie que ces variables et individus se positionnent de façon cohérentes par rapport aux autres Affiner l analyse avec des variables supplémentaires décrivant un aspect complémentaire du sujet d étude ou avec des individus supplémentaires issus de nouvelles expériences Attention Ces variables et individus n ont pas été pris en compte lors de la construction des facteurs. Ils sont donc moins bien représentés que les autres variables 38 / 70

39 Exemple d utilisation des variables et individus supplémentaires Variables supplémentaires Variables complémentaires pour l analyse Variables mal renseignées pour les individus (beaucoup de données manquantes) Individus supplémentaires Individus avec des données manquantes ou extrêmes Individus issus d expériences menées dans des conditions différentes mais ayant fait l objet des mêmes mesures (mêmes variables) 39 / 70

40 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales Résultats sur les variables Résultats sur les individus Variables et individus supplémentaires Interprétation d une ACP et conclusion 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 40 / 70

41 Interprétation d une ACP Questions à se poser concernant les variables Quelles variables contribuent le plus à définir un facteur donné? Quels sont les signes affectés aux coordonnées des variables suivant le facteur? (La variable contribue-t elle positivement ou négativement au facteur?) Y a t il des regroupements de variables? Questions à se poser concernant les individus Quelles sont les observations qui contribuent le plus à définir un axe? Existe-t il des regroupements ou des tendances au niveau des observations? Interprétation des facteurs Nombre de facteurs à retenir Donner un sens aux facteurs à l aide des contributions et des qualités de représentation (cos 2 ) 41 / 70

42 Conclusion Conclusion sur l ACP Packages R : ade4 ou FactoMineR Analyse descriptive, réduction de la dimension Ne permet pas vraiment de faire des classes (utiliser plutôt des méthodes de classification) Faire attention à l interprétation des résultats d une ACP : c est rarement simple et nécessite de bien connaître le phénomène biologique étudié Les premières composantes principales peuvent ne pas être les plus intéressantes dans la mesure ou elles décrivent des généralités concernant le phénomène étudié. concentrer l étude sur les autres dimensions 42 / 70

43 Plan du cours 1 Introduction 2 Analyse descriptive de n variables quantitatives : analyse en composantes principales 3 Analyse descriptive de 2 variables qualitatives : analyse factorielle des correspondances 43 / 70

44 Introduction Généralités Méthode adaptée au traitement de données qualitatives Généralisation de l ACP AFC simple : étude de la correspondance entre 2 variables qualitatives croisées dans un tableau de contingence L étude d un tableau individu variables qualitatives se fait via l AFC multiple (AFCM) Le tableau de contingence (Etudiants de 1A à l université de Nice selon la catégorie socio professionnelle du chef de famille) : IUT Sciences LSH Droit Eco Médecine Total Agriculteurs Indépendants Cadres Prof. int Employés Ouvriers Total / 70

45 Objectif de l AFC et conditions Objectif Mettre en évidence les relations qui existent (ou pas) entre les différentes modalités des 2 variables Utilisation d une métrique pour quantifier la force des liaisons entre les modalités des 2 variables : la métrique du Khi 2 Remarque : la métrique du Khi 2 favorise les modalités de faibles effectifs en leur attribuant un poids plus grand dans l analyse. Conditions Les 2 variables doivent être qualitatives Les observations doivent être indépendantes (un individu dans une seule case du tableau de contingence) Chaque modalité apparaît au moins une fois dans le tableau Il est de plus souhaitable que les effectifs théoriques soient supérieurs à 5 dans toutes les cases (même condition que pour le test du Khi 2 ) 45 / 70

46 Analyse exploratoire du tableau de contingence Le tableau des profils-lignes Il correspond au tableau obtenu en divisant les effectifs k i,j situées dans les cases par les effectifs marginaux des lignes k i, Les quantités fj i de chacune des cases de ce nouveau tableau correspondent à l estimation des probabilités P(Y = j X = i) Cas de l exemple Le tableau des profils-lignes donne la répartition du choix des étudiants par origine sociale des étudiants (ici en %) IUT Sciences LSH Droit Eco Médecine Total Agriculteurs Indépendants Cadres Prof. int Employés Ouvriers Total / 70

47 Analyse exploratoire du tableau de contingence (2) Le tableau des profils-colonnes Il correspond au tableau obtenu en divisant les effectifs k i,j situées dans les cases par les effectifs marginaux des colonnes k,j Les quantités f j i de chacune des cases de ce nouveau tableau correspond à l estimation de la probabilité P(X = i Y = j) Cas de l exemple Le tableau des profils-colonnes donne la répartition des origines sociales en par choix d études (ici, en %) IUT Sciences LSH Droit Eco Médecine Total Agriculteurs Indépendants Cadres Prof. int Employés Ouvriers Total / 70

48 Analyse exploratoire du tableau de contingence (3) L indice d attraction/répulsion : définition Il est défini par f i,j d i,j = f i, f,j L indice d attraction/répulsion : interprétation Si d i,j > 1, on dit que les modalités s attirent La modalité [Y=j] est sur-représentée dans la population [X=i] par rapport à l ensemble de la population (eq à la modalité [X=i] est sur-représentée dans la population [Y=j] par rapport à l ensemble de la population Si d i,j < 1, les modalités se repoussent Si (i, j) d i,j = 1, il y a indépendance parfaite entre les lignes et les colonnes 48 / 70

49 Analyse exploratoire (4) Exemple des indices d attraction/répulsion du tableau de données IUT Sciences LSH Droit Eco Médecine Agriculteurs Indépendants Cadres Prof. int Employés Ouvriers Exemple I(employés, droit)= = 0.47 Cet indice représente le rapport entre la proportion d origine sociale i dans la filière d étude j et la proportion d étudiants d origine sociale i (et vice versa) ex enfant d employés, filière droit (profil colonne) : 7.5/15.8= 0.47 Exemple : Sous-représentation des enfants d ouvriers et d employés dans la filière droit Sur-représentation des enfants de cadres dans la filière médecine 49 / 70

50 Quelques notions sur l AFC Une double ACP (vision classique francophone) Une ACP des profils-lignes : les individus sont les modalités de X Une ACP des profils-colonnes : les individus sont les modalités de Y Existence de liens entre les 2 analyses : les composantes principales d un nuage sont reliées aux directions principales de l autre nuage On s intéresse uniquement aux liens entre les modalités des variables. On ne tracera donc que le graphique représentant conjointement les modalités des 2 variables pour étudier leurs proximités les unes par rapport aux autres. Nombre maximum d axes factoriels Soient X et Y deux variables qualitatives à r et c modalités alors l AFC aboutit à une représentation des modalités dans un espace à d dimensions avec d=inf(r-1, c-1) Application à nos données : CSP, 6 modalités ; études, 6 modalités Au plus 5 axes factoriels 50 / 70

51 Résultats : qualité globale des représentations Mesure de la qualité globale des représentations La qualité globale de la représentation des données dans l espace défini par les k premiers facteurs de l ACP est donnée par la taux d inertie (ou dispersion) expliqué par ces k dimensions. k l=1 λ l d l=1 λ l Remarques lien avec le Khi 2 d l=1 λ l = χ2 n = Inertie totale On n interprétera pas l inertie globale mais le % d inertie porté par chaque axe 51 / 70

52 Critère de choix de la dimension de l espace de représentation Les critères sont les mêmes que pour l ACP On choisit s (1 s p où p=inf(r-1, c-1)) de telle sorte que la part d inertie expliquée couvre une part importante de l information de départ (= inertie cumulée par l ensemble des p facteurs). Généralement on cherche à ce que la part d inertie expliquée soit supérieure à 70% (seuil arbitraire) Les critères principaux Éboulis des valeurs propres Règle de Kaiser 52 / 70

53 Sur notre exemple > res.ca$eig eigenvalue perc of variance cum perc of variance dim e dim e dim e dim e dim e Pour la suite, on conservera les 2 premiers axes uniquement (3 serait aussi possible) 53 / 70

54 Résultats : qualité de représentation des modalités La qualité de la représentation de chaque modalité sur un facteur est donnée par le cosinus carré de l angle formé par le vecteur représentant la modalité et sa projection sur le facteur concerné Exemple (seuls les 2 premiers axes sont conservés) Dim 1 Dim 2 Dim 1 Dim 2 IUT agr Sciences indé LSH cadres Droit p int Eco employé Medecine ouvrier La variable employés est très bien représentée par l axe 1 : cet axe capte 91.5% de l information portée par cette variable 54 / 70

55 Résultats : contribution des modalités dans la définition des axes On recherche la contribution respective des différentes modalités à la part de variance portée par chaque axe Identification des modalités les plus influentes pour chaque axe $contrib Dim 1 Dim 2 IUT Sciences LSH Droit Eco Medecine $contrib Dim 1 Dim 2 agr indé cadres p int employé ouvrier Exemple : la variable cadre contribue à hauteur de 55% à la définition du 2è facteur 55 / 70

56 Représentation graphique Représentation graphique Il existe plusieurs types de représentations graphiques qui conduisent à des interprétations similaires On s intéressera surtout à la représentation simultanée des modalités des 2 variables car cela nous permet de caractériser les liens entre les 2 variables considérées Interprétation Contrairement à l ACP on ne cherche pas à donner un sens aux axes. On interprète le positionnement des modalités les unes par rapport aux autres en essayent d identifier des formes caractéristiques parmi les modalités influentes 56 / 70

57 Résultat de l AFC des données notes/csp CA factor map Dim 2 (21.2%) employé ouvrier Sciences LSH agr IUT indé cadres Eco p_int Medecine Droit / 70

58 Interprétation La démarche Identification des modalités influentes : elles sont situées en périphérie du graphique. Plus une modalité est éloignée du centre du graphique, plus elle contribue à la définition des axes Observation de la répartition des modalités influentes : existe-t il des formes caractéristiques (sous groupes isolés, forme parabolique = effet Guttman) Si des formes caractéristiques ont été identifiées, recherche de la composition des formes caractéristiques est-ce que des modalités des 2 variables sont présentes dans chacun des groupes? Dans le cas d un effet Guttman, est-ce qu il existe une progression logique dans l association des modalités des variables? etc. 58 / 70

59 Résultat de l AFC des données filières/csp CA factor map Dim 2 (21.2%) ouvrier employé Sciences LSH agr IUT indé cadres Eco p_int Medecine Droit Dim 1 (68.6%) Axe 1 : oppose catégories modestes/lsh+ Sciences à pr int et indépendants/sciences économiques, droit Axe 2 : montre forte représentation de la filière médecine chez les enfants de cadres Ne pas interpréter la position d agriculteur sur le 1er plan principal car son cos 2 est trop faible 59 / 70

60 Interprétation : effet Guttman Un nuage de point de forme parabolique indique une redondance entre les deux variables étudiées. L information est essentiellement contenue dans le 1 er facteur Ex : Cas de 2 variables ordinales qui classent les sujets de la même façon. Axe 1 classe les valeurs et oppose les valeurs extrêmes Axe 2 oppose les intermédiaires et les extrêmes 60 / 70

61 Exemple d AFC Les données : Couleurs des yeux et des cheveux chez 592 étudiants brun chatain roux blond Total marron bleu noisette vert Total variables qualitatives à 4 modalités : au maximum 3 facteurs pour l AFC Décomposition de l inertie : chr.ca$eig eigenvalue perc of variance cum perc of variance dim dim dim Le 1er axe couvre 90% de l information de départ concentrer l analyse sur cet axe 61 / 70

62 Positionnement des modalités sur le 1er facteur 3 groupes présentant chacun des modalités de chacune des variables de départ Groupe 1 : cheveux bruns/yeux marrons, décrivent les valeurs négatives sur l axe 1 Groupe 2 : à l opposé sur l axe décrivant les valeurs positives, yeux bleus/cheveux blonds Groupe 3 : groupe intermédiaire, associant cheveux châtains à roux et yeux noisettes Le 3è groupe est proche de l origine, il correspond à un profil moyen, le plus fréquemment rencontré Les yeux verts sont un peu à part 62 / 70

63 Positionnement des modalités sur le 1er facteur On retrouve ces résultats sur les tableaux des coordonnées de modalités (2 premiers facteurs représentés uniquement) Coordonnées des colonnes Dim 1 Dim 2 brun chatain roux blond Coordonnées des lignes Dim 1 Dim 2 marron bleu noisette vert / 70

64 Qualité de représentation des modalités sur les facteurs (cos 2 ) $cos2 (colonnes) Dim 1 Dim 2 brun chatain roux blond $cos2 (lignes) Dim 1 Dim 2 marron bleu noisette vert Les modalités sont à peu près toutes bien représentées sur l axe 1 à l exception des yeux verts et des cheveux roux qui sont représentés essentiellement sur l axe 2. Ces 2 modalités correspondant aux modalités les moins fréquemment observées. Le fait qu ils définissent ensemble l axe 2 est dû à la métrique de distance basée sur le khi 2, qui favorise les petits effectifs. C est donc purement artificiel. 64 / 70

65 Contribution des modalités dans la définition des axes $contrib Dim 1 Dim 2 brun chatain roux blond $contrib Dim 1 Dim 2 marron bleu noisette vert Variable couleur des yeux Les modalités qui contribuent le plus à la définition de l axe 1 sont bleu et marron alors que les yeux verts sont déterminants pour l axe 2 Variable couleur des cheveux La première dimension est essentiellement portée par les cheveux blonds (71%) et dans une moindre mesure par les cheveux bruns (22%). Le deuxième axe est majoritairement défini autour des cheveux roux et, de façon un peu moins marquée, par les cheveux bruns 65 / 70

66 Conclusion de l étude On interprète les résultats surtout suivant la première dimension Seconde dimension marginale (10% de l inertie contre près de 90% pour l axe 1) Seconde dimension artificielle du fait des faibles effectifs rencontrés pour les cheveux roux et les yeux verts, deux modalités souvent observées conjointement Progression logique sur l axe 1 : profil plutôt d europe du sud (cheveux bruns, yeux marrons) qui s oppose à un profil nord européen (yeux bleus, cheveux blonds). En position intermédiaire on trouve les personnes aux cheveux châtains et aux yeux noisettes, qui constituent le profil moyen de la population étudiée 66 / 70

67 Et si on a plusieurs variables qualitatives? Réalisation d une analyse factorielle des correspondances multiples Visualisation des liaisons éventuelles entre plusieurs variables qualitatives en interprétant les proximités entre leurs modalités respectives Mêmes hypothèses que l AFC Variables qualitatives Un individu est associé à une seule modalité de chaque variable Chaque modalité apparaît au moins une fois dans l échantillon Il est souhaitable que les effectifs théoriques soient supérieurs à 5 (condition de validité du test du khi 2 Mettre les données en forme avant l analyse Tableau de Burt = généralisation de la table de contingence Tableau disjonctif complet 2 AFCM différentes mais interprétation semblable Fonction MCA du package FactoMineR 67 / 70

68 Les packages R permettant de faire ces analyses (et bien d autres!) FactoMineR Site web du package FactoMineR : Possibilité d utliser FactoMineR avec l interface graphique R commander. ade4 Site web du package ade4 : Interface graphique : ade4tkgui Pour ces 2 packages, nombreuse documentation (souvent en français) et exemples fournis 68 / 70

69 Les méthodes de classification Méthodes de classification non supervisée But : décrire, classer en groupes Classification ascendante hiérarchique (CAH) Exemple : méthode WPGMA (weight Pair Group Method with Arithmetic Mean fonction R : hclust k-means (nécessite de connaître à priori le nombre de classe) Principe de l algorithme fonction R : kmeans, extension aux données longitudinales : kml / 70

70 Les méthodes de classification (2) Méthodes de classification supervisée But : prédire l appartenance d un individu à une classe Utilisation d un ensemble d entraînement pour apprendre des règles qui permettent de prédire des caractéristiques de nouveaux individus Exemple des méthodes de réseaux de neurones Exemple des méthodes SVM Exemple des méthodes d arbre de décision... Notion de cross-validation 70 / 70

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

Analyse des correspondances avec colonne de référence

Analyse des correspondances avec colonne de référence ADE-4 Analyse des correspondances avec colonne de référence Résumé Quand une table de contingence contient une colonne de poids très élevé, cette colonne peut servir de point de référence. La distribution

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

ESIEA PARIS 2011-2012

ESIEA PARIS 2011-2012 ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R? Analyses multivariées avec R Commander Analyses multivariées avec R Commander (via le package FactoMineR) Plate-forme de Support en Méthodologie et Calcul Statistique (SMCS) - UCL 1 Introduction à R 2

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

Cours 9 : Plans à plusieurs facteurs

Cours 9 : Plans à plusieurs facteurs Cours 9 : Plans à plusieurs facteurs Table des matières Section 1. Diviser pour regner, rassembler pour saisir... 3 Section 2. Définitions et notations... 3 2.1. Définitions... 3 2.2. Notations... 4 Section

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre

Plus en détail

Introduction. Préambule. Le contexte

Introduction. Préambule. Le contexte Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments

Plus en détail

SERIE 1 Statistique descriptive - Graphiques

SERIE 1 Statistique descriptive - Graphiques Exercices de math ECG J.P. 2 ème A & B SERIE Statistique descriptive - Graphiques Collecte de l'information, dépouillement de l'information et vocabulaire La collecte de l information peut être : directe:

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Statistiques à une variable

Statistiques à une variable Statistiques à une variable Calcul des paramètres statistiques TI-82stats.fr? Déterminer les paramètres de la série statistique : Valeurs 0 2 3 5 8 Effectifs 16 12 28 32 21? Accès au mode statistique Touche

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS ATELIER PARISIEN D URBANISME - 17, BD MORLAND 75004 PARIS TÉL : 01 42 71 28 14 FAX : 01 42 76 24 05 http://www.apur.org Observatoire de l'habitat de Paris L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Individus et informations supplémentaires

Individus et informations supplémentaires ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Algorithmes pour la planification de mouvements en robotique non-holonome

Algorithmes pour la planification de mouvements en robotique non-holonome Algorithmes pour la planification de mouvements en robotique non-holonome Frédéric Jean Unité de Mathématiques Appliquées ENSTA Le 02 février 2006 Outline 1 2 3 Modélisation Géométrique d un Robot Robot

Plus en détail

Bureau N301 (Nautile) benjamin@leroy-beaulieu.ch

Bureau N301 (Nautile) benjamin@leroy-beaulieu.ch Pre-MBA Statistics Seances #1 à #5 : Benjamin Leroy-Beaulieu Bureau N301 (Nautile) benjamin@leroy-beaulieu.ch Mise à niveau statistique Seance #1 : 11 octobre Dénombrement et calculs de sommes 2 QUESTIONS

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Resolution limit in community detection

Resolution limit in community detection Introduction Plan 2006 Introduction Plan Introduction Introduction Plan Introduction Point de départ : un graphe et des sous-graphes. But : quantifier le fait que les sous-graphes choisis sont des modules.

Plus en détail

Mémo d utilisation de ADE-4

Mémo d utilisation de ADE-4 Mémo d utilisation de ADE-4 Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr 2003 ADE-4 est un logiciel d analyses des communautés écologiques créé par l équipe de biostatistiques de Lyon. Il propose

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Scénario: Données bancaires et segmentation de clientèle

Scénario: Données bancaires et segmentation de clientèle Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Fonctions de deux variables. Mai 2011

Fonctions de deux variables. Mai 2011 Fonctions de deux variables Dédou Mai 2011 D une à deux variables Les fonctions modèlisent de l information dépendant d un paramètre. On a aussi besoin de modéliser de l information dépendant de plusieurs

Plus en détail

Localisation des fonctions

Localisation des fonctions MODALISA 7 Localisation des fonctions Vous trouverez dans ce document la position des principales fonctions ventilées selon l organisation de Modalisa en onglets. Sommaire A. Fonctions communes à tous

Plus en détail

Gestion des Clés Publiques (PKI)

Gestion des Clés Publiques (PKI) Chapitre 3 Gestion des Clés Publiques (PKI) L infrastructure de gestion de clés publiques (PKI : Public Key Infrastructure) représente l ensemble des moyens matériels et logiciels assurant la gestion des

Plus en détail

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme TESTS D HYPOTHÈSE FONDÉS SUR LE χ² http://fr.wikipedia.org/wiki/eugénisme Logo du Second International Congress of Eugenics 1921. «Comme un arbre, l eugénisme tire ses constituants de nombreuses sources

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

Couples de variables aléatoires discrètes

Couples de variables aléatoires discrètes Couples de variables aléatoires discrètes ECE Lycée Carnot mai Dans ce dernier chapitre de probabilités de l'année, nous allons introduire l'étude de couples de variables aléatoires, c'est-à-dire l'étude

Plus en détail

TP 7 : oscillateur de torsion

TP 7 : oscillateur de torsion TP 7 : oscillateur de torsion Objectif : étude des oscillations libres et forcées d un pendule de torsion 1 Principe général 1.1 Définition Un pendule de torsion est constitué par un fil large (métallique)

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

SPHINX Logiciel de dépouillement d enquêtes

SPHINX Logiciel de dépouillement d enquêtes SPHINX Logiciel de dépouillement d enquêtes sphinx50frversion4.doc 1 Les trois stades du SPHINX sont ceux que comporte habituellement toute enquête d opinion: Elaboration du questionnaire (fiche outil

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x = LE NOMBRE D OR Présentation et calcul du nombre d or Euclide avait trouvé un moyen de partager en deu un segment selon en «etrême et moyenne raison» Soit un segment [AB]. Le partage d Euclide consiste

Plus en détail

Nom : Groupe : Date : 1. Quels sont les deux types de dessins les plus utilisés en technologie?

Nom : Groupe : Date : 1. Quels sont les deux types de dessins les plus utilisés en technologie? Nom : Groupe : Date : Verdict Chapitre 11 1 La communication graphique Pages 336 et 337 1. Quels sont les deux types de dessins les plus utilisés en technologie? Les dessins de fabrication. Les schémas.

Plus en détail

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur Excel Avancé Plan Outils de résolution La valeur cible Le solveur Interactivité dans les feuilles Fonctions de recherche (ex: RechercheV) Utilisation de la barre d outils «Formulaires» Outils de simulation

Plus en détail

FONCTION DE DEMANDE : REVENU ET PRIX

FONCTION DE DEMANDE : REVENU ET PRIX FONCTION DE DEMANDE : REVENU ET PRIX 1. L effet d une variation du revenu. Les lois d Engel a. Conditions du raisonnement : prix et goûts inchangés, variation du revenu (statique comparative) b. Partie

Plus en détail

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application

Plus en détail

REVUE DE STATISTIQUE APPLIQUÉE

REVUE DE STATISTIQUE APPLIQUÉE REVUE DE STATISTIQUE APPLIQUÉE H. ABDALLAH G. SAPORTA Mesures de distance entre modalités de variables qualitatives; application à la classification Revue de statistique appliquée, tome 51, n o 2 (2003),

Plus en détail

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren) La structure de la base de données et l utilisation de PAST La structure de la base de données données originales SPÉCIMENS Code des spécimens: Identification des spécimens individuels. Dépend du but de

Plus en détail

Rappel sur les bases de données

Rappel sur les bases de données Rappel sur les bases de données 1) Généralités 1.1 Base de données et système de gestion de base de donnés: définitions Une base de données est un ensemble de données stockées de manière structurée permettant

Plus en détail

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE. Synthèse des travaux réalisés 1. Problématique La question D7 du plan d exécution du Programme National de Recherches

Plus en détail

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle Panorama des problématiques de traitement de l information Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle Conduite d une étude statistique Larbi Aït Hennani, maître de conférences en mathématiques

Plus en détail

Image d un intervalle par une fonction continue

Image d un intervalle par une fonction continue DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction

Plus en détail

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S FICHE Fiche à destination des enseignants TS 35 Numériser Type d'activité Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S Compétences

Plus en détail

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques : MTH EN JEN 2013-2014 Elèves de seconde, première et terminale scientifiques : Lycée Michel Montaigne : HERITEL ôme T S POLLOZE Hélène 1 S SOK Sophie 1 S Eteindre Lycée Sud Médoc : ROSIO Gauthier 2 nd PELGE

Plus en détail

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire : 2014-2015.

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire : 2014-2015. Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire : 2014-2015. Thèmes des séances de TD Thème n.1: Tableaux statistiques et représentations graphiques. Thème

Plus en détail

L analyse des données par les graphes de similitude

L analyse des données par les graphes de similitude 1 L analyse des données par les graphes de similitude Par Pierre Vergès, directeur de recherche au CNRS et Boumedienne Bouriche, maître de conférence à l IUT de Gap Juin 2001 2 A Claude FLAMENT l inventeur

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Data mining 1. Exploration Statistique

Data mining 1. Exploration Statistique PUBLICATIONS DU LABORATOIRE DE STATISTIQUE ET PROBABILITÉS Data mining 1 Exploration Statistique ALAIN BACCINI & PHILIPPE BESSE Version septembre 2004 mises à jour : wwwlspups-tlsefr/besse Laboratoire

Plus en détail

Cours IV Mise en orbite

Cours IV Mise en orbite Introduction au vol spatial Cours IV Mise en orbite If you don t know where you re going, you ll probably end up somewhere else. Yogi Berra, NY Yankees catcher v1.2.8 by-sa Olivier Cleynen Introduction

Plus en détail

Optimiser les performances du mouvement de monte de l Axe Z.

Optimiser les performances du mouvement de monte de l Axe Z. Page/0 - BUT DE LA MANIPULATION : Optimiser les performances du mouvement de monte de l Axe Z. - LES PLANS D EXPERIENCE -LA METHODE DU DOCTEUR TAGUCHI. La mthodologie Taguchi de mise en oeuvre des plans

Plus en détail

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05 EXCEL PERFECTIONNEMENT Version 1.0 30/11/05 SERVICE INFORMATIQUE TABLE DES MATIERES 1RAPPELS...3 1.1RACCOURCIS CLAVIER & SOURIS... 3 1.2NAVIGUER DANS UNE FEUILLE ET UN CLASSEUR... 3 1.3PERSONNALISER LA

Plus en détail

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. Pré-requis : Probabilités : définition, calculs et probabilités conditionnelles ; Notion de variables aléatoires, et propriétés associées : espérance,

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées : a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN

Plus en détail

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Cours d introduction à l informatique Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Qu est-ce qu un Une recette de cuisine algorithme? Protocole expérimental

Plus en détail