ANALYSE DES DONNEES. Cours 2 ème partie



Documents pareils
Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

La classification automatique de données quantitatives

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

LE PROBLEME DU PLUS COURT CHEMIN

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

SYNTHÈSE DOSSIER 1 Introduction à la prospection

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

LES DÉTERMINANTS DE MATRICES

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

FORMULAIRE DE STATISTIQUES

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Introduction. Préambule. Le contexte

CHAPITRE VIII : Les circuits avec résistances ohmiques

Annexe commune aux séries ES, L et S : boîtes et quantiles

ACP Voitures 1- Méthode

Relation entre deux variables : estimation de la corrélation linéaire

Entrepôt de données 1. Introduction

Logiciel XLSTAT version rue Damrémont PARIS

Statistique Descriptive Multidimensionnelle. (pour les nuls)

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

Cours 9 : Plans à plusieurs facteurs

INF6304 Interfaces Intelligentes

Date : Tangram en carré page

1. La présente circulaire concerne les primes d'ancienneté qui sont octroyées aux travailleurs durant leur carrière auprès d'un employeur.

Prix d'un site Internet ou e-commerce professionnel

5 ème Chapitre 4 Triangles

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

SIG ET ANALYSE EXPLORATOIRE

Aider à la décision. - La matrice d Eisenhower - Le diagramme de Pareto - Les arbres d objectifs - Le diagramme d affinités - La méthode Philips 6.

1. Vocabulaire : Introduction au tableau élémentaire

L'analyse des données à l usage des non mathématiciens

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Analyse de la variance Comparaison de plusieurs moyennes

L'équilibre général des échanges

La méthode des scores, particulièrement de la Banque de France

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Octroi de crédit : la minimisation des risques de défaillance n'a pas le dernier mot

Couples de variables aléatoires discrètes

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

RENTABILITÉ ÉCONOMIQUE MODÈLES DE CALCUL

Chapitre 4 : les stocks

Gérer son travail dans Lightroom

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

CRÉER UNE BASE DE DONNÉES AVEC OPEN OFFICE BASE

Généralités sur le Langage Java et éléments syntaxiques.

1. Introduction Création d'une macro autonome Exécuter la macro pas à pas Modifier une macro... 5

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

Théories de la Business Intelligence

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Séries Statistiques Simples

Statistiques Descriptives à une dimension

1 Complément sur la projection du nuage des individus

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

NOTIONS DE PROBABILITÉS

TP 2 Réseaux. Adresses IP, routage et sous-réseaux

PUBLICITÉ ET CRÉDIT À LA CONSOMMATION. Les modifications apportées par la Loi du 1 er juillet 2010

IUT de Bobigny Paris XIII Pierre SRC2. Analyse marketing : BlackBerry Torch

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Leçon 5. Systèmes de gestion à recomplétement périodique et stock de sécurité

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Feuille d exercices 2 : Espaces probabilisés

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Jeux mathématiques en maternelle. Activités clés. Jeu des maisons et des jardins (Yvette Denny PEMF)

Le test s'est déroulé en trois étapes successives

Le calcul du barème d impôt à Genève

Statistique Descriptive Élémentaire

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

p.2 p Exposé des motifs Texte du projet de règlement grand-ducal Commentaire des articles Fiche financière Fiche d'évaluation d'impact p.

Evaluation de la variabilité d'un système de mesure

Documents comptables : bilan, compte de résultat et annexe

Retentissement de la réforme de l'ircantec 2008 sur la retraite des Praticiens Hospitaliers.

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

NC 35 Norme comptable relative aux états financiers consolidés

Travaux pratiques avec RapidMiner

BNC Express EDI-TDFC

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

La correction des erreurs d'enregistrement et de traitement comptables

Importation des données dans Open Office Base

Exercices de dénombrement

LIBRE CIRCULATION DES MARCHANDISES

Probabilités sur un univers fini

Plateforme d informations climatiques au Niger Présentation de l opportunité

La crise n'a pas entamé la générosité des belges

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

A. Définition et formalisme

Ebauche Rapport finale

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Statistique : Résumé de cours et méthodes

Gestion d Active Directory à distance : MMC & Délégation

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

A. Introduction. Chapitre 7

Par : Abdel YEZZA, Ph.D. Date : avril 2011 / mise à jour oct (ajout de la section 3 et augmentation de la section 1)

Transcription:

IV. Analyse Factorielle des Correspondances Multiples IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p /9 ANALYSE DES DONNEES Cours 2 ème partie Le but de l'analyse Factorielle des Correspondances Multiple (AFCM), comme celui de l AFC, est de détecter des liens entre variables qualitatives, et de positionner les individus par rapport à ces liens. La méthode AFC vue dans le chapitre précédent ne traite formellement que du lien entre 2 variables. La méthode AFCM permet de généraliser cette étude à autant de variables qualitatives que l on souhaite. IV.. Précautions avant de passer de 2 à plus de deux variables Cette généralisation ne se fait pas sans un minimum de précautions, en raison, d une part, du fait que dès que l on a plus de deux variables, on est confronté aux problèmes d interactions entre ces variables, et, d autre part, de la non possibilité de généralisation de tous les aspects de l interprétation d une AFC. Nous allons illustrer les problèmes d interaction avec la présentation du paradoxe de Simpson. IV.2. Le paradoxe de Simpson Exemple : Barouf à Bombach Au cours d un débat télévisé sur «la femme et les études scientifiques», on aborde la question de la réussite au bac S au cours de l année précédente. Un premier participant fait état d un dossier qui fournit les statistiques ville par ville. A propos de la ville de Bombach, on y trouve les résultats suivants : Résultats au bac S + (succès) - (échec) Total Garçons 24 36 6 Filles 36 24 6 Conclusion : les filles réussissent mieux que les garçons : la différence est de 2 points en faveur des filles. De ce tableau, on déduit les proportions de réussite pour les garçons et pour les filles : Garçons : 24/6=4%, Filles : 36/6=6%. Mais un deuxième participant fait état d un dossier plus détaillé, qui fournit les résultats lycée par lycée. Dans la ville de Bombach, les lycéens sont répartis en deux Anastase Résultats au bac S Bénédicte Résultats au bac S lycées : Anastase et Bénédicte, + (succès) - (échec) Total + (succès) - (échec) Total et les statistiques relatives à Garçons 5 35 5 Garçons 9 chacun de ces deux lycées Filles 9 Filles 35 5 5 figurent ci-contre. Notons que bien entendu, en ajoutant case à case les deux tableaux, on retrouvera le tableau précédent. Or, de chacun de ces deux tableaux, on déduit les proportions de réussite suivantes : Anastase : Garçons : 5/5=3%, Filles : /=% ; Bénédicte : Garçons : 9/=9%, Filles : 35/5=7%. Conclusion : à l intérieur de chaque lycée, les garçons réussissent mieux que les filles, la différence des pourcentages est la même dans les deux lycées : 2 points en faveur des garçons (donc valeur opposée à la valeur globale obtenue plus haut). Cet exercice sur les proportions est extrait du polycopié «Documents de cours de statistique. Procédures statistiques fondamentales». Enseignement de statistique de H. Rouanet pour le C de psychologie générale, licence de psychologie, Université Paris V. Exemple 2 : la criminalité en Floride Il s agit de 4764 homicides jugés en Floride de 973 à 979. Ces données ont été publiées dans le New-York Times du mars 979. Elles ont été maintes fois utilisées par les statisticiens (cf site internet http://www.cict.fr/personnel/stpierre/expose-6-- 98/expose.html). On dispose des données sous forme de tableau de contingence complète. Calculer les pourcentages de peine de mort chez les meurtriers blancs et chez les meurtriers noirs, toutes victimes confondues, puis en distinguant les victimes noires et les victimes blanches. Conclure. sentence meurtrier victime peine de mort autre peine blanc blanc 72 274 noir noir blanc 48 239 noir 229 IV.3. Les différents types de tableaux IV.3.. Le tableau des données brutes Le premier tableau qui vient à l idée est celui des données brutes, indiquant pour chaque individu les valeurs des variables qualitatives. Exemple d un tel tableau : une enquête commandée par une cave coopérative auprès de viticulteurs de la région Languedoc- Roussillon a été menée dans le but de mieux connaître les attentes de ces derniers du point de vue des services de cette coopérative.

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 2/9 Nous sélectionnons un sous-échantillon de 54 viticulteurs de telle manière qu'il n'y ait pas de données manquantes. Le tableau suivant rassemble les variables : région: région de production du vin statut: statut juridique (EARL, EI=exploitation individuelle, GAEC, SCEA) adhérent: A=adhérent à la cave coopérative, P=prospect, c'est-à-dire non adhérent valorisation: circuit de distribution de la production vin: principale catégorie de vin produit. Dans la première colonne figure le numéro du viticulteur. Ce numéro constitue un identificateur. no région statut adhérent valorisation vin MINERVOIS-CORBIERES EI A Cave coopérative AOC 2 MINERVOIS-CORBIERES EI A Cave coopérative AOC 3 MINERVOIS-CORBIERES EI A Cave coopérative AOC 5 MINERVOIS-CORBIERES GAEC A Cave coopérative AOC 7 MINERVOIS-CORBIERES EARL A Mixte AOC 8 CARCASSONNE EARL A Cave coopérative VDP 9 CARCASSONNE EI A Cave coopérative VDP CARCASSONNE GAEC A Cave coopérative VDP CARCASSONNE SCEA A Cave coopérative AOC 2 CARCASSONNE EI P Cave coopérative VDP 5 MINERVOIS-CORBIERES GAEC A Cave coopérative VDP 6 MINERVOIS-CORBIERES EI A Cave coopérative AOC 7 NARBONNE-HERAULT EI A Cave coopérative VDP 8 NARBONNE-HERAULT EI A Cave coopérative VDP 9 NARBONNE-HERAULT EI A Cave coopérative VDP 2 NARBONNE-HERAULT GAEC P Cave coopérative VDP 22 MINERVOIS-CORBIERES SCEA A Cave coopérative AOC 25 NARBONNE-HERAULT EARL A Cave coopérative AOC 26 NARBONNE-HERAULT SCEA A Cave particulière AOC 27 NARBONNE-HERAULT EI A Cave coopérative VDP 29 NARBONNE-HERAULT EI A Cave particulière AOC 3 NARBONNE-HERAULT EI P Cave particulière VDP 3 NARBONNE-HERAULT EI A Cave coopérative VDP 32 NARBONNE-HERAULT EI P Cave coopérative VDP 33 NARBONNE-HERAULT SCEA P Cave particulière VDP 34 NARBONNE-HERAULT SCEA A Cave coopérative VDP 35 MINERVOIS-CORBIERES SCEA A Cave coopérative AOC 36 MINERVOIS-CORBIERES EI A Cave coopérative AOC 37 MINERVOIS-CORBIERES EARL P Cave particulière AOC 38 NARBONNE-HERAULT GAEC A Cave coopérative VDP 39 NARBONNE-HERAULT GAEC P Cave particulière VDP 4 CARCASSONNE EI P Cave particulière VDP 4 CARCASSONNE SCEA P Cave particulière VDP 42 CARCASSONNE EARL A Cave coopérative VDP 43 CARCASSONNE EI P Cave coopérative VDP 44 BRAM EARL A Cave coopérative AOC 45 NARBONNE-HERAULT SCEA A Cave coopérative VDP 46 NARBONNE-HERAULT EI A Cave coopérative VDP 47 NARBONNE-HERAULT EI P Cave coopérative VDP 48 NARBONNE-HERAULT EI A Cave coopérative AOC 49 NARBONNE-HERAULT SCEA P Cave particulière AOC 5 NARBONNE-HERAULT EI A Cave coopérative VDP 52 NARBONNE-HERAULT EI A Cave coopérative VDP 53 MINERVOIS-CORBIERES EI A Cave coopérative VDP 54 MINERVOIS-CORBIERES EARL A Cave coopérative AOC 56 MINERVOIS-CORBIERES GAEC A Cave coopérative VDP 57 MINERVOIS-CORBIERES EI A Cave coopérative VDP 58 MINERVOIS-CORBIERES EI A Mixte AOC 59 MINERVOIS-CORBIERES EI A Cave coopérative AOC 6 MINERVOIS-CORBIERES EI A Mixte AOC 6 MINERVOIS-CORBIERES EARL A Cave particulière VDP 62 MINERVOIS-CORBIERES SCEA A Cave coopérative AOC 63 MINERVOIS-CORBIERES EI A Cave coopérative AOC 64 MINERVOIS-CORBIERES SCEA A Cave particulière AOC 65 MINERVOIS-CORBIERES SCEA A Cave particulière AOC 66 MINERVOIS-CORBIERES EI P Cave coopérative AOC 67 MINERVOIS-CORBIERES EI A Cave coopérative AOC 68 MINERVOIS-CORBIERES EI A Cave coopérative AOC 69 MINERVOIS-CORBIERES EI A Cave coopérative AOC 7 MINERVOIS-CORBIERES EI A Cave coopérative AOC 7 MINERVOIS-CORBIERES EI P Cave coopérative AOC 72 MINERVOIS-CORBIERES EARL P Cave coopérative VDP 74 MINERVOIS-CORBIERES GAEC A Cave coopérative VDP 75 MINERVOIS-CORBIERES EI P Cave coopérative AOC 76 MINERVOIS-CORBIERES EARL P Mixte AOC 77 MINERVOIS-CORBIERES EI P Cave coopérative AOC 78 MINERVOIS-CORBIERES EI A Mixte VDP 79 MINERVOIS-CORBIERES EI A Cave coopérative AOC 84 MINERVOIS-CORBIERES GAEC A Cave coopérative AOC 85 MINERVOIS-CORBIERES EI P Cave coopérative AOC 86 BRAM EARL A Cave coopérative AO-VDQS 87 MINERVOIS-CORBIERES SCEA A Cave particulière AOC 88 MINERVOIS-CORBIERES EI A Cave coopérative AOC 89 MINERVOIS-CORBIERES SCEA A Cave particulière AOC 9 MINERVOIS-CORBIERES GAEC A Cave coopérative AOC 9 MINERVOIS-CORBIERES EI P Cave particulière AOC 94 MINERVOIS-CORBIERES EI P Cave coopérative AOC IV.3.2. Le tableau disjonctif complet no région statut adhérent valorisation vin 95 MINERVOIS-CORBIERES EI P Cave coopérative AOC 97 MINERVOIS-CORBIERES EI A Cave coopérative AOC 98 MINERVOIS-CORBIERES EI P Cave coopérative AOC 99 MINERVOIS-CORBIERES EI P Cave coopérative AOC MINERVOIS-CORBIERES SCEA P Cave coopérative AOC MINERVOIS-CORBIERES EI A Cave coopérative VDP 2 MINERVOIS-CORBIERES EI A Cave coopérative AOC 3 MINERVOIS-CORBIERES EARL P Cave particulière AOC 4 MINERVOIS-CORBIERES GAEC A Cave coopérative AOC 5 MINERVOIS-CORBIERES EI A Cave coopérative AOC 6 MINERVOIS-CORBIERES EI A Cave coopérative AOC 7 NARBONNE-HERAULT EI A Cave coopérative VDP 8 NARBONNE-HERAULT EARL A Cave coopérative AOC 9 MINERVOIS-CORBIERES EI A Cave coopérative AOC MINERVOIS-CORBIERES GAEC A Cave particulière AOC 2 MINERVOIS-CORBIERES EI A Cave coopérative VDP 3 NARBONNE-HERAULT EI A Cave coopérative VDP 4 NARBONNE-HERAULT EI A Cave coopérative VDP 5 NARBONNE-HERAULT EI A Cave coopérative VDP 6 NARBONNE-HERAULT EI P Cave coopérative VDP 7 NARBONNE-HERAULT GAEC A Cave coopérative VDP 8 NARBONNE-HERAULT SCEA P Cave particulière AOC 9 NARBONNE-HERAULT EI P Cave coopérative VDP 2 NARBONNE-HERAULT EI A Cave coopérative VDP 24 NARBONNE-HERAULT GAEC P Cave particulière VDP 25 NARBONNE-HERAULT EI A Cave coopérative VDP 26 NARBONNE-HERAULT EI A Cave coopérative VDP 27 NARBONNE-HERAULT EI P Cave particulière VDP 28 NARBONNE-HERAULT EI P Cave coopérative VDP 29 NARBONNE-HERAULT SCEA A Cave particulière VDP 3 CARCASSONNE EI A Cave coopérative VDP 35 CARCASSONNE EARL A Cave coopérative VDP 36 CARCASSONNE EI A Cave coopérative AO-VDQS 37 CARCASSONNE EI A Cave coopérative AO-VDQS 38 CARCASSONNE EI A Cave coopérative AO-VDQS 39 BRAM EI A Cave coopérative VDP 4 CARCASSONNE EI A Cave coopérative AO-VDQS 42 CARCASSONNE EARL A Mixte AOC 43 CARCASSONNE EI A Cave coopérative AOC 44 CARCASSONNE EI A Cave particulière AOC 46 CARCASSONNE EI A Cave coopérative VDP 47 CARCASSONNE EI A Cave coopérative AOC 48 CARCASSONNE GAEC A Cave coopérative VDP 49 CARCASSONNE EI P Cave coopérative AOC 5 CARCASSONNE EI P Cave coopérative VDP 5 CARCASSONNE EI P Cave coopérative AOC 52 CARCASSONNE EI P Cave coopérative AOC 53 CARCASSONNE EI A Cave coopérative AOC 54 CARCASSONNE EI A Cave coopérative VDP 56 CARCASSONNE EI A Cave particulière AO-VDQS 57 CARCASSONNE EARL A Mixte VDP 59 BRAM GAEC A Cave coopérative AOC 6 BRAM EARL A Cave coopérative AO-VDQS 6 BRAM EI A Cave coopérative AO-VDQS 62 BRAM EI A Mixte AO-VDQS 63 BRAM GAEC A Cave coopérative VDP 64 BRAM EARL A Cave particulière AOC 65 NARBONNE-HERAULT EI P Cave coopérative AOC 66 NARBONNE-HERAULT GAEC A Cave coopérative VDP 67 CARCASSONNE EI P Cave particulière VDP 68 NARBONNE-HERAULT GAEC A Cave coopérative VDP 69 NARBONNE-HERAULT GAEC P Cave particulière AOC 7 NARBONNE-HERAULT EI P Cave coopérative VDP 7 NARBONNE-HERAULT GAEC P Cave coopérative VDP 72 NARBONNE-HERAULT EARL A Cave particulière AOC 73 CARCASSONNE EI A Cave particulière AOC 74 MINERVOIS-CORBIERES EI P Cave particulière AOC 75 BRAM EI A Cave coopérative VDP 76 BRAM GAEC A Cave coopérative VDP 77 BRAM EI A Cave coopérative VDP 78 BRAM EARL A Cave coopérative AO-VDQS 79 BRAM GAEC A Cave coopérative VDP 8 MINERVOIS-CORBIERES EI P Cave coopérative AOC 82 MINERVOIS-CORBIERES EI P Cave coopérative AOC 83 MINERVOIS-CORBIERES GAEC A Cave coopérative AOC 84 MINERVOIS-CORBIERES EARL A Cave coopérative AOC 85 CARCASSONNE EARL P Mixte VDP C est un tableau dans lequel chaque ligne correspond à un individu, et chaque colonne à une modalité. Les cases du tableau contiennent si l individu de la ligne prend la modalité de la colonne, et sinon. Un extrait du tableau disjonctif complet issu du tableau de données précédent est le suivant : no BRAM CARC MC NH EARL EI GAEC SCEA A P Mixte Coop Part VDQS AO-VDQS AOC VDP 2 3 5 7 8 9 85

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 3/9 Ces deux tableaux contiennent l information la plus complète qui soit (information par individu). Le second est une «quantification» du premier, c est l avantage qu il présente. On remarquera qu il occupe plus de place que le précédent. Exercice : quelles valeurs ont les sommes des lignes? Des colonnes? IV.3.3. Le tableau des données groupées Quand l identité des individus n est pas d intérêt, ou quand on n aura pas besoin d identifier les individus par la suite, on peut simplifier le tableau en comptant le nombre d individus correspondant à chaque profil. Le tableau précédent peut ainsi être simplifié comme ci-contre. Mais sa présentation peut être optimisée, en créant un tableau dans lequel les noms des modalités des variables ne sont pas répétés. C est ce que l on fait dans le paragraphe qui suit. IV.3.4. Le tableau de contingence complète région statut adhérent valorisation vin Effectif BRAM EARL A coop AO-VDQS 3 BRAM EARL A coop AOC BRAM EARL A part AOC BRAM EI A mixte AO-VDQS BRAM EI A coop AO-VDQS BRAM EI A coop VDP 3 BRAM GAEC A coop AOC BRAM GAEC A coop VDP 3 CARC EARL A mixte AOC CARC EARL A mixte VDP CARC EARL A coop VDP 3 CARC EARL P mixte VDP CARC EI A coop VDQS 4 CARC EI A coop AOC 3 CARC EI A coop VDP 4 CARC EI A part AO-VDQS CARC EI A part AOC 2 CARC EI P coop AOC 3 CARC EI P coop VDP 3 CARC EI P part VDP 2 CARC GAEC A coop VDP 2 CARC SCEA A coop AOC CARC SCEA P part VDP MC EARL A mixte AOC MC EARL A coop AOC 2 MC EARL A part VDP MC EARL P mixte AOC MC EARL P coop VDP MC EARL P part AOC 2 MC EI A mixte AOC 2 MC EI A mixte VDP MC EI A coop AOC 8 MC EI A coop VDP 4 MC EI P coop AOC MC EI P part AOC 2 MC GAEC A coop AOC 5 MC GAEC A coop VDP 3 MC GAEC A part AOC MC SCEA A coop AOC 3 MC SCEA A part AOC 4 MC SCEA P coop AOC NH EARL A coop AOC 2 NH EARL A part AOC NH EI A coop AOC NH EI A coop VDP 5 NH EI A part AOC NH EI P coop AOC NH EI P coop VDP 6 NH EI P part VDP 2 NH GAEC A coop VDP 4 NH GAEC P coop VDP 2 NH GAEC P part AOC NH GAEC P part VDP 2 NH SCEA A coop VDP 2 NH SCEA A part AOC NH SCEA A part VDP NH SCEA P part AOC 2 NH SCEA P part VDP Ce tableau contient les mêmes informations qu un tableau de données groupées, mais dans une présentation plus synthétique. BRAM CARC MC NH A P mixte Coop part mixte coop part AO-VDQS AOC VDP AO-VDQS AOC VDP AO-VDQS AOC VDP AOC VDP AOC VDP AOC VDP EARL 3 EI 3 GAEC 3 SCEA EARL 3 EI 4 3 4 2 3 3 2 GAEC 2 SCEA EARL 2 2 EI 2 8 4 2 GAEC 5 3 SCEA 3 4 EARL 2 EI 5 6 2 GAEC 4 2 2 SCEA 2 2 Exercice : que valent les sommes des lignes? des colonnes? Remarque : quand il n y a pas beaucoup d individus et beaucoup de modalités de variables, ce tableau risque d être plus volumineux que celui des données groupées, voire celui des données brutes. Remarque 2 : parfois, les données se présentent uniquement sous forme de données groupées ou de tableau de contingence complète. C est le cas lorsqu elles ont été recueillies par estimation. Par exemple, le tableau suivant restitue le tonnage transporté par bateaux selon les types de bateaux. Les données n ont jamais été recueillies tonne par tonne, mais des estimations ont été faites pour arriver à ces valeurs. Elles concernent le trafic annuel par bateaux.

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 4/9 typenavire pétrolier Vraquier classique porte-conteneur autre Typepays immatriculation age- 4ans age5-9ans age- 4ans age +5ans age- 4ans age5-9ans age- 4ans age +5ans age- 4ans age5-9ans age- 4ans age +5ans age- 4ans age5-9ans age- 4ans age +5ans age- 4ans age5-9ans age- 4ans age+5ans developpe 8.2663.838 35.365 37.3822 9.8878 22.9562 3.9673 22.3339 2.776 5.623 6.2637 9.634 2.343 3.2238 2.9373 3.4387 3.5265 6.3835 4.888 7.528 libimmatr 2.2924 6.6584 23.7653 59.725 6.698 9.6879 5.9526 36.74 2.8525 4.6824 7.8847.496.7933.4574.836.836.9359 2.7843 2.7724 4.4573 e-orienta.82.639 2.378 2.687.858 4.236 4.4323 3.846.735 2.2447 2.977 8.9949.2268.276.54.684.775.827.95 2.8796 asiesocia.287.3955.642.3895.5569.7889.745 4.3878.2794.8294.7548 5.8668.682.5349.485.3268.25.793.367.624 endevelop 3.83 5.92.779 9.3462.67 2.3 2.728 6.2.57 3.6598 8.973 3.86.545.875.832.8956.64 2.294 2.4488 3.2478 Sur ce dernier tableau, on est aussi confronté au problème de l unité dans laquelle on mesure les quantités dénombrées. Les unités sont ici exprimées en millions de tonnes de port en lourd (MTPL). Si l on change d unité de comptage, on change certainement la valeur de la statistique du khi-deux. Mais ce qui est rassurant, c est qu on ne changera pas les interprétations descriptives des liens éventuels entre les variables. IV.3.5. Le tableau de Burt C est le tableau qui sera utilisé comme un tableau de contingence. Utilisé par Burt dans un article de 95 dans British Journal of Psychology, ce tableau a gardé le nom de celui qui l a utilisé dans les premières fois. L AFCM a été introduite plus tôt, en 94, par Guttman, dont on a cité le nom à la fin du chapitre sur l AFC (effet Guttman). Ce tableau est un «super tableau de contingence», construit comme une juxtaposition de plusieurs tableaux de contingence. Les lignes et les colonnes correspondent chacune à une modalité de variable, et à l intersection d une ligne et d une colonne se trouve l effectif des individus qui prennent conjointement la modalité de la ligne et celle de la colonne. Exemple des données de l enquête : BRAM CARC MC NH EARL EI GAEC SCEA A P mixte coop part AO-VDQS AOC VDP BRAM 4 5 5 4 4 2 5 3 6 CARC 32 6 22 2 2 22 3 23 6 5 7 MC 63 8 38 9 8 45 8 5 48 53 NH 45 3 26 9 7 28 7 33 2 35 EARL 5 6 8 3 22 7 5 5 2 5 3 2 7 EI 5 22 38 26 9 6 3 4 77 7 44 4 GAEC 4 2 9 9 24 9 5 2 4 8 6 SCEA 2 8 7 7 2 5 7 2 5 A 4 22 45 28 7 6 9 2 9 7 88 4 52 47 P 8 7 5 3 5 5 45 2 28 5 24 2 mixte 3 5 5 4 7 2 9 5 3 coop 2 23 48 33 2 77 2 7 88 28 6 8 53 55 part 6 2 5 4 4 5 29 8 AO-VDQS 5 5 3 7 8 AOC 3 53 2 44 8 2 52 24 5 53 8 76 VDP 6 7 35 7 4 6 5 47 2 3 55 68 Exercice : que valent les sommes des lignes? des colonnes? IV.4. Comparaison des résultats de l AFC et de l AFCM lorsque p=2, et conséquences dans les différences d interprétation L'AFCM est une AFC simple opérée soit sur le tableau disjonctif complet, soit sur le tableau de Burt. Dans le premier cas, les lignes sont les individus de départ et les colonnes sont les modalités. L AFC positionne donc ces deux informations. Dans le second cas, les lignes et les colonnes sont égales aux modalités des variables. On n a donc plus d informations sont les comportements individuels, mais seulement sur les liens entre modalités. IV.4.. Les valeurs propres Considérant l exemple traité dans le chapitre AFC, la série des valeurs propres issues de l AFC et de celles issues de l AFCM sont les suivantes : rappel tableau de contingence : CSP\HEB CAMP HOTEL LOCA RESI Total valeurs propres AFC (r=c=4 3 axes) λ =,98243 (86,855%) valeurs propres AFCM (r+c-2=6 axes) µ = (+ λ )/2=,6567 (2,89%) AGRI 239 55 29 523 λ 2 =,3863 (2,256%) µ 2 = (+ λ 2 )/2=,5589 (8,63%) CADR 3 556 82 52 59 λ INAC 682 944 967 333 4926 3 =,54 (,889%) µ 3 = (+ λ 3 )/2=,559 (7,2%) OUVR 2594 24 276 38 6932 µ i = (- λ 7-i )/2, sans intérêt Total 458 4779 593 3892 8282 Σ 3 i= λ i =,34 Σ 6 i= µ i =(r+c)/2-=3. De façon plus générale, les liens entre les valeurs propres issues de l'afc et celles issues de l'afcm sont, lorsque p=2 : pour i=,,min(r,c)-, µ i = (+λ i )/2, pour i=min(r,c), max(r,c)-, µ i = /2, pour i=max(r,c),, r+c-2, µ i = (+λ r+c--i )/2. Pour faciliter la généralisation de 2 à p variables, nous remplacerons r et c par m et m 2, de sorte que les nombres de modalités des variables X, X 2,, X p seront m, m 2,, m p. Les valeurs propres sont au nombre de m + +m p -p, et leur somme égale (m + +m p -p)/p. On voit avec ces propriétés que l'utilisation des valeurs propres ne pourra plus se faire de la même façon en AFCM qu'en AFC. Nous pouvons mettre en comparaison les éléments d'interprétation à partir des valeurs propres de l'afc et de l'afcm.

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 5/9 analyse AFC AFCM somme des valeurs égale nχ², donc est utilisée pour égale (m + +m p -p)/p. Est donc uniquement dépendante du nombre propres évaluer l'importance du lien entre de variables et du nombre total de modalités. Ne peut servir à évaluer nombre de valeurs propres=nombre d'axes pourcentage d'inertie apporté par les axes choix du nombre d'axes à retenir les deux variables. avec min(r,c)- axes, on restitue % de l'inertie, c'est-à-dire du lien entre les 2 variables il égale le pourcentage du lien apporté par l'axe, donc le pourcentage de l'information à laquelle on s'intéresse méthode de Kaiser adaptée, ou méthode de l'éboulis Exemple : les valeurs propres obtenues avec les données de viticulture sont les suivantes : l'importance du lien entre les variables. pour p=2, on a vu que le nombre d'axes pouvait être le double d'avec la méthode AFC, sur les mêmes données. Bien sûr, les seules 3 premières apportent % de l'information, les autres sont des "redondances". n'égale plus le pourcentage d'information; on ne peut s'en servir pour savoir quel pourcentage du lien on a expliqué. la méthode de Kaiser ne peut plus convenir, puisque la moyenne des valeurs propres ne dépend pas de l'importance de l'information totale; la méthode de l'éboulis seule convient, à condition de ne faire le choix qu'avec la première moitié, voire les [k/p] premiers axes, où k est le nombre total d'axes ([x] dénote la partie entière de x). Valeurs propres et pourcentages d'inertie : F F2 F3 F4 F5 F6 F7 F8 F9 F F Valeur propre,36,333,27,252,22,78,66,34,,99,75 Inertie (%) 6,425,57 2,296,446 9,98 8,72 7,56 6,9 5,49 4,58 3,4 % cumulé 6,423,577 43,873 55,32 65,3 73,372 8,932 87,23 92,72 96,59, Inertie ajustée,4,28,8,4, Inertie ajustée (%) 35,52624,33 6,793 3,669,523 % cumulé 35,52659,855 66,649 7,38 7,84 Valeur propre,45,4,35,3,25,2,5, Scree plot 8 6 4 2 Inertie ajustée (%),5 F F2 F3 F4 F5 A l'aide des remarques faites ci-dessus, faire un choix du nombre d'axes à retenir. axe IV.5. Les résultats pour les modalités Ils se déclinent comme pour toute analyse factorielle, en coordonnées, contributions, et cosinus carrés. Une des différences avec l'afc est que les modalités de TOUTES les variables figurent dans un même tableau, alors qu'avec 2 variables, l'afc nous donnait une série de tableaux pour les modalités lignes, et une autre série pour les modalités colonnes. Signalons des propriétés que l'on retrouve aussi pour toutes les analyses factorielles vues, à savoir que les coordonnées des modalités sont centrées, les moyennes étant à calculer en pondérant par les effectifs, que l'on retrouve dans la colonne des Poids). Chaque ensemble des coordonnées d'une même variable est centré (à vérifier). Coordonnées principales (Variables) : Contributions (Variables) : Cosinus carrés (Variables) : F F2 F3 F4 F5 Poids Poids (relatif) F F2 F3 F4 F5 F F2 F3 F4 F5 BRAM,993 -,78,477,42,43 BRAM 4,8,2,2,5,42,4 BRAM,397,3,23,97,7 CARC,52 -,95,556 -,65,326 CARC 32,42,29,,48,224,2 CARC,66,2,8,356,28 MC -,35,89 -,63,92 -, MC 63,82,22,65,,2,5 MC,69,465,252,26,9 NH -,536 -,24,3,23 -,24 NH 45,58,46,84,9,4, NH,9,433,37,6,7 EARL,924,846,95,28 -,6 EARL 22,29,67,6,27,2,46 EARL,42,9,2,3,88 EI,2 -,72 -,374 -,546,267 EI 9,8,,2,6,4,38 EI,,7,22,43,3 GAEC,9 -,836 -,39,284 -,725 GAEC 24,3,,65,8,24,75 GAEC,,29,28,34,97 SCEA -,36,469,36,943,967 SCEA 7,22,6,5,5,78,94 SCEA,25,27,6,,6 A,37,25 -,4,263,69 A 9,42,37,,,39,3 A,228,2,47,67, P -,744 -,6,339 -,636 -,66 P 45,58,89,,25,94,7 P,228,2,47,67, mixte,8,54,928 -,847-2,399 mixte 9,2,4,79,37,33,36 mixte,78,4,53,45,357 coop,6 -,78 -,42 -,9,98 coop 6,5,,4,94,,7 coop,79,97,57,,29 part -,99,246,359,34,352 part 29,38,2,7,257,7,2 part,228,4,428,27,29 AO-VDQS 2,465,86,973 -,,845 AO-VDQS,3,28,,45,,2 AO-VDQS,422,2,66,,236 AOC -,333,789 -,248,9,68 AOC 76,99,3,84,22,6,2 AOC,8,66,6,4,4 VDP, -,99,34 -,7 -,347 VDP 68,88,,29,6,5,48 VDP,,653,4,,95 Les contributions des modalités. Calculs. Ils se font comme pour ceux des modalités en AFC, en pondérant par les effectifs. Exercice : retrouver certaines de ces contributions. Utilisation. Une autre différence est que c'est la somme des contributions des modalités de toutes les variables qui égale % (ou, dans nos sorties), alors qu'en AFC, il fallait additionner les contributions des modalités d'une seule variable pour avoir %. La moyenne des contributions de toutes les modalités est donc /(m + +m p ). Dans l'exemple que nous suivons, les modalités contribuant plus que la moyenne sont relevées dans le tableau suivant, avec répartition dans le tableau selon les signes des coordonnées. signes coordonnées - + axe SCEA, P, part BRAM, EARL, AO-VDQS axe 2 NH, GAEC, VDP MC, mixte, AOC

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 6/9 Interprétation de ces contributions. L'axe est construit sur la base du fait que les viticulteurs de BRAM sont plutôt en EARL, produisent plus fréquemment que les autres de l'ao-vdqs, et sont moins fréquemment des SCEA, P, et part. L'axe 2 est construit sur la base du fait que les viticulteurs de NH sont plutôt en GAEC, produisent plus fréquemment que les autres du VDP et moins de l'aoc, sont peu en valorisation mixte, contrairement à ceux du MC. Les cosinus carrés des modalités. Calcul. De la même manière que dans les analyses précédentes, ils sont égaux au rapport entre le carré de la coordonnée sur l'axe et la somme des carrés de toutes les coordonnées, pour une modalité donnée. Pour les retrouver, il faut disposer des coordonnées sur tous les axes. Exercice. Retrouver les cosinus carrés de certaines modalités sur certains axes (au choix). Coordonnées principales (Variables) : F6 F7 F8 F9 F F région-bram,2,44,236 -,,988,388 région-carc -,52 -,6 -,28 -,69,89,273 région-mc,73 -,24,76,5 -,55 -,496 région-nh -,8,722 -,24,425 -,294,379 statut-earl,24,248 -,36,9 -,32 -,62 statut-ei,82,257,48,7,264,4 statut-gaec,335 -,36,475,253 -,343,45 statut-scea -,75,223,296 -, -,53 -,8 adhérent-a -,42,29 -,59,7,2, adhérent-p,9 -,69,44 -,43 -,29 -, valorisation-mixte -,849,545 2,37 -,7,7,293 valorisation-coop -,,32 -,79 -,63 -,7,38 valorisation-part,36 -,295,84,685,682 -,243 vin-ao-vdqs,586,6,867,85 -,349 -,53 vin-aoc,2 -,5 -,97,89,6,428 vin-vdp -,2,33 -,9 -,225,8 -,42 Utilisation et interprétation. Pour les cosinus carrés, la moyenne est, comme dans toutes les analyses factorielles vues, /(nb d'axes). C'est le calcul du nombre d'axes qui change d'une analyse à l'autre. Le tableau qui suit indique les modalités qui sont reconstituées plus que la moyenne, et les signes des coordonnées de ces modalités. signes coordonnées - + axe NH, SCEA, P, part, AOC BRAM, EARL, A, AO-VDQS axe 2 NH, GAEC, coop, VDP MC, EARL, mixte, AOC On peut remarquer que, pour les 2 premiers axes, toutes les modalités qui contribuent sont aussi bien reconstituées. Sur l'axe, on peut ajouter par rapport à ce qui a été dit avec les contributions que les viticulteurs du NH ont un profil voisin de ceux en SCEA, et produisent plutôt de l'aoc. A l'opposé, les viticulteurs de BRAM sont plutôt Adhérents. Sur l'axe 2, les viticulteurs du NH en GAEC sont aussi souvent en coop, ils s'opposent en cela à ceux du MC qui sont plutôt en EARL. On remarque que les modalités ne sont pas toutes bien reconstituées. Il manque l'interprétation des modalités CARCASSONNE et EI. Cela signifie que les viticulteurs de Carcassonne, ainsi que ceux qui sont EI (entreprise individuelle, les plus nombreux), ont les profils les plus près de la moyenne. Le nuage des modalités ci-contre est relativement "rond", on ne voit pas d'effet Guttman, ni de modalité ayant de caractéristique vraiment atypique. F2 (24,33 %) 2 - Graphique symétrique des variables (axes F et F2 : 59,86 %) statut-scea valorisation-part région-m C vin-aoc adhérent-a vin-vdp statut-gaec région-nh valorisation- M ixte statut-earl vin-ao-vdqs adhérent-p statut-ei région-carc région-bram valorisation-coop -2-4 -3-2 - 2 3 4 F (35,53 %) Variables IV.6. Les résultats pour les individus, lorsqu ils sont présents Lorsque l'on ne connaît des données qu'un tableau de données groupées, les résultats précédents sont les seuls que nous aurons à analyser. D'autres résultats numériques et graphiques existent (cf sorties SPAD, XLSTAT, ), mais nous ne les analyserons pas systématiquement. Lorsque l'on connaît les profils de chaque individu, on peut avoir, en plus des résultats des modalités, ceux de ces individus. C'est le cas dans l'exemple que nous suivons. Une utilité de l'analyse de ces individus est dans l'intérêt qu'a la position de ces individus par rapport à celle des modalités (comme dans l'analyse des positions comparées des modalités lignes et colonnes en AFC). D'autre part, même si l'analyse individuelle n'a pas d'intérêt propre, la connaissance de la position de ces individus permet de détecter des individus atypiques, et permet d'opérer une classification de ces individus. La classification, que nous verrons dans le prochain chapitre, regroupe les individus en classes qu'on cherche à avoir les plus "homogènes". Cette mise en classes a plusieurs desseins. Le premier est une simplification de la lecture des profils possibles d'individus. Les autres buts dépendent du contexte dans lequel l'étude a été

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 7/9 faite. Par exemple, en marketing, on peut isoler des "segments" de marché en choisissant les classes dont le profil correspond à des critères préalablement choisis. Mais revenons aux résultats pour les individus, qui, dans l'exemple, sont dans le tableau qui suit. Coordonnées principales (Observations) : Contributions (Observations) : Cosinus carrés (Observations) : F F2 F3 F4 F5 F6 F7 F8 F9 F F Poids Poids (relatif) F F2 F3 F4 F5 F F2 F3 F4 F5 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9,6,,4,,,,4,294,597,,35 2 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 2,6,,4,,, 2,4,294,597,,35 3 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 3,6,,4,,, 3,4,294,597,,35 5 -,57,24 -,689,733 -,257,37 -,674,8,23 -,275,84 5,6,,,,4,2 5,2,27,275,3,38 7,566,38,397 -,58 -,466 -,423,366,326,49 -,47,46 7,6,6,37,4,,64 7,64,38,32,,43 8,633 -,8,474 -,363 -,39 -,45 -,42 -,4 -,78 -,64 -,85 8,6,7,,5,3,5 8,7,5,95,56,65 9,333 -,426 -,9 -,632,76 -,58 -,397 -,79 -,62,36 -,63 9,6,2,4,,, 9,85,39,6,36,24,329 -,69 -,97,98 -,248 -,388 -,9, -,8 -,79,4,6,2,9,,,2,48,22,4,4,27 -,226,35,343,56,652 -,96 -,455 -,4 -,73 -,29,527,6,,2,3,,3,9,45,43,,56 2 -,7 -,455,93 -,99,76,75 -,445 -,68 -,52,46 -,64 2,6,,4,,25, 2,,22,5,575,3 5,57 -,373 -,543,639 -,434 -,6 -,633,6,24 -,7 -,522 5,6,,3,7,,6 5,2,79,66,23,6 6 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 6,6,,4,,, 6,4,294,597,,35 7 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 7,6,,,,, 7,,545,35,4,2 8 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 8,6,,,,, 8,,545,35,4,2 9 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 9,6,,,,, 9,,545,35,4,2 2 -,366 -,42 -,,253 -,574,54 -,35,27 -,74 -,582,6 2,6,2,2,,2, 2,57,458,,27,39 22 -,498,666 -,2,597,465 -,679,2,2 -,599 -,382 -,35 22,6,4,9,,9,6 22,,97,5,58,96 25,74,58,229,244 -,44 -,97,48 -,94,367 -,42,499 25,6,,,,2,6 25,5,2,26,29,95 26 -,954,75,926,73,534 -,62,38,9,62,7,399 26,6,6,,2,3,8 26,28,9,264,57,88 27 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 27,6,,,,, 27,,545,35,4,2 29 -,5 -,3,345,2,235 -,5,324,29,892,499,45 29,6,5,,3,,2 29,47,,67,8,3 3 -,746 -,63,676 -,333 -,42,535,38,82,353,344 -,92 3,6,,8,,3, 3,25,79,25,5, 3 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 3,6,,,,, 3,,545,35,4,2 32 -,362 -,777 -,5 -,476 -,5,384,478,38 -,56 -,97,4 32,6,2,2,,6, 32,92,423,,59,6 33 -,9 -,443,256,26,257 -,62,3,263 -,377 -,49 -,28 33,6,25,4,38,2,2 33,383,53,427,8,8 34 -,457 -,56,392,475,249 -,895,59,8 -,536 -,43 -,2 34,6,4,6,4,6,2 34,84,26,6,9,25 35 -,498,666 -,2,597,465 -,679,2,2 -,599 -,382 -,35 35,6,4,9,,9,6 35,,97,5,58,96 36 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 36,6,,4,,, 36,4,294,597,,35 37 -,485,94,747,57 -,392,89 -,94 -,63,274,2 -,347 37,6,4,6,3,,5 37,77,275,83,,5 38 -,6 -,2 -,95,6 -,474 -,79 -,267,6,276 -,322,7 38,6,,2,,,7 38,,52,9,9,4 39 -,749 -,895,669,396 -,465,655 -,475,36,435 -,4 -,89 39,6,,6,,4,6 39,77,253,4,5,68 4 -,4 -,39,774 -,846,85,325 -,65,76 -,3,587 -,269 4,6,3,2,4,8, 4,64,38,24,287,4 4 -,845 -,2,355 -,253,483 -,27 -,622,56 -,733,94 -,285 4,6,3,,44,2,7 4,8,4,462,6,59 42,633 -,8,474 -,363 -,39 -,45 -,42 -,4 -,78 -,64 -,85 42,6,7,,5,3,5 42,7,5,95,56,65 43 -,7 -,455,93 -,99,76,75 -,445 -,68 -,52,46 -,64 43,6,,4,,25, 43,,22,5,575,3 44,5,45,297,754 -,77,472,342 -,797 -,488,4,55 44,6,9,4,2,5, 44,29,57,25,6,9 45 -,457 -,56,392,475,249 -,895,59,8 -,536 -,43 -,2 45,6,4,6,4,6,2 45,84,26,6,9,25 46 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 46,6,,,,, 46,,545,35,4,2 47 -,362 -,777 -,5 -,476 -,5,384,478,38 -,56 -,97,4 47,6,2,2,,6, 47,92,423,,59,6 48 -,27 -,59 -,336 -,24,27 -,55,485 -,6,383 -,42,62 48,6,,,3,, 48,6,26,5,,6 49 -,34,45,,355,434,82,26,22 -,88 -,253,398 49,6,3,,3,3,6 49,466,6,338,34,52 5 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 5,6,,,,, 5,,545,35,4,2 52 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 52,6,,,,, 52,,545,35,4,2 53,6 -,9 -,536 -,9 -, -,226,6 -,9 -,57,25 -,625 53,6,,,7,, 53,4,4,347,, 54,247,797 -,8,272 -,4 -,25,4 -,885,5 -,26 -,4 54,6,,2,,2,5 54,33,345,8,4,87 56,57 -,373 -,543,639 -,434 -,6 -,633,6,24 -,7 -,522 56,6,,3,7,,6 56,2,79,66,23,6 57,6 -,9 -,536 -,9 -, -,226,6 -,9 -,57,25 -,625 57,6,,,7,, 57,4,4,347,, 58,265,62 -,68 -,326 -,899 -,48,37,5,65,223,68 58,6,,22,,3,24 58,8,286,7,27,25 59 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 59,6,,4,,, 59,4,294,597,,35 6,265,62 -,68 -,326 -,899 -,48,37,5,65,223,68 6,6,,22,,3,24 6,8,286,7,27,25 6 -,22,356,79,32 -,469 -,8 -,4 -,699,436,386 -,952 6,6,,2,2,3,6 6,,47,87,38,82 62 -,498,666 -,2,597,465 -,679,2,2 -,599 -,382 -,35 62,6,4,9,,9,6 62,,97,5,58,96 63 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 63,6,,4,,, 63,4,294,597,,35 64 -,88,83,578,74,574 -,529 -,58,64 -,9,59 -,24 64,6,4,3,8,4, 64,254,27,,8,8 65 -,88,83,578,74,574 -,529 -,58,64 -,9,59 -,24 65,6,4,3,8,4, 65,254,27,,8,8 66 -,43,449 -,499 -,355,66,6,7,5 -,29 -,5 -,2 66,6,3,4,6,3, 66,37,7,2,6,4 67 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 67,6,,4,,, 67,4,294,597,,35 68 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 68,6,,4,,, 68,4,294,597,,35 69 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 69,6,,4,,, 69,4,294,597,,35 7 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 7,6,,4,,, 7,4,294,597,,35 7 -,43,449 -,499 -,355,66,6,7,5 -,29 -,5 -,2 7,6,3,4,6,3, 7,37,7,2,6,4 72,2,79,22 -,8 -,678,55,8 -,732 -,424 -,45 -,747 72,6,,,,,4 72,,4,2,4,2 74,57 -,373 -,543,639 -,434 -,6 -,633,6,24 -,7 -,522 74,6,,3,7,,6 74,2,79,66,23,6 75 -,43,449 -,499 -,355,66,6,7,5 -,29 -,5 -,2 75,6,3,4,6,3, 75,37,7,2,6,4 76,26,35,58 -,46 -,566,26,38,437 -,2 -,47,45 76,6,,35,8,4,73 76,9,337,62,32,454 77 -,43,449 -,499 -,355,66,6,7,5 -,29 -,5 -,2 77,6,3,4,6,3, 77,37,7,2,6,4 78,379,474 -,2 -,42 -,76 -,624,42,93 -,24,328 -,439 78,6,3,4,,5,34 78,36,56,,44,29 79 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 79,6,,4,,, 79,4,294,597,,35 84 -,57,24 -,689,733 -,257,37 -,674,8,23 -,275,84 84,6,,,,4,2 84,2,27,275,3,38 85 -,43,449 -,499 -,355,66,6,7,5 -,29 -,5 -,2 85,6,3,4,6,3, 85,37,7,2,6,4 86,946,243,767,663,582,72,446 -,27 -,32 -,465 -,82 86,6,68,,4,, 86,68,9,94,7,54 87 -,88,83,578,74,574 -,529 -,58,64 -,9,59 -,24 87,6,4,3,8,4, 87,254,27,,8,8 88 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 88,6,,4,,, 88,4,294,597,,35 89 -,88,83,578,74,574 -,529 -,58,64 -,9,59 -,24 89,6,4,3,8,4, 89,254,27,,8,8 9 -,57,24 -,689,733 -,257,37 -,674,8,23 -,275,84 9,6,,,,4,2 9,2,27,275,3,38 9 -,786,596,82 -,2,75,75 -,89,94,29,39 -,225 9,6,,7,,, 9,32,8,7,23,5 94 -,43,449 -,499 -,355,66,6,7,5 -,29 -,5 -,2 94,6,3,4,6,3, 94,37,7,2,6,4 95 -,43,449 -,499 -,355,66,6,7,5 -,29 -,5 -,2 95,6,3,4,6,3, 95,37,7,2,6,4 97 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 97,6,,4,,, 97,4,294,597,,35 98 -,43,449 -,499 -,355,66,6,7,5 -,29 -,5 -,2 98,6,3,4,6,3, 98,37,7,2,6,4 99 -,43,449 -,499 -,355,66,6,7,5 -,29 -,5 -,2 99,6,3,4,6,3, 99,37,7,2,6,4 -,847,637,82,239,365,4,54,3 -,949 -,642 -,36,6,3,8,,,4,27,53,3,2,5,6 -,9 -,536 -,9 -, -,226,6 -,9 -,57,25 -,625,6,,,7,,,4,4,347,, 2 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 2,6,,4,,, 2,4,294,597,,35 3 -,485,94,747,57 -,392,89 -,94 -,63,274,2 -,347 3,6,4,6,3,,5 3,77,275,83,,5 4 -,57,24 -,689,733 -,257,37 -,674,8,23 -,275,84 4,6,,,,4,2 4,2,27,275,3,38 5 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 5,6,,4,,, 5,4,294,597,,35 6 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 6,6,,4,,, 6,4,294,597,,35 7 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 7,6,,,,, 7,,545,35,4,2 8,74,58,229,244 -,44 -,97,48 -,94,367 -,42,499 8,6,,,,2,6 8,5,2,26,29,95 9 -,53,479 -,683,4,66 -,83,9 -,6,3, -,9 9,6,,4,,, 9,4,294,597,,35 -,44,36 -,9,876 -,49,88 -,834,262,722,267 -,2,6,3,3,,2,,77,52,,34,9 2,6 -,9 -,536 -,9 -, -,226,6 -,9 -,57,25 -,625 2,6,,,7,, 2,4,4,347,, 3 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 3,6,,,,, 3,,545,35,4,2 4 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 4,6,,,,, 4,,545,35,4,2 5 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 5,6,,,,, 5,,545,35,4,2 6 -,362 -,777 -,5 -,476 -,5,384,478,38 -,56 -,97,4 6,6,2,2,,6, 6,92,423,,59,6

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 8/9 7 -,6 -,2 -,95,6 -,474 -,79 -,267,6,276 -,322,7 7,6,,2,,,7 7,,52,9,9,4 8 -,34,45,,355,434,82,26,22 -,88 -,253,398 8,6,3,,3,3,6 8,466,6,338,34,52 9 -,362 -,777 -,5 -,476 -,5,384,478,38 -,56 -,97,4 9,6,2,2,,6, 9,92,423,,59,6 2 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 2,6,,,,, 2,,545,35,4,2 24 -,749 -,895,669,396 -,465,655 -,475,36,435 -,4 -,89 24,6,,6,,4,6 24,77,253,4,5,68 25 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 25,6,,,,, 25,,545,35,4,2 26 -,3 -,747 -,89 -,8 -,5 -,299,526 -,73,94,63,4 26,6,,,,, 26,,545,35,4,2 27 -,746 -,63,676 -,333 -,42,535,38,82,353,344 -,92 27,6,,8,,3, 27,25,79,25,5, 28 -,362 -,777 -,5 -,476 -,5,384,478,38 -,56 -,97,4 28,6,2,2,,6, 28,92,423,,59,6 29 -,84 -,43,72,69,357 -,745,349,52 -,27, -,27 29,6,3,3,28,,4 29,24,52,349,6,39 3,333 -,426 -,9 -,632,76 -,58 -,397 -,79 -,62,36 -,63 3,6,2,4,,, 3,85,39,6,36,24 35,633 -,8,474 -,363 -,39 -,45 -,42 -,4 -,78 -,64 -,85 35,6,7,,5,3,5 35,7,5,95,56,65 36,5 -,46,232 -,629,2 -,35 -,335,35,483 -,665 -,44 36,6,24,,,,37 36,336,,4,,35 37,5 -,46,232 -,629,2 -,35 -,335,35,483 -,665 -,44 37,6,24,,,,37 37,336,,4,,35 38,5 -,46,232 -,629,2 -,35 -,335,35,483 -,665 -,44 38,6,24,,,,37 38,336,,4,,35 39,829 -,454 -,2,392,23,27,388,69 -,66,876,2 39,6,2,4,,4, 39,27,8,6,6,8 4,5 -,46,232 -,629,2 -,35 -,335,35,483 -,665 -,44 4,6,24,,,,37 4,336,,4,,35 42,838,63,843 -,599 -,279 -,75 -,9,65,45 -,56,67 42,6,3,22,7,9,48 42,28,26,3,66,299 43,29,62 -,237 -,537,353 -,365 -,439 -,222,27,2,543 43,6,,,,7,4 43,38,2,45,23,99 44 -,65,39,444 -,394,462 -,24 -,599 -,77,536,742,337 44,6,,2,5,4,6 44,3,47,96,76,4 46,333 -,426 -,9 -,632,76 -,58 -,397 -,79 -,62,36 -,63 46,6,2,4,,, 46,85,39,6,36,24 47,29,62 -,237 -,537,353 -,365 -,439 -,222,27,2,543 47,6,,,,7,4 47,38,2,45,23,99 48,329 -,69 -,97,98 -,248 -,388 -,9, -,8 -,79,4 48,6,2,9,,,2 48,48,22,4,4,27 49 -,3,33 -,53 -,896,253,39 -,487 -, -,323 -,59,542 49,6,,,,2,2 49,,,2,485,39 5 -,7 -,455,93 -,99,76,75 -,445 -,68 -,52,46 -,64 5,6,,4,,25, 5,,22,5,575,3 5 -,3,33 -,53 -,896,253,39 -,487 -, -,323 -,59,542 5,6,,,,2,2 5,,,2,485,39 52 -,3,33 -,53 -,896,253,39 -,487 -, -,323 -,59,542 52,6,,,,2,2 52,,,2,485,39 53,29,62 -,237 -,537,353 -,365 -,439 -,222,27,2,543 53,6,,,,7,4 53,38,2,45,23,99 54,333 -,426 -,9 -,632,76 -,58 -,397 -,79 -,62,36 -,63 54,6,2,4,,, 54,85,39,6,36,24 56,766,,93 -,485,22,5 -,495,449,993 -,24 -,35 56,6,,,2,6,44 56,24,2,76,5,35 57,952,475,989 -,693 -,456 -,849 -,5,28 -,44,49, 57,6,6,4,23,2,63 57,64,4,77,87,384 59,7 -,3 -,274,25 -,33,534 -,446,26 -,39,386,73 59,6,9,,2,38, 59,47,5,22,43, 6,946,243,767,663,582,72,446 -,27 -,32 -,465 -,82 6,6,68,,4,, 6,68,9,94,7,54 6,646 -,75,22,394,49,644,45,553 -,6 -,95 -,6 6,6,49,,,4,39 6,524,,8,3,256 62,964,58,77,65,83,246,72,764,8,8,26 62,6,69,5,2,, 62,464,3,62,, 63,825 -,79 -,27,2 -,2,39 -,45,248 -,579,49,24 63,6,2,,,32, 63,95,48,5,36,3 64,632,598,978,898 -,68,622,82 -,653,2,942,3 64,6,7,7,23,2, 64,92,82,22,85, 65 -,476 -,89 -,52 -,382,27,528,437 -,5,33 -,32,62 65,6,4,,,4, 65,65,26,7,6, 66 -,6 -,2 -,95,6 -,474 -,79 -,267,6,276 -,322,7 66,6,,2,,,7 66,,52,9,9,4 67 -,4 -,39,774 -,846,85,325 -,65,76 -,3,587 -,269 67,6,3,2,4,8, 67,64,38,24,287,4 68 -,6 -,2 -,95,6 -,474 -,79 -,267,6,276 -,322,7 68,6,,2,,,7 68,,52,9,9,4 69 -,863 -,37,523,49 -,289,798 -,57,38,624 -,45,57 69,6,3,2,7,6,2 69,239,3,88,77,27 7 -,362 -,777 -,5 -,476 -,5,384,478,38 -,56 -,97,4 7,6,2,2,,6, 7,92,423,,59,6 7 -,366 -,42 -,,253 -,574,54 -,35,27 -,74 -,582,6 7,6,2,2,,2, 7,57,458,,27,39 72 -,29,35,9,388 -,332,53,32 -,796,876,29,293 72,6,,2,2,4,3 72,5,33,292,53,39 73 -,65,39,444 -,394,462 -,24 -,599 -,77,536,742,337 73,6,,2,5,4,6 73,3,47,96,76,4 74 -,786,596,82 -,2,75,75 -,89,94,29,39 -,225 74,6,,7,,, 74,32,8,7,23,5 75,829 -,454 -,2,392,23,27,388,69 -,66,876,2 75,6,2,4,,4, 75,27,8,6,6,8 76,825 -,79 -,27,2 -,2,39 -,45,248 -,579,49,24 76,6,2,,,32, 76,95,48,5,36,3 77,829 -,454 -,2,392,23,27,388,69 -,66,876,2 77,6,2,4,,4, 77,27,8,6,6,8 78,946,243,767,663,582,72,446 -,27 -,32 -,465 -,82 78,6,68,,4,, 78,68,9,94,7,54 79,825 -,79 -,27,2 -,2,39 -,45,248 -,579,49,24 79,6,2,,,32, 79,95,48,5,36,3 8 -,43,449 -,499 -,355,66,6,7,5 -,29 -,5 -,2 8,6,3,4,6,3, 8,37,7,2,6,4 82 -,43,449 -,499 -,355,66,6,7,5 -,29 -,5 -,2 82,6,3,4,6,3, 82,37,7,2,6,4 83 -,57,24 -,689,733 -,257,37 -,674,8,23 -,275,84 83,6,,,,4,2 83,2,27,275,3,38 84,247,797 -,8,272 -,4 -,25,4 -,885,5 -,26 -,4 84,6,,2,,2,5 84,33,345,8,4,87 85,62,445,73 -,5 -,556 -,65 -,98,39 -,494 -,2, 85,6,7,4,33,29,72 85,6,33,232,87,49 Les contributions des individus. Calcul. Notons tout d'abord que la variance d'une composante principale égale la valeur propre de l'axe correspondant. Comme pour le calcul des autres contributions, la contribution d'un individu à l'inertie (ou variance) d'un axe s'obtient par le rapport entre la part qu'occupe cet individu dans le calcul de cette variance et la variance totale. Ainsi, si on note c ij la coordonnée de l'individu i sur l'axe j, et λ j la valeur propre j, on a : contr(ind i,axe j )=c ij ²/(nλ j ). Exercice. Retrouver certaines des contributions du tableau ci-dessus. Utilisation des contributions. On relèvera toujours les individus dont la contribution est la plus élevée. Le seuil choisi pour cela peut encore être la moyenne de ces contributions, qui égale /n. Exemple : individus contribuant plus que la moyenne aux axes et 2. Moyenne=/n=/54,65. signes coordonnées - + axe 26, 3, 33, 39, 4, 49, 64, 65, 87, 89, 9,, 8, 24, 27, 29, 69, 74 8, 42, 44, 86, 35, 36, 37, 38, 39, 4, 42, 56, 57, 59, 6, 6, 62, 64, 75, 76, 77, 78, 79, 85 axe 2, 7, 8, 9, 2, 27, 3, 3, 32, 38, 39, 46, 47, 5, 52, 7, 3, 4, 5, 6, 7, 9, 2, 24, 25, 26, 27, 28, 48, 63, 66, 68, 7, 7, 76, 79 7, 22, 35, 37, 54, 58, 6, 62, 64, 65, 76, 87, 89, 9,, 3, 42, 64, 74, 84 Interprétation des contributions. Les individus côté négatif sur l'axe ont contribué à la construction de cet axe par le fait qu'ils sont à majorité en SCEA, valorisation cave particulière, produisant de l'aoc, Prospects, et plutôt du NH; ils ont contribué par leurs caractéristiques opposées à ceux du côté positif, beaucoup de BRAM, en EARL, Adhérents, et produisant de l'ao-vdqs. Exercice. Effectuer une interprétation sur ce modèle pour l'axe 2. Les cosinus carrés des individus. Calcul. Le calcul se fait toujours sur le même modèle, par le rapport entre la norme projetée sur l'axe et la norme totale. A vérifier en exercice. Utilisation des cosinus carrés. La moyenne des cosinus carrés égale toujours /(nb d'axes). Exemple : individus reconstitués plus que la moyenne sur les axes et 2. Moyenne=/n=/=,99.

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 9/9 signes coordonnées - + axe 22, 26, 29, 3, 32, 33, 35, 39, 4, 47, 49, 62, 64, 65, 66, 7, 77, 85, 87, 89, 9, 94, 95, 98, 99,, 6, 8, 9, 24, 27, 28, 29, 65, 69, 7, 74, 8, 82 axe 2 9,, 2, 7, 8, 9, 2, 27, 3, 3, 32, 34, 38, 39, 43, 45, 46, 47, 5, 52, 7, 3, 4, 5, 6, 7, 9, 2, 24, 25, 26, 27, 28, 3, 46, 48, 5, 54, 63, 66, 68, 7, 7, 76, 79 8, 42, 44, 86, 35, 36, 37, 38, 39, 4, 42, 56, 57, 59, 6, 6, 62, 63, 64, 75, 76, 77, 78, 79, 85, 2, 3, 7, 6, 22, 35, 36, 37, 54, 58, 59, 6, 62, 63, 64, 65, 66, 67, 68, 69, 7, 7, 75, 76, 77, 79, 85, 87, 88, 89, 9, 94, 95, 97, 98, 99,, 2, 3, 5, 6, 9, 42, 64, 74, 8, 82, 84 Interprétation des cosinus carrés. Dans cet exemple, tous les individus contribuant fortement ont aussi un cosinus carré assez élevé pour que leur position soit interprétable. Sur l'axe, on a une séparation des viticulteurs plutôt du NH, SCEA, P, part et AOC, qui ont une coordonnée négative, des viticulteurs plutôt de BRAM, EARL, A et AO-VDQS. Ce sont des profils dominants. Il n'est pas du tout certain que tous les individus cités côté négatif aient toutes les caractéristiques citées, par exemple soient de NH. De même que tous les individus cité côté > ne sont pas forcément de BRAM, mais en tout cas ont un profil voisin de ceux de BRAM. De même, l'axe 2 oppose un groupe de viticulteurs cités côté < comme ayant des profils proches de ceux du NH, GAEC, coop et VDP, à un groupe de viticulteurs plutôt du MC, EARL, mixte et AOC. Rappel des variables citées sur ces deux axes (pour faciliter la lecture): signes coordonnées - + axe NH, SCEA, P, part, AOC BRAM, EARL, A, AO-VDQS axe 2 NH, GAEC, coop, VDP MC, EARL, mixte, AOC Visualisation du nuage de points. Nuage "rond", pas d'individu à comportement atypique. On peut même difficilement différencier ces individus sur le graphique pour en faire des groupes bien nets. Les cosinus carrés sont heureusement là pour aider à savoir quels individus interpréter sur chaque axe. F2 (24,33 %) 2 - Graphique symétrique (axes F et F2 : 59,86 %) valorisation- 76 7 M ixte 58 42 64 65 37 6 3 89 87 vin-aoc région-m 54 84 C statut-earl 9 74 62 35 22 64 statut-scea 82 8 85 57 62 8 85 77 75 7 66 99 95 98 94 79 59 valorisation-part 72 44 73 9 63 7 6 2 97 88 36 69 5 6 32 68 67 78 44 49 6 26 83 6 78 5253 49 5 84 4 9 572 8 25 43 47 86 vin-ao-vdqs adhérent-p statut-ei valorisation-coop adhérent-a 56 29 4 région-carc 6 65 2 35 59 4 38 37 36 4857 53 42 8 région-bram 33 69 4 67 29 5 56 743 54 46 39 77 75 27 45 34 43 2 5 9 3 28 7 26 25 48 63 79 76 24 6 47 32 9 52 5 4 3 5 7 46 3 27 9 2 8 7 statut-gaec 39 vin-vdp région-nh 7 7 68 66 2 38-2 -4-3 -2-2 3 4 F (35,53 %) Variables Observations

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p /9 V. Classification Les trois chapitres précédents présentaient des méthodes visant à simplifier la lisibilité d'un fichier de données via la réduction de dimension de l'espace des variables. La classification s'intéresse à la simplification des profils des individus, en les regroupant. Ce regroupement se fait avec deux contraintes principales : - les individus d'un même groupe doivent être les plus près possible les uns des autres; - les individus de deux groupes différents doivent être les plus différents possible, c'est-à-dire les plus "éloignés" possible. Ces contraintes sous-entendent la définition de la notion de "proximité" ou d'"éloignement" entre les individus. Il faudra donc introduire la notion d'indice de similarité ou de dissimilarité. Il est à noter que les méthodes de classification peuvent s'adapter à la classification de tout ensemble d'objets, variables, individus, éléments référencés cartographiquement, à condition de pouvoir évaluer la proximité entre chacun de ces objets. Ce cours est dédié à la classification des individus. Le pas pour classifier d'autres éléments n'est pas grand. Les considérations exposées étant facilement généralisables. V.. Similarités et dissimilarités Une similarité est une quantité qui est d'autant plus élevée que les individus sont semblables. Exemple : nombre de points communs entre deux individus. Surtout utilisé pour des variables qualitatives. Dans l'exemple sur la viticulture, sim(,2)=5, ce qui signifie que et 2 ont un même profil; sim(, 8)=2 l'individu a moins de points communs avec 8 qu'avec 2 (en tout cas parmi les points connus). no région statut adhérent valorisation vin MINERVOIS-CORBIERES EI A Cave coopérative AOC 2 MINERVOIS-CORBIERES EI A Cave coopérative AOC 3 MINERVOIS-CORBIERES EI A Cave coopérative AOC 5 MINERVOIS-CORBIERES GAEC A Cave coopérative AOC 7 MINERVOIS-CORBIERES EARL A Mixte AOC 8 CARCASSONNE EARL A Cave coopérative VDP 9 CARCASSONNE EI A Cave coopérative VDP CARCASSONNE GAEC A Cave coopérative VDP CARCASSONNE SCEA A Cave coopérative AOC 2 CARCASSONNE EI P Cave coopérative VDP 5 MINERVOIS-CORBIERES GAEC A Cave coopérative VDP 6 MINERVOIS-CORBIERES EI A Cave coopérative AOC Il existe des indices de similarité beaucoup plus évolués que celui qui vient d'être présenté. Chacun répond à des propriétés intéressantes. Une dissimilarité, au contraire, est une quantité qui est d'autant plus élevée que les individus sont différents. Exemple : toute distance est une dissimilarité. Prenons la distance euclidienne, la plus classique (la longueur du plus court chemin entre 2 points). Reprenant les mêmes individus que dans l'exemple précédent, on considère deux variables quantitatives, que sont l'âge du chef d'exploitation et l'année d'installation de ce chef. On peut calculer la distance entre chacun des points du nuage ainsi obtenu. d(,2)= ((999-993)²+(4-36)²) 7,2 d(,8)= ((999-968)²+(4-57)²) 35,355. L'individu est plus distant de 8 que de 2. On le voit bien sur la représentation graphique. no age_chef an_instal 4 999 2 36 993 3 48 979 5 4 99 7 52 99 8 57 968 9 29 999 27 993 an_instal 2 9 995 2 99 5 7 985 98 3 975 97 8 965 25 3 35 4 45 5 55 6 age_chef Remarque. Toute dissimilarité n'est pas forcément une distance. Une distance d vérifie les propriétés suivantes: - d(a,b), pour tout A et B, - d(a,b)= => A=B, - d(a,b)+d(b,c) d(a,c) Remarque 2. On peut, par des transformations adéquates, obtenir une similarité à partir d'une dissimilarité, et vice-versa. V.2. Variances intra et inter Soit X une série statistique (X, X 2,, X n ) mesurée sur un échantillon (e, e 2,, e n ) et Y une variable qualitative qui a pour modalités y, y 2,, y k mesurée sur le même échantillon (e, e 2,, e n ). Les valeurs prises par Y seront notées (Y, Y 2,, Y n ). On note m i le nombre d'individus de (e, e 2,, e n ) prenant la valeur y i de Y. Notons que la connaissance des valeurs de Y pour l'échantillon (e, e 2,, e n ) revient à constituer une partition de l'ensemble E={e, e 2,, e n }. Les partitions P ={A, A 2,, A k } que nous considérerons auront les propriétés suivantes : - pour tout i, Ai Ø - pour tout i j, Ai Aj = Ø - A U A 2 U U A k = E.

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p /9 Selon les domaines dans lesquels est utilisée la classification, une partie de E sera aussi appelée un groupe, un segment (exemple : segment de marché), une classe, un taxon (utilisé en taxonomie), un secteur, une catégorie, une tranche, Soit X i la moyenne des valeurs x j pour les individus qui prennent la valeur y i de Y, et X la moyenne de X pour les n individus. Alors X = ( i= k m i X i )/n. Les X i sont les moyennes intra-classes, X est la moyenne totale. Par rapport à cette moyenne, on peut définir la variance totale, et les variances intra-classes et inter-classes comme suit : Définitions. La variance totale de X est la moyenne des carrés des écarts à la moyenne : V(X)= n j= (X j - X )²/n. La variance intra-classes W Y (X) de X par rapport à Y est la moyenne des variances de X dans chaque classe de valeurs de Y : W Y (X)=( k i= m i V i )/n, où V i = (X j/yj=yi - X i )² /m i. (W comme within, terme anglais) La variance inter-classes B Y (X) de X par rapport à Y est la variance des moyennes de X dans chaque classe de valeurs de Y : B Y (X) = k i= m i ( X i - X )² /n. (B comme between) Propriété. Pour toute variable quantitative X et toute variable qualitative Y, on a V(X)= W Y (X) + B Y (X). Ces définitions sont données ici dans le cas d'une seule variable quantitative. Elles sont généralisables au cas de plusieurs variables, et on parlera plutôt dans ce cas d'inerties totale, inter et intra. La propriété précédente, qu'on écrit aussi I=I W +I B, reste valable pour X dans n'importe quelle dimension. Pour en revenir au problème de la classification, nous avions fixé comme contrainte celle de mettre dans des mêmes classes des individus proches, ce qui revient, en termes d'inertie, à trouver une partition d'inertie intra la plus faible possible. De même, nous avions fixé comme but de mettre dans des groupes différents des individus éloignés, ce qui revient à faire en sorte d'avoir une inertie inter la plus grande possible. Ces deux contraintes n'en sont finalement qu'une, vue la propriété I=I W +I B, qui précise que la somme des inerties intra et inter reste constante, et donc que augmenter l'inertie intra revient à diminuer l'inertie inter et inversement. V.3. Pourquoi des méthodes approchées de classification Si l'on savait trouver, pour tout ensemble de données, LA partition de variance intra minimum, il n'y aurait pas besoin de méthodes approchées, et notre cours s'arrêterait là. Or, voyons avec quelques calculs que cela n'est pas possible, et ne le sera pas avant d'avoir des ordinateurs dont la puissance est à la mesure des masses de données à traiter. Le problème est dans le nombre de partitions possibles d'un ensemble, même modeste. Posons N k,n le nombre de partitions contenant exactement k parties d'un ensemble E n à n éléments. Exercice. Que valent N,n, N n,n, N n-,n, et N 2,n? Remarquer la relation de récurrence N k,n = N k-,n- + k N k,n-. Avec ces données, nous pouvons remplir le tableau suivant des N k,n. k \ n 2 3 4 5 6 7 8 9 2 2 3 4 5 6 7 8 9 2 Le nombre de partitions total d'un ensemble à n éléments sera noté N n : N n = k N k,n. Ce nombre augmente plus qu'exponentiellement en fonction de n puisque, si N =, et N 2 =2, on a N 2 5. 3. Dès que n est élevé, il n'est donc pas possible de passer en revue toutes les partitions possibles pour en déduire une "meilleure" au sens de l'inertie intra. C'est ce qui justifie l'utilisation de méthodes approchées, qui auront tendance à trouver une solution proche de la solution exacte, c'est-à-dire d'inertie intra minimum.

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 2/9 V.4. Les méthodes hiérarchiques V.4.. Présentation des méthodes Elles consistent à établir, à partir d'un ensemble d'individus et de la connaissance d'un indice de similarité, ou de dissimilarité, une hiérarchie de partitions allant de n parties à partie. Définissons d'abord ce qu'est une hiérarchie de partitions. Définition. Soit E={e, e 2,, e n } un ensemble d'individus. Soit {P i } i=,,l un ensemble de l partitions de E, telles que, sans perte de généralité, i<j => nombre de parties(p i ) < nombre de parties(p j ). On dit alors que cet ensemble de partitions de E est hiérarchisé si, lorsque i<j, toute partie de P i peut être obtenue comme réunion de parties de P j. Exemple. Prenons n=5 : E={e, e 2, e 3, e 4, e 5 }. Considérons les ensembles de partitions suivants. Indiquer si ces ensembles {P, P 2, P 3, P 4, P 5 } sont hiérarchisés ou pas. P = {{e, e 2, e 3, e 4, e 5 }} P 2 = {{e },{e 2, e 3, e 4, e 5 }} P 3 = {{e },{e 2, e 5 },{e 3, e 4 }} P 4 = {{e },{e 2, e 5 },{e 3 },{e 4 }} P 5 = {{e },{e 2 },{e 3 },{e 4 },{e 5 }} P = {{e, e 2, e 3, e 4, e 5 }} P 2 = {{e, e 2, e 5 },{e 3, e 4 }} P 3 = {{e, e 2 },{e 3, e 5 },{e 4 }} P 4 = {{e },{e 2, e 5 },{e 3 },{ e 4 }} P 5 = {{e },{e 2 },{e 3 },{ e 4 },{e 5 }} P = {{e, e 2, e 3, e 4, e 5 }} P 2 = {{e, e 5 },{e 2, e 3, e 4 }} P 3 = {{e, e 5 },{e 2, e 3 },{e 4 }} P 4 = {{e },{e 5 },{e 2, e 3 },{e 4 }} P 5 = {{e },{e 2 },{e 3 },{e 4 },{e 5 }} Avec un ensemble de partitions hiérarchisées, qu'on appelle encore hiérarchie de partitions, on peut construire un arbre hiérarchique, ou dendrogramme. Exemple. la hiérarchie des partitions suivante Dendrogramme P = {{e, e 2, e 3, e 4, e 5 }} P 2 = {{e, e 2, e 3 },{e 4, e 5 }} P 3 = {{e, e 2, e 3 },{e 4 },{e 5 }} P 4 = {{e, e 2 },{e 3 },{e 4 },{e 5 }} P 5 = {{e },{e 2 },{e 3 },{e 4 },{e 5 }} donne la représentation graphique ci-contre. Dissimilarité 9 8 7 6 5 4 3 2 En plus de l'information qu'apporte la partition hiérarchisée, on peut ajouter sur le dendrogramme une information sur la proximité entre les individus, et entre les classes. En effet, on voit sur l'échelle verticale du dendrogramme un indicateur de dissimilarité, c'est-àdire de proximité entre les individus. Par exemple, e et e 2 sont plus proches entre eux que e 4 et e 5. On peut distinguer deux ensembles de méthodes de classification hiérarchique. Les méthodes ascendantes ont comme point de départ la partition des singletons, et par étapes successives, réunissent les classes deux à deux pour avoir en fin d'étapes la partition à un seul ensemble. On peut se souvenir de ce qualificatif "ascendante" par le fait que sur le dendrogramme la première étape est illustrée par le bas, et les étapes font "remonter" dans la représentation graphique. Le terme anglais est "agglomerative", plus parlant et indépendant de l'orientation du graphique. Les méthodes descendantes procèdent à l'inverse. Leur point de départ est la partition à ensemble, et à la fin du processus on obtient la partition des singletons. Le terme anglais, "divisive", est, une fois de plus, plus parlant que "descendant". Un avantage mnémotechnique est que les initiales sont les mêmes pour chaque groupe de méthodes. Dans ce cours, on s'intéressera aux méthodes ascendantes, moins lourdes en calcul et plus généralisées dans les logiciels de statistique. Pour ces méthodes, le passage d'une partition de k classes à k- classes se fait par la réunion des deux classes les plus "près" en un certain sens. On a vu les notions de similarité et de dissimilarité entre individus. Il faut aussi définir des notions de proximité entre classes d'individus. Plusieurs méthodes émergent parmi le nombre considérable d'indices existant dans la littérature. Voici quelques indices des plus courants entre deux parties A et B de E : - saut minimum : plus petite dissimilarité entre un élément de A et un élément de B; - saut maximum ou diamètre : plus grande dissimilarité entre un élément de A et un élément de B; - saut moyen : moyenne des dissimilarités entre un élément de A et un élément de B; - distance entre les barycentres de A et de B = d(g A, g B ); - critère de Ward = distance entre les barycentres de A et de B pondérée par les poids de A et B = d(g A, g B )(P A P B /(P A +P B )); les poids sont en général les effectifs de A et B. V.4.2. Application à la classification de données quantitatives Reprenons l'exemple des exploitations en viticulture, pour lesquelles on considère les caractéristiques suivantes :

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 3/9 l'année d'installation (an_instal), l'âge du chef d'exploitation (age_chef), la surface agricole utile totale (sau_totale), la sau de vignes de plus de 3 ans (sau_vign>3ans), la sau de vignes de moins de 3 ans (sau_vign<3ans), et le nombre de salariés équivalent temps plein (salariés). no an_instal age_chef sau_totale sau_vign>3ans sau_vign<3ans salariés 999 4 25, 2, 4,, 2 993 36 22,5 9,7 2,8, 3 979 48 69, 53,58 3,6, 5 99 4 55, 45,,, 7 99 52 52, 4,5 44, 3, 8 968 57 7, 9, 5, 2, 9 999 29 3, 6,5 3,5, 993 27 42, 36, 6,, 2 5 23 8, 25,4,6, 2 985 25 4, 25,,6, 5 987 42 7,, 58,, 6 998 37 22, 3, 9,, 7 988 46 29, 25, 4,, 8 99 38 35, 27,8 7,2, 9 978 49 24, 22, 2,, 2 994 34 4, 34, 6,, 22 998 35 43,55 37,8 5,75, 25 988 5 3, 26,5 3,5, 26 2 2 5 37, 35, 2, 2, 27 978 49 23, 9,5,2, 29 975 55 28, 25, 3,, 3 989 38 52, 44, 8,, 3 996 33 25,7 2,4 4,3, 32 99 37 38, 3, 4,7, 33 994 37 22, 37, 5, 5, 34 2 2 33 29, 26,57,99, 35 976 52 22,5 2,5 9,, 36 2 2 3 2, 8, 2,, 37 993 35, 98,5,5 5, 38 2 38 55, 49,5 5,5, 39 2 3 3, 26,5 3,5, 4 975 48 36, 29,,, 4 975 28 4, 29,, 3, 42 2 45 57, 4, 4, 2, 43 998 32 2, 9,5,5, 44 983 47 7, 28,,, 45 969 56 2, 6, 6,, 46 2 23 2,, 2,, 47 974 53 8, 26,,, 48 993 42 6, 54, 3,8, 49 99 4 9, 63, 2, 7, 5 2 25 23,, 3,, 52 2 33 24, 4, 2,, 53 976 54 9, 3, 6,, 54 98 53 62, 5, 57,, 56 988 4 52, 38, 2,, 57 985 4 9,72 2, 7,72, 58 995 6 35, 8,,, 59 986 35 3, 4,, 2, 6 99 56 8, 8,, 2, 6 989 43 37, 35, 2,, 62 2 35 36, 3, 6,, 63 985 39 3,5 2,,5, 64 976 57 3, 27, 3, 2, 65 998 43 5, 94, 3, 5, 66 98 5 3, 26, 4,, 67 98 58 42, 34,5,5, 68 978 58 25, 5,,4, 69 995 34 7, 7,,, 7 2 4 23, 22,,, 7 984 47 26, 6,,, 72 985 45 28, 23, 5, 2, 74 2 4 48 3, 27, 3, 2, 75 983 52 2, 9, 2,, 76 98 47 7, 7,5, 2, 77 986 43,,,, 78 986 45 5, 48, 2, 2, 79 989 5 29, 2,,, 84 2 2 53 35, 26,5 3,5, 85 992 39 8, 6,,, 86 984 4 5, 4,2,2, 87 2 4 37 64, 45, 8, 2, 88 98 46 26, 24, 2,, 89 989 43 22, 65,, 6, 9 982 49 2, 9,,, 9 993 3 5, 5,,, 94 99 4 24, 22, 2,, no an_instal age_chef sau_totale sau_vign>3ans sau_vign<3ans salariés 95 994 36 32, 28, 4,, 97 2 36 34, 3, 3,, 98 2 3 3, 4,5 5,, 99 994 37 5, 3, 2,, 2 43 59, 9, 5,, 984 45 28, 3, 25,,75 2 2 36 22,64 8,64 4,, 3 985 43 42, 38, 4,, 4 984 49 34, 29, 5,, 5 2 2 3 29, 26, 3,, 6 996 33 26, 24, 2,, 7 969 52 3, 27, 3,,5 8 2 2 25 35, 27,5 2,5, 9 998 36, 24, 2,, 992 42 68, 6, 7, 2, 2 998 43 23, 8, 5,, 3 995 38 22, 9,4,, 4 994 4 23, 7,5 3,, 5 995 4 2,8 2,9,9, 6 975 47 2, 3,,, 7 967 56 55, 42,5,, 8 2 2 34 26, 24, 2,, 9 98 45 22, 22,,, 2 99 45 26, 2, 5,, 24 994 38 65, 75, 5, 2, 25 2 23 8, 4, 3,, 26 2 27 3, 2, 4,, 27 2 37 23, 8,,8,75 28 2 3 36 9, 4,,, 29 967 45 3, 95, 5, 2, 3 2 36 2,5 2, 8,, 35 99 4 52, 36,,, 36 2 2 3 6,, 5,, 37 987 54 4,, 3,, 38 995 69 55, 36, 4,36 2, 39 986 4 46,, 2,, 4 2 29 6, 4, 2,, 42 98 53 35, 32, 2,, 43 98 45 6, 8, 3,, 44 2 2 38 39, 33, 6,, 46 2 3 24 28, 28,,, 47 996 4 27, 7, 3,, 48 99 36 6, 4,5 3,, 49 2 2 27 27,,,, 5 2 28 25,,,, 5 2 4 27 7,,,, 52 2 2 26 5, 5,,, 53 996 4 7, 7,,, 54 99 36 3, 27,,, 56 2 28 9, 8,,, 57 989 47 6, 34, 3,, 59 2 2 25 55, 62, 8,, 6 995 32 4, 23, 2,, 6 2 4 34 6, 5,3,7, 62 996 3 24, 9, 5,, 63 2 5 22, 4, 5,, 64 979 47 66, 32,,, 65 2 33 25, 7, 3,, 66 995 56 3, 29, 2,, 67 973 52 68, 58,,,5 68 997 3 3, 26,,5, 69 999 57 25, 23, 2,, 7 99 4 9, 6, 3,, 7 2 29 25, 8, 7,, 72 998 42 3, 28,5,5, 73 998 42 7, 4,78, 2, 74 2 3 32 32, 3, 2, 2, 75 994 34 7, 9,,, 76 2 29 62, 2,,, 77 997 49 7, 5,,, 78 989 4 5, 36,,, 79 989 39 82, 39, 2,, 8 996 32 24, 24,,, 82 998 38 24, 23,,, 83 2 2 3 27, 24,5 2,5,5 84 984 43 8, 5, 3,,5 85 995 38 56,5 44, 8, 2, On pourrait effectuer une classification directement à partir de ces données. Cependant, si on considère la distance euclidienne comme critère de proximité (directement calculable quand on est en présence de données quantitatives), on voit bien que les variables de variance élevée auront une plus forte influence dans la distance entre exploitations que les variables de plus faible variance. an_instal age_chef sau_totale sau_vign>3ans sau_vign<3ans salariés Nbr. de valeurs utilisées 54 54 54 54 54 54 Minimum 967, 22,,,,, er quartile 985, 33, 23, 5,,, Médiane 994, 4, 3, 23, 2,9, 3ème quartile 2, 47, 55, 3, 5,, Maximum 25, 69, 22, 37, 58, 5, Moyenne 99,675 4,24 45,45 26,35 4,975,834 CV (écart-type/moyenne),5,233,856,749,787 2,2 Ecart-type d'échantillon 9,333 9,357 38,769 9,685 8,86,839

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 4/9 Ainsi, une classification à partir de ces données directement tiendrait plus compte de la proximité entre les valeurs de sau_vign>3ans que des autres variables. Pour palier cet effet des différences entre les dispersions, on peut réduire toutes les variables avant classification. Cela revient au même que d'effectuer la classification avec toutes les composantes principales de l'acp réduite de ces variables. Enfin, pour ne tenir compte que des informations les plus marquantes dans le fichier, et aussi utiliser une taille de fichier plus faible, on peut aussi effectuer la classification à partir des premières composantes principales de l'acp, réduite dans notre cas. Dendrogramme exploitations- var ini non réduites Dendrogramme exploitations - var réduites Dendrogramme exploitations - 3 CP 2 25 4 8 2 6 2 4 Dissimilarité 2 8 Dissimilarité 5 Dissimilarité 8 6 6 4 4 2 5 2 Statistiques des noeuds CAH - 6 variables non réduites : Statistiques des noeuds CAH - 6 variables réduites : Statistiques des noeuds CAH - 3 CP de l'acp sur 6 variables : Noeud Niveau Poids Objets Fils gauche Fils droit Noeud Niveau Poids Objets Fils gauche Fils droit Noeud Niveau Poids Objets Fils gauche Fils droit 37 7952,3 54 54 35 36 37 226,754 54 54 33 36 37 6,8 54 54 285 36 36 42538,74 38 38 32 34 36 75,29 47 47 35 32 36 98,395 5 5 32 35 35 237,56 6 6 33 29 35 9,373 63 63 278 34 35 9,6 43 43 3 34 34 965,838 34 34 268 299 34 39,878 59 59 296 3 34 27,54 298 33 33 8676,67 8 8 3 296 33 38,856 7 7 289 295 33 22,299 93 93 3 299 32 7836,99 4 4 294 3 32 37,27 84 84 299 297 32 3,244 7 7 25 297 3 6473,387 77 77 288 297 3 2,4 46 46 294 3 3 2,3 42 42 295 29 3 675,67 3 3 25 293 3 9,75 35 35 273 298 3,437 6 6 28 292 299 59,694 3 3 292 298 299 6, 7 7 29 293 299 8,54 32 32 296 294 298 388,959 2 2 283 29 298 5,54 3 3 284 292 298 8,28 8 8 278 286 297 36,987 49 49 295 289 297 5,5 3 3 26 288 297 4,34 6 6 293 7 296 37,83 5 5 285 28 296 2,635 3 3 283 287 296 3,479 2 2 284 29 295 95,384 3 3 256 284 295,44 2 2 25 7 295 3,3 5 5 274 289 294 84,776 27 27 279 259 294,454 272 277 294 2,84 268 279 293 785,5 2 2 39 74 293 9,79 45 45 258 29 293 2,26 5 5 272 269 292 475,557 9 9 273 282 292 7,463 23 23 274 285 292 2,3 38 38 266 288 29 397,775 6 6 28 27 29 7,64 4 4 28 279 29 2,55 27 27 267 287 29 32,866 8 8 287 278 29 6,52 26 26 275 263 29,994 7 7 277 275 289 59,747 36 36 269 286 289 6,36 5 5 74 286 289,959 8 8 283 276 288 52,64 28 28 267 264 288 6,27 237 276 288,822 22 22 282 27 287 998,5 5 5 266 274 287 5,49 9 9 268 282 287,69 6 6 258 263 286 92,873 29 29 272 242 286 5,458 4 4 4 28 286,55 4 4 228 265 285 874,75 2 2 29 7 285 4,443 3 3 239 265 285,452 4 4 273 28 284 868,944 9 9 249 276 284 4,29 8 8 2 27 284,56 4 4 5 245 283 677,56 5 5 27 26 283 4,9 4 4 25 266 283,947 3 3 24 5 282 654,8 5 5 258 265 282 4,4 4 4 33 267 282,94 2 2 242 25 28 67,67 3 3 55 263 28 3,945 6 6 262 252 28,9 23 23 254 264 28 562,34 5 5 277 2 28 3,328 3 3 259 2 28,896 2 2 5 82 279 56,94 2 2 237 275 279 3,278 25 25 264 254 279,864 9 9 29 26 278 52,5 3 3 33 262 278 3,272 4 4 25 27 278,79 4 4 248 262 277 49,688 4 4 253 98 277 2,96 3 3 5 227 277,769 8 8 239 243 276 488,396 7 7 254 224 276 2,458 8 8 26 23 276,76 5 5 256 259 275 454,629 7 7 243 252 275 2,337 9 9 269 99 275,67 9 9 26 2 274 436,5 2 2 5 3 274 2,24 24 249 274,57 7 7 27 98 273 425,794 4 4 9 245 273 2,95 4 4 72 235 273,567 2 2 45 272 422,583 25 25 248 257 272 2,6 8 8 253 242 272,557 2 2 4 74 27 399,574 247 255 27 2,7 2 2 5 82 27,529 249 252 27 39,5 2 2 4 5 27,9 7 7 234 244 27,487 6 6 244 23 269 384,69 7 7 9 233 269,89 7 7 243 224 269,449 3 3 24 2 268 354,33 4 4 244 25 268,88 5 5 223 257 268,4 2 2 29 33 267 329,5 2 2 25 26 267,875 3 3 3 236 267,395 22 246 266 295,83 3 3 37 228 266,833 2 2 39 5 266,389 6 6 257 253 265 27,667 3 3 97 49 265,647 5 5 23 95 265,384 2 2 47 83 264 262,593 6 6 239 24 264,532 5 5 256 229 264,378 4 4 222 255 263 257,5 2 2 33 48 263,479 7 7 226 255 263,376 8 8 29 236 262 257,5 2 2 2 29 262,474 2 2 76 247 262,35 2 2 2 8 26 249,998 3 3 92 23 26,449 2 2 29 33 26,277 5 5 72 24 26 24,42 6 6 234 26,429 5 5 24 245 26,267 5 5 67 247 259 227,97 6 6 226 24 259,372 2 2 29 55 259,258 2 2 39 37 258 23,25 2 2 6 65 258,32 4 4 42 233 258,248 8 8 232 237 257 25,9 4 4 23 22 257,3 3 3 65 27 257,23 7 7 2 223 256 97,25 4 4 8 229 256,282 9 9 238 2 256,227 3 3 2 238 255 9,557 7 7 227 246 255,234 4 4 29 24 255,26 73 233 254 85,83 4 4 225 22 254,77 94 246 254,28 9 9 67 25 253 82,5 3 3 57 99 253,59 6 6 248 23 253,22 9 9 9 234 252 63,46 9 9 27 236 252, 4 4 69 232 252,94 7 7 225 27 25 55,625 2 2 5 82 25,2 2 2 6 37 25,9 7 7 23 22 25 55,5 6 6 24 94 25,95 2 2 45 25,8 3 3 8 24 249 4, 2 2 49 3 249,946 5 5 28 228 249,76 3 3 9 23 248 4,82 83 235 248,93 4 4 22 225 248,65 2 2 42 8 247 35,635 4 4 222 238 247,79 9 9 22 24 247,53 4 4 5 224 246 24,863 5 5 67 28 246,742 7 7 26 23 246,49 6 6 22 245 24,78 3 3 232 46 245,742 2 2 4 92 245,42 3 3 92 25 244 23,5 2 2 45 244,737 3 3 22 47 244,39 3 3 54 2 243 22,635 8 8 23 26 243,729 2 2 8 243,38 5 5 26 23 242 2,896 4 4 27 242,722 2 2 89 98 242,34 9 9 235 28 24 93,667 3 3 48 2 24,72 5 5 97 222 24,32 2 2 29 55 24 88,729 9 9 2 25 24,657 9 9 25 22 24,3 4 4 28 229 239 86,347 7 7 75 29 239,6 8 8 2 25 239,22 3 3 96 46 238 8,5 2 2 34 72 238,583 4 4 8 82 238,2 2 2 3 34 237 8,854 4 4 32 2 237,552 3 3 34 89 237,9 4 4 62 27

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 5/9 236 79,25 4 4 26 85 236,549 2 2 48 49 236,2 5 5 97 89 235 78,63 9 9 223 28 235,538 2 2 47 83 235,5 5 5 79 226 234 77,568 5 5 78 25 234,536 4 4 69 2 234,99 5 5 2 22 233 76,67 6 6 24 9 233,523 3 3 29 8 233,98 7 7 26 25 232 76,25 2 2 2 45 232,48 2 2 9 46 232,95 4 4 56 227 23 75,98 2 2 58 97 23,47 2 2 49 3 23,9 3 3 4 7 23 73,632 5 5 67 29 23,459 3 3 26 54 23,73 3 3 58 93 229 7,6 2 2 47 83 229,452 6 6 83 88 229,68 2 2 34 54 228 65,84 2 2 7 6 228,444 3 3 9 28 228,65 2 2 27 44 227 63, 2 2 9 28 227,44 2 2 3 37 227,63 3 3 95 6 226 6,47 3 3 9 23 226,43 3 3 9 43 226,62 3 3 63 24 225 6,625 2 2 42 8 225,429 2 2 54 57 225,6 3 3 44 88 224 6,67 3 3 59 23 224,424 5 5 4 27 224,59 3 3 7 72 223 59,97 3 3 8 7 223,395 2 2 7 6 223,57 4 4 86 62 222 57,7 2 2 3 4 222,37 3 3 62 2 222,56 4 4 26 99 22 57, 2 2 2 8 22,368 4 4 9 98 22,56 4 4 83 94 22 53,446 9 9 22 73 22,353 2 2 32 56 22,55 5 5 8 98 29 53,225 5 5 96 58 29,352 2 2 2 8 29,53 3 3 66 82 28 52,77 4 4 46 22 28,35 2 2 67 85 28,53 4 4 77 55 27 5,567 5 5 9 88 27,338 4 4 92 26 27,52 3 3 92 36 26 5,24 6 6 63 98 26,336 2 2 3 72 26,48 3 3 8 25 5,67 3 3 89 42 25,334 5 5 93 62 25,47 4 4 84 56 24 43,78 3 3 8 93 24,328 5 5 86 75 24,46 2 2 6 37 23 42,873 2 2 3 37 23,326 4 4 79 74 23,46 2 2 9 8 22 42,36 6 6 86 84 22,39 2 2 68 22,44 2 2 5 2 4,333 3 3 72 89 2,3 5 5 6 79 2,43 2 2 32 57 2 39, 2 2 36 39 2,29 3 3 48 9 2,42 3 3 74 32 29 38,695 3 3 65 47 29,286 5 5 84 68 29,4 4 4 7 85 28 37,995 6 6 79 95 28,273 2 2 5 28 28,39 2 2 3 3 27 37,97 3 3 82 53 27,27 2 2 36 34 27,39 4 4 87 57 26 33, 2 2 6 68 26,263 3 3 85 44 26,38 2 2 6 63 25 32,476 7 7 44 2 25,255 5 5 7 78 25,37 2 2 33 48 24 29,5 4 4 92 24,252 3 3 4 96 24,37 2 2 4 23 29,25 2 2 63 69 23,25 2 2 2 58 23,36 3 3 93 68 22 29,67 3 3 76 54 22,242 4 4 64 87 22,36 5 5 6 78 2 28,777 6 6 38 87 2,226 3 3 55 97 2,36 3 3 79 6 2 28,75 2 2 9 8 2,223 2 2 8 2,35 4 4 9 7 99 27,5 2 2 5 85 99,23 2 2 2 45 99,35 3 3 42 69 98 26,923 4 4 56 8 98,88 3 3 5 65 98,34 3 3 58 97 97 25, 2 2 36 34 97,77 2 2 3 86 97,3 2 2 3 96 23,757 3 3 66 4 96,76 2 2 22 46 96,3 2 2 4 22 95 23,575 4 4 57 6 95,75 3 3 8 53 95,28 2 2 36 65 94 23,333 3 3 68 7 94,7 3 3 7 73 94,28 2 2 77 4 93 22,552 2 2 6 7 93,57 3 3 6 66 93,28 2 2 2 89 92 22, 3 3 3 69 92,56 3 3 24 8 92,27 2 2 8 86 9 2,333 3 3 8 77 9,56 2 2 96 42 9,26 2 2 9 9 9 2, 2 2 38 27 9,5 2 2 36 39 9,24 4 4 75 66 89 8,5 2 2 56 86 89,5 2 2 9 63 89,2 3 3 3 76 88 8,5 2 2 78 26 88,3 4 4 23 7 88,2 2 2 3 46 87 8,75 5 5 99 7 87,27 2 2 24 27 87,2 2 2 7 4 86 6,648 4 4 62 74 86,24 3 3 6 86,9 2 2 6 3 85 5,5 2 2 77 85,24 2 2 3 99 85,8 3 3 8 59 84 4,5 2 2 93 9 84,2 3 3 7 67 84,6 2 2 2 94 83 4, 2 2 59 76 83,2 2 2 59 76 83,5 2 2 49 69 82 3,25 2 2 53 66 82,7 3 3 35 77 82,5 2 2 53 47 8 2,75 2 2 27 44 8,5 2 2 6 78 8,3 2 2 64 75 8 2,5 2 2 73 8,4 2 2 53 66 8,3 2 2 78 45 79 2,25 2 2 28 35 79,3 3 3 84 56 79,3 2 2 38 3 78,545 2 2 4 24 78,2 3 3 57 25 78, 3 3 64 77, 2 2 4 22 77,8 2 2 7 32 77, 2 2 2 23 76, 2 2 3 62 76,6 3 3 58 23 76, 2 2 39 53 75 9,75 2 2 7 4 75,97 2 2 4 4 75, 2 2 26 99 74 9,75 2 2 95 96 74,89 3 3 26 63 74, 2 2 23 84 73 9,667 3 3 6 73,88 2 2 52 7 73, 3 3 65 9 72 8,5 2 2 2 54 72,84 2 2 27 44 72, 2 2 85 28 7 8,48 4 4 26 64 7,8 3 3 38 59 7, 2 2 4 49 7 8,9 2 2 6 3 7,76 2 2 93 7,9 2 2 24 2 69 8, 2 2 52 79 69,67 2 2 9 8 69,8 2 2 96 43 68 8, 2 2 4 24 68,66 2 2 77 4 68,8 2 2 95 9 67 7,5 2 2 7 4 67,66 2 2 2 94 67,8 2 2 7 25 66 7,7 2 2 23 32 66,63 2 2 64 75 66,7 2 2 35 38 65 6,964 2 2 25 43 65,47 2 2 6 5 65,7 2 2 59 76 64 6,75 3 3 55 52 64,44 2 2 38 3 64,7 2 2 6 68 63 6, 2 2 64 75 63,43 2 2 87 52 63,7 2 2 28 4 62 5,79 2 2 2 94 62,4 2 2 73 62,5 2 2 43 35 6 5,5 2 2 43 35 6,37 2 2 28 4 6,5 2 2 88 5 6 5, 2 2 6 5 6,37 2 2 6 3 6,4 2 2 48 73 59 4,5 2 2 88 5 59,32 2 2 88 5 59,4 2 2 52 7 58 4,5 2 2 2 22 58,3 2 2 2 22 58,4 2 2 5 2 57 3,97 2 2 84 5 57,28 2 2 95 9 57,2 2 2 87 52 56 3,945 2 2 5 2 56,8 2 2 43 35 56, 2 2 6 5 55,75 2 2 3 87 55,2 2 2 5 2 55, 2 2 22 27 Les tableaux ci-dessus tracent toutes les étapes des trois classifications mentionnées. Exercice. Examiner les résultats de ces tableaux. A partir de ces tableaux, repérer les individus qui sont réunis en premier. Analyser les différences entre les premières réunions de chacun des 3 cas. Pour information, les principaux résultats de l'acp sont les suivants :

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 6/9 Valeurs propres Variables (axes F et F2 : 66,38 %) Variables (axes F3 et F4 : 24,43 %) 3 age_chef F,5,5 sau_totale sau_vign<3an 2 F2 F3 -,5 s sau_totale salariés sau_vign>3an s -,5 sau_vign>3an s salariés age_chef an_instal sau_vign<3an s F4 F5 F6 - an_instal - - -,5,5 -- axe F (4,5 %) --> - -,5,5 -- axe F 3 (7,3 %) --> Individus (axes F et F2 : 66,38 %) Individus (axes F3 et F4 : 24,43 %) 5 8 6 4 5-5 37 5354 84 7 77 8 82 75 73 69 6 687 66 67 57 72 83 79 64 85 78 56 6 7 65 53 5 5 49 68 47 39 62 76 54 48 43 38 7 9 2 9 88 4 99 858486 42 4 52 4 36 28 3 27 3 2 94 5 79 75 64 7776 7 9 6 746 46 44 35 3 9897 9 2 29 25 26 8 5 8 95 78 74 72 66 67 63 57 69 7 59 58 29845 9 274 5 7 47 25 44 6 656 6 52 2 32 48 46 34 43 9 2 8 26 3 42 3938 22 87 4 24 49 89 5 3 63 59 37 65 33 2-2 47 4659 78 4342 45 8663 79 2 24 75 64 76 67 54 8 84 82 7 68 48 89 76 44 5756 53 52 49 5 9 76 35 46 39 47 4 83 65 62 85 7 77 72 6 5 37 73 74 44 36 29 28 26 25 5 3 4 8 9 88 85 94 3 9 4 97 95 9 66 27 5 2 8 2 2 3 99 98 79 77 76 69 67 68 75 78 66 63 59 6 9 4 57 29 27 3 8 48 5653 5 54 64 65 7 43 36 35 72 34 323 2 38 39 3 62 87 3725 22 5 9 2 6 658 69 84 4249 7 26 74 38 33-4 - -6-5 -5 - -5 5 5 -- axe F (4,5 %) --> -8-8 -6-4 -2 2 4 6 8 -- axe F 3 (7,3 %) --> V.4.3. Application à la classification de données qualitatives Reprenons les données sur les exploitations, et considérons les variables qualitatives analysées par l'afcm. La classification peut se faire directement avec les composantes principales de l'afcm. C'est la méthode que nous utiliserons le plus souvent. Pour travailler directement avec les variables qualitatives d'origine, il faut soit transformer le tableau en tableau disjonctif complet, soit disposer d'un logiciel qui accepte les données de type qualitatif directement, ce qui n'est pas le cas de beaucoup de logiciels. Dendrogramme - 2CP AFCM 45 4 35 3 Dissimilarité 25 2 5 5 V.5. Les méthodes non hiérarchiques Ce sont des méthodes nécessitant beaucoup moins de calculs que les méthodes hiérarchiques. En conséquence, les tailles limites des fichiers pouvant être traités sont beaucoup plus élevées pour les méthodes non hiérarchiques que pour les méthodes hiérarchiques. Le principe est de fixer a priori le nombre de classes k. On fixe aussi une première partition, puis, par itération, on crée une nouvelle partition qui paraît être meilleure que la précédente. On arrête les itérations quand on pense qu'on ne peut pas obtenir bien "meilleur". Présentons la méthode des centres mobiles. L'ensemble des étapes est comme suit :

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 7/9. choisir k = nombre de classes à créer; 2. choisir un ensemble de k points dans l'espace des points à classer (souvent, ce sont des points choisis dans l'ensemble des points); ces k points sont appelés "centres initiaux"; 3. affecter chaque point au "centre" le plus près; on a ainsi formé k classes; 4. calculer les centres des classes obtenues en 3.; on a ainsi un nouvel ensemble de k centres; 5. tant que les centres de deux itérations successives sont distants de plus de ε, et tant que le nombre d'itérations est inférieur à nmax, revenir en 3., et incrémenter le compteur d'itérations de. Pour mettre en pratique cette méthode, il faut fixer a priori le nombre de classes, la valeur de ε, et le nombre d'itérations maximum nmax. Les valeurs de ε et de nmax n'ont que peu d'influence sur le résultat, car souvent les centres ne bougent presque pas voire pas du tout à partir d'un certain nombre d'itérations, et le nombre maximum d'itérations est beaucoup plus grand que le nombre d'itérations nécessaire pour atteindre la convergence. Ces valeurs sont plutôt des sécurités pour les cas extrêmes. C'est le choix du nombre de classes qui est le plus crucial, car il déterminera le nombre de profils émergents de l'ensemble des individus. Nous discutons de ce choix dans le paragraphe qui suit. Remarque. Le résultat d'une telle méthode dépend du choix des "centres initiaux". Ce choix est souvent semi-aléatoire par défaut dans les logiciels, de telle manière que l'exécution de la méthode plusieurs fois de suite, avec les mêmes paramètres et les mêmes données peut conduire à des partitions différentes. Il est même conseillé d'essayer plusieurs fois pour retenir la partition d'inertie intra la plus petite. D'autres noms paraissent dans la littérature (et dans les logiciels) pour nommer la méthode des centres mobiles : nuées dynamiques, k- means. Ces autres dénominations ont été données lors de généralisations de la méthode des centres mobiles en remplaçant les "points centres" par des ensembles de points centraux, ou nuées. Une autre amélioration de la méthode des centres mobiles est de calculer le nouveau centre des classes après chaque réaffectation de point et non après la réaffectation de tous les points. V.6. Choix d'une meilleure partition V.6.. Choix du nombre de classes Le résultat de la classification hiérarchique propose un ensemble de n partitions, allant de à n classes. Se pose alors le problème du choix du nombre de classes k. Le problème se pose différemment dans le cas non hiérarchique puisqu'il faut le faire a priori. Mais ce choix a priori n'est pas simple non plus. On se fixera comme contrainte de choisir un nombre de classes minimum, pour une inertie intra minimum. Or, dans un ensemble de partitions hiérarchisées, l'inertie intra est une fonction décroissante du nombre de classes. Il faut donc faire un compromis entre une inertie intra pas trop grande pour un nombre de classes pas trop grand non plus. D'autres éléments peuvent entrer en jeu, comme par exemple l'exigence du spécialiste des données qui veut absolument créer tel nombre de profils d'individus. En classification hiérarchique, l'analyse de l'arbre, et éventuellement de l'historique des itérations, permet de faire ce compromis. On choisira un nombre de classes k tel que le passage de k à k+ classes ne diminue plus "significativement" l'inertie intra. Exercice. Faire un choix du nombre de classes à partir des 4 dendrogrammes obtenus précédemment. Quand on ne dispose que de résultats de méthodes non hiérarchiques, on peut essayer plusieurs nombres de classes, et voir comment évolue l'inertie intra en fonction du nombre de classes. On raisonnera alors comme avec la méthode hiérarchique. Certains logiciels proposent des troncatures automatiques (SPAD, XLSTAT). V.6.2. Choix d'une partition parmi plusieurs partitions à même nombre de classes Quand le choix du nombre de classes est fait, il reste à comparer plusieurs partitions dont le nombre de classes est le même. Nous allons exposer deux méthodes de choix. La méthode comparant les effectifs des classes. Cette méthode est surtout utilisée quand les sorties logiciel sont trop pauvres et qu'on n'a pas de possibilités de comparaison des inerties intra. Elle sert aussi à départager deux partitions qui auraient la même inertie intra. Avec les variables indiquant les deux partitions, on dresse un tableau de contingence, et on retient la partition dont les écarts entre les effectifs des classes sont les plus faibles. Exercice. Effectuer ce choix de partition entre les partitions obtenues par les méthodes hiérarchique et non hiérarchique sur les exploitations, avec les données quantitatives. Effectifs observés (ClasseCAH / ClasseND) : 2 3 4 Total ClasseCAH- 87 8 5 ClasseCAH-2 37 38 ClasseCAH-3 4 4 ClasseCAH-4 7 7 Total 87 55 5 7 54

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 8/9 La méthode basée sur la comparaison des inerties intra. Le choix se portera sur la partition d'inertie intra minimum, bien entendu. On ne peut comparer que des partitions à même nombre de classes, vue la diminution systématique de l'inertie intra quand on augmente le nombre de classes. Exercice. Effectuer ce choix de partition entre les partitions précédentes. Décomposition de la variance pour la classification optimale (CAH, 4classes) : Décomposition de la variance pour la classification optimale (ND, 4 classes): Intra-classe,73 Intra-classe,623 Inter-classes 3,36 Inter-classes 3,44 Totale 5,37 Totale 5,37 V.7. Description des classes d'une partition La description se fait d'abord par comparaison des statistiques par classes aux statistiques sur les variables de départ. Cette comparaison passe par les méthodes d'analyse bivariée comparant la variable de partitionnement et les variables de départ. La variable de partitionnement est assimilée à une variable qualitative. Le choix des analyses dépend de la nature des variables de départ. V.7. Description des classes d'une partition : cas de données initiales quantitatives L'analyse des moyennes. On est en présence de p variables quantitatives et d'une variable qualitative. La première étude statistique sera le calcul de la moyenne des variables de départ pour chaque classe de la partition. Exemple sur les exploitations. On effectue ce calcul des moyennes pour la partition en 4 classes obtenue par la méthode non hiérarchique. moyennes an_instal age_chef sau_totale sau_vign>3ans sau_vign<3ans salariés effectif classend- 997,828 34,44 33,853 22,634 3,4,394 87 classend-2 982,527 48,764 49,4 25,996 3,327,645 55 classend-3 988,6 47, 54,2 6,3 46,8,35 5 classend-4 989,286 4,286 53,57 89,643 7,5 7,429 7 Total 99,675 4,24 45,45 26,35 4,975,834 54 On peut simplifier la lecture de ce tableau en remplaçant les valeurs des moyennes par des statistiques d'ordre. moyennes an_instal age_chef sau_totale sau_vign>3ans sau_vign<3ans salariés classend- ++ -- -- - - -- classend-2 -- ++ - + -- - classend-3 - + + -- ++ + classend-4 + - ++ ++ + ++ Ainsi, la description des classes est facilitée. Classe. Celle des exploitations installées le plus récemment, chefs d'exploitation les plus jeunes, nombre de salariés les plus faibles, les plus petites sau totales, et presque les plus petites sau en vignes, que ce soit de moins ou de plus de 3 ans. Classe 2. Les plus anciennes exploitations, chefs les plus âgés, le moins de sau en vignes < 3 ans, peu de salariés, peu de sau totale, mais sau de vignes > 3 ans dans la moyenne. Classe 3. Exploitations assez anciennes, chefs assez âgés, sau totale presque les plus élevées, mais sau en vignes > 3 ans les plus faibles alors que sau de vignes < 3 ans les plus élevées, nombre de salariés assez élevé. Classe 4. Exploitations assez récentes, chef assez jeune (âge près de la moyenne), sau totale et sau en vignes > 3 ans les plus élevées, sau en vignes < 3 ans assez élevées, et nombre de salariés maximum. L'Analyse Discriminante. Une autre analyse qu'on peut faire est l'analyse discriminante (AD). C'est une analyse qui peut être comprise comme une ACP. La différence est que, tandis que l'acp calcule de nouvelles variables quantitatives, combinaisons linéaires des variables initiales, de variance maximum, et orthogonales entre elles, l'ad calcule aussi de nouvelles variables quantitatives, combinaisons linéaires des variables initiales, mais de variance inter maximum, la variance inter étant calculée avec pour variable qualitative la variable qui définit les classes. Exemple sur les exploitations.

IUT STID Carcassonne 2 ème année AS Cours analyse des données- 2 ème partie : AFCM Classification p 9/9 Variables (axes F et F2 : 73,35 %) Observations (axes F et F2 : 73,35 %) an_instal 5 F2 (3,42 %),75,5 sau_vign<3ans,25 -,25 F2 (3,42 %) -5 54 5 7 985 7 36 65 56 83 62 68 76 74 5 49 52 26 4 46 3 46 6 28 44 59 27 8 2 9 5 36 99 2 39 52 34 87 3 97 47 82 75 8 85 7 4 48 77 72 5 6 43 2 22 9 9 57 38 95 73 53 32 84 42 74769 2 94 85 54 2 56 53 2 26 6 7 69 4835 59 8479 39 63 37 57 66 6 77 35 53 4 725 3 8886 9 58 7 79 759 78 49 66 43 9 27 44 6 24 78 42 38 76 4 37 29 68 3 67 4 64 65 897 64 6 458 47 67 7 33 2 3 4 -,5 salariés sau_totalesau_vign>3ans 29 -,75 age_chef - - -,75 -,5 -,25,25,5,75 F (42,94 %) - -5 - -5 5 F (42,94 %) Exercice. Décrire les classes à l'aide de ces graphiques, qu'on utilisera comme ceux de l'acp. Vérifier l'adéquation avec la description précédente basée sur les moyennes. V.7.2 Description des classes d'une partition : cas de données initiales qualitatives On utilisera les tableaux de contingence croisant les variables initiales et la variable qualitative issue de la partition. Exemple des exploitations. Effectifs observés (région / quali) : Effectifs théoriques (région / quali) : Significativité par case (région / quali) : ClasseNDquali-quali-quali-quali-4 Total quali- quali-2 quali-3 quali-4 Total quali- quali-2 quali-3 quali-4 BRAM 3 4 BRAM 4,273 2, 4,99 2,88 4 BRAM < > < < CARC 9 32 CARC 9,766 4,57,22 6,442 32 CARC > > < < MC 32 7 24 63 MC 9,227 9, 22,9 2,682 63 MC > < < > NH 3 36 6 45 NH 3,734 6,429 5,779 9,58 45 NH < < > < Total 47 22 54 3 54 Total 47 22 54 3 54 p-value <, Effectifs observés (statut / quali) : Effectifs théoriques (statut / quali) : Significativité par case (statut / quali) : ClasseNDquali-quali-quali-quali-4 Total quali- quali-2 quali-3 quali-4 Total quali- quali-2 quali-3 quali-4 EARL 2 8 2 22 EARL 6,74 3,43 7,74 4,429 22 EARL > > < < EI 29 38 4 9 EI 27,773 3, 3,99 8,38 9 EI > < > < GAEC 5 4 3 2 24 GAEC 7,325 3,429 8,46 4,83 24 GAEC < > > < SCEA 3 3 7 SCEA 5,88 2,429 5,96 3,422 7 SCEA < < < > Total 47 22 54 3 54 Total 47 22 54 3 54 p-value <, Effectifs observés (adhérent / quali) : Effectifs théoriques (adhérent / quali) : Significativité par case (adhérent / quali) : ClasseNDquali-quali-quali-quali-4 Total quali- quali-2 quali-3 quali-4 Total quali- quali-2 quali-3 quali-4 A 4 22 36 9 A 33,266 5,57 38,22 2,942 9 A > > < < P 6 8 2 45 P 3,734 6,429 5,779 9,58 45 P < < > > Total 47 22 54 3 54 Total 47 22 54 3 54 p-value <, Effectifs observés (valorisation / quali) : Effectifs théoriques (valorisation / quali) : Significativité par case (valorisation / quali) : ClasseNDquali-quali-quali-quali-4 Total quali- quali-2 quali-3 quali-4 Total quali- quali-2 quali-3 quali-4 Mixte 7 2 9 Mixte 2,747,286 3,56,82 9 Mixte > > < < coop 35 9 47 5 6 coop 35,43 6,57 4,675 23,35 6 coop < > > < part 5 7 6 29 part 8,85 4,43,69 5,838 29 part < < < > Total 47 22 54 3 54 Total 47 22 54 3 54 p-value <, Effectifs observés (vin / quali) : Effectifs théoriques (vin / quali) : Significativité par case (vin / quali) : ClasseNDquali-quali-quali-quali-4 Total quali- quali-2 quali-3 quali-4 Total quali- quali-2 quali-3 quali-4 AO-VDQS AO-VDQS 3,52,429 3,56 2,3 AO-VDQS < > < < AOC 43 2 2 29 76 AOC 23,95,857 26,649 5,299 76 AOC > < < > VDP 4 52 2 68 VDP 2,753 9,74 23,844 3,688 68 VDP < > > < Total 47 22 54 3 54 Total 47 22 54 3 54 p-value <, Exercice. Décrire les classes à l'aide de ces tableaux.