Analyse factorielle de données de catégorisation



Documents pareils
La classification automatique de données quantitatives

IGP CITE DE CARCASSONNE-CABERNET

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Analyse des correspondances avec colonne de référence

Extraction d informations stratégiques par Analyse en Composantes Principales

Exercice : la frontière des portefeuilles optimaux sans actif certain

NOTATIONS PRÉLIMINAIRES

Analyse en Composantes Principales

Notre ligne de produits lessive et nettoyants de Suisse

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

FOURNITURES DE PATISSERIE ANNEE 2008

Informations produit

Ces conseils vous sont offerts par Retrouvez tous nos produits et nos astuces sur notre site.

Ces conseils vous sont offerts par Retrouvez tous nos produits et nos astuces sur notre site.

Chocolat au lait : 34% de cacao minimum. Chocolat au lait : 34% de cacao minimum

Le plaisir de la vente à domicile. Catalogue

Les probabilités. Chapitre 18. Tester ses connaissances

Challenge François Grinnaert

pumpkin crumble Bons petits plus des fruits confits Potiron / Bigarreau / Pavot 1 > Pâte à Cake 2 > Base Crumble 3 > Cake potiron fruits confits

Factsheet Qu est-ce que le yogourt?

Menu MBA Recherche

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

La Carte et le Menus

INTRODUCTION AUX TESTS DE PERFORMANCE ET DE CHARGE

Nutritional Facts (Muffin & Cookie Batter)

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Aide-mémoire de statistique appliquée à la biologie

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Feuille d exercices 2 : Espaces probabilisés

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

= 1 si n = m& où n et m sont souvent des indices entiers, par exemple, n, m = 0, 1, 2, 3, 4... En fait,! n m

Optimisation Discrète

LISTE V AU PROTOCOLE A MAROC. Description des produits

Introduction à l approche bootstrap

Estimation du coût de l incessibilité des BSA

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

ETUDES MARKETING ET OPINION CROSS-

SOMMAIRE. Présentation Générale p. 3. Saisie d une pièce comptable p. 4. Consultation d un compte p. 5. Modules de règlement p. 6

SOLUTION D ENVOI DE SMS POUR PROFESSIONNELS

à lever : pyrophosphate de soude, bicarbonate de soude, sorbate de potassium, sel fin, xanthane

Biscuits de Noël. Milan

Participez et gagnez!

Documentation pour l envoi de SMS

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

SOINS DU VISAGE : LIFTING, HYDRATATION, ANTI-ÂGE

CODE PRODUIT MARQUE NOM CONTENANCE TYPE GENRE PRIX PRIX PROMO CATEGORIE Elizabeth Arden 5TH AVENUE 125 ML EDP VAPO 125 ML EDP VAPO W

60 produits solidaires pour les familles

Informations produits. Massepain

Ordonnance du DFI sur les sucres, les denrées alimentaires sucrées et les produits à base de cacao

Restaurant. La Fontaine d Athéna. Spécialités grecques

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Livraison gratuite

Aiguilleurs de courant intégrés monolithiquement sur silicium et leurs associations pour des applications de conversion d'énergie

Cake aux fruits. Pastis Landais

Terrace Entretien. Entretien gønøral. Nettoyage aprłs installation. RØsistance chimique. Guide de taches. Remplacement d une planche

Transmission d informations sur le réseau électrique

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Journal du «Rucher de Félix», Jean. Sébastien. Gros (Mons 83) Rucher «Terre Sauvage» depuis novembre Le mot de L apiculteur : La météo Varoise

Contre les Insectes en Général

Simulation de variables aléatoires

Chaînes de Markov au lycée

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Avant-après, amont-aval : les couples de tableaux totalement appariés

EnergyOatSnack barre Banana Bread

DESSERTS PATISSIERS. Sirop à baba : eau, sucre, glucose, armagnac (12% à 50 ), 6 babas (farine de blé, œufs, beurre, levure, sel, sucre)

Modélisation et Simulation

INF6304 Interfaces Intelligentes

Cuisine. Spray de dégraissant à froid 750 ml. Produit multi-usages pour cuisine 750 ml

Fiches conseils «Je fabrique mes produits maison»

16 insecticides naturels et sans risque

Créer, sur ce terroir d excellence, l un des plus grands vins blancs secs du marché. «Sur ce terroir exceptionnel, je suis venu

Structures algébriques

TD 3 : suites réelles : application économique et nancière

PHOTO PLAISIRS. La Lumière Température de couleur & Balance des blancs. Mars 2011 Textes et Photos de Bruno TARDY 1

Exercices Corrigés Premières notions sur les espaces vectoriels

1. Création d'un état Création d'un état Instantané Colonnes Création d'un état Instantané Tableau... 4

Les Autorisations de Mise sur le Marché (AMM) délivrées au titre du Règlement (UE) n 528/2012 (dit BPR)

Unity Real Time 2.0 Service Pack 2 update

Cours de Probabilités et de Statistique

Tous au marché! LES MS/GS DECOUVRENT LE MARCHE DE TARTAS

Pâques 2015 Tarif Commande Groupée Du 15 Janvier 2015 au 28 Mars 2015

Généralités sur le Langage Java et éléments syntaxiques.

RENSEIGNEMENTS SUR LES ALLERGIES

Produits pour hygiène en cuisine nettoyage de bâtiments détergents pour textiles

Ces conseils vous sont offerts par Retrouvez tous nos produits et nos astuces sur notre site.

Nouveau. nouveaux produits 100 % constants. pour des desserts 100 % réussis. zéro compromis, 100 % goût

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Café en dosette au bar 2.00 Mélange biologique 100% ARABICA au bar 1.10 Noisette au bar Sous réserve de disponibilité et de saisonnalité.

NOS OFFRES SEMINAIRES POUR LES QUATRE HOTELS 4* DU GROUPE FRONTENAC

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Introduction au Data-Mining

SHAMPOOINGS ET SOINS REPIGMENTANTS GUIDE TECHNIQUE

Chapitre 6 La lumière des étoiles Physique

Comment utiliser les graines de soja à la cuisine

ESSOURCES PÉDAGOGIQUES

Une introduction aux codes correcteurs quantiques

Transcription:

Analyse factorielle de données de catégorisation Application aux données sensorielles Soutenance de thèse de Marine Cadoret Préparée au Laboratoire de mathématiques appliquées Agrocampus Ouest 30 août 2010

Sommaire 1 Introduction 2 Analyse factorielle des données de catégorisation 3 Recueil et traitement des données incomplètes 4 Éléments de validité 5 Deux extensions de la catégorisation 6 Conclusions et perspectives 2/ 43

Sommaire 1 Introduction 2 Analyse factorielle des données de catégorisation 3 Recueil et traitement des données incomplètes 4 Éléments de validité 5 Deux extensions de la catégorisation 6 Conclusions et perspectives 3/ 43

La catégorisation Méthode de recueil de données simple Issue du domaine de la psychologie Apparition en analyse sensorielle à la n des années 80 (Lawless, 1989) Utilisée sur tous types de produits, notamment : Fromages : Lawless et al., 1995 Eaux : Falahee et MacRae, 1995 Bières : Chollet et Valentin, 2001 Pièces automobiles : Faye et al., 2006 Vins : Parr et al., 2007 Sauces barbecues : Blancher et al., 2008 4/ 43

La tâche de catégorisation Approche holistique (globale) Il est demandé de faire des groupes d'objets en fonction de leurs ressemblances : 2 objets sont dans un même groupe s'ils sont perçus comme semblables 2 objets sont dans 2 groupes diérents s'ils sont perçus comme diérents Aucun critère imposé aux sujets Evaluation simultanée Le nombre de groupe doit être compris entre 2 et I 1 (avec I le nombre d'objets) Une tâche de verbalisation peut aussi être demandée pour décrire les groupes fournis (catégorisation qualiée) 5/ 43

Données Data 98 sujets - 98 12 consumers parfums féminins carried : out a qualified categorization on 12 luxury perfumes: Angel Lolita Lempicka L'instant Cinéma J'adore (ET) J'adore (EP) Shalimar Aromatics Coco Chanel n 5 Elixir Mademoiselle Pure Poison Pleasures Produits présentés anonymement 3 6/ 43

Données 98 sujets - 12 parfums féminins : 482 193 240 548 493 935 968 357 173 674 475 117 Produits présentés anonymement 6/ 43

Exemple de catégorisation : sujet 1 7/ 43

Exemple de catégorisation : sujet 1 sucré, vanille entêtant fleuri, vert 7/ 43

Première description : les groupes 0 5 10 15 20 25 30 0 20 40 60 80 100 120 2 3 4 5 6 7 8 Nombre de groupes formés 1 2 3 4 5 6 7 8 Nombre de parfums par groupe 8/ 43

Première description : les mots 0 50 100 150 0 1 2 3 4 5 6 7 8 9 Nombre de mots utilisés par groupe 9/ 43

Première description : matrice de cooccurrences (réordonnée) J'adore (ET) J'adore (EP) Pleasures Coco Melle Cinéma J'adore (ET) 98 56 48 38 24 28 22 18 12 14 7 7 J'adore (EP) 56 98 38 28 23 29 28 18 11 12 12 6 Pleasures 48 38 98 28 22 30 23 18 11 14 11 6 Coco Melle 38 28 28 98 30 33 20 21 10 11 12 9 Cinéma 24 23 22 30 98 28 26 42 18 9 8 10 Pure Poison 28 29 30 33 28 98 25 18 10 21 12 11 L'instant 22 28 23 20 26 25 98 22 14 10 13 13 Lolita Lemp. 18 18 18 21 42 18 22 98 36 8 6 9 Angel 12 11 11 10 18 10 14 36 98 15 27 21 Chanel n 5 14 12 14 11 9 21 10 8 15 98 51 30 Arom. Elixir 7 12 11 12 8 12 13 6 27 51 98 42 Shalimar 7 6 6 9 10 11 13 9 21 30 42 98 Pure Poison L'instant Lolita Lemp. Angel Chanel n 5 Arom. Elixir Shalimar 10/ 43

Première description : matrice de cooccurrences (réordonnée) J'adore (ET) J'adore (EP) Pleasures Coco Melle Cinéma J'adore (ET) 98 56 48 38 24 28 22 18 12 14 7 7 J'adore (EP) 56 98 38 28 23 29 28 18 11 12 12 6 Pleasures 48 38 98 28 22 30 23 18 11 14 11 6 Coco Melle 38 28 28 98 30 33 20 21 10 11 12 9 Cinéma 24 23 22 30 98 28 26 42 18 9 8 10 Pure Poison 28 29 30 33 28 98 25 18 10 21 12 11 L'instant 22 28 23 20 26 25 98 22 14 10 13 13 Lolita Lemp. 18 18 18 21 42 18 22 98 36 8 6 9 Angel 12 11 11 10 18 10 14 36 98 15 27 21 Chanel n 5 14 12 14 11 9 21 10 8 15 98 51 30 Arom. Elixir 7 12 11 12 8 12 13 6 27 51 98 42 Shalimar 7 6 6 9 10 11 13 9 21 30 42 98 Seul 2 2 8 8 5 7 9 7 13 17 6 24 Pure Poison L'instant Lolita Lemp. Angel Chanel n 5 Arom. Elixir Shalimar 10/ 43

Sommaire 1 Introduction 2 Analyse factorielle des données de catégorisation 3 Recueil et traitement des données incomplètes 4 Éléments de validité 5 Deux extensions de la catégorisation 6 Conclusions et perspectives 11/ 43

Bref historique : représentation des objets Matrice de cooccurrences 1 i I 1.. i.. c(i, i ) I Table: c(i, i ) correspond au nombre de sujets ayant placés les objets i et i dans un même groupe Matrice de cooccurrences transformée en matrice de distances : d(i, i ) = J c(i, i ) Représentation des objets obtenue par MDS non-métrique (Lawless, 1989) 12/ 43

Bref historique : représentation des mots Matrice de fréquences 1.. m.. M 1......... i.. f (i, m)....... I.... Table: f (i, m) correspond au nombre de sujets ayant utilisé le mot m pour décrire un groupe contenant l'objet i Coecient de corrélation entre chaque dimension et chaque vecteur de fréquences (Faye et al., 2004, 2006) 13/ 43

Bref historique : représentation des sujets DISTATIS (Abdi et al., 2007) basée sur MDS et STATIS Matrice de cooccurrences individuelle du sujet j 1 i I 1.. i.. c j (i, i ) I Table: c j (i, i ) = 1 si les objets i et i dans le même groupe par le sujet j et 0 sinon Matrice de cooccurrences individuelle transformée en matrice de distances : d j (i, i ) = 1 c j (i, i ) 14/ 43

Autre codage des données Sujet 1... Sujet j... Sujet J 1 Angel G1 G1 G2 Arom. El. G3 G5 G1........ Cinéma G1 G2 G3 i Loli. Lemp. G1 G2 G3 L'instant G2 G2 G3........ Pleasures G1 G2 G4 I Shalimar G2 G3 G1 Un sujet = Une variable qualitative 15/ 43

Autre codage des données Sujet 1... Sujet j... Sujet J 1 Angel vert euri, vert oral Arom. El. amer amer fort, acide........ Cinéma vert doux G3 i Loli. Lemp. vert doux G3 L'instant sucré doux G3........ Pleasures vert doux frais I Shalimar sucré vanille fort, acide Un sujet = Une variable qualitative Un label = La séquence de mots utilisée pour décrire le groupe 15/ 43

Autre codage des données Sujet 1... Sujet j... Sujet J 1 Angel vert euri, vert oral Arom. El. amer amer fort, acide........ Cinéma vert doux G3 i Loli. Lemp. vert doux G3 L'instant sucré doux G3........ Pleasures vert doux frais I Shalimar sucré vanille fort, acide Un sujet = Une variable qualitative Un label = La séquence de mots utilisée pour décrire le groupe Traitement par Analyse des Correspondances Multiples (ACM; Lebart et al., 1977) 15/ 43

Tableau disjonctif complet 1 Sujet 1 Sujet j Sujet J 1 k K i 1 0 0 x ik I I 1 I k I K x ik = 1 si l'objet i appartient au groupe k (du sujet j) et 0 sinon I k : nombre d'objets appartenant au groupe k (du sujet j) 16/ 43

Représentation des objets en ACM Distance entre 2 objets i et l : d 2 (i, l) = 1 J k I I k (x ik x lk ) 2 2 objets sont d'autant plus proches qu'ils ont été placés dans un même groupe par de nombreux sujets 2 objets sont d'autant plus éloignés qu'ils ont été placés dans des groupes diérents par de nombreux sujets 17/ 43

Représentation des parfums MCA factor map Angel Dim 2 (13.64%) -1.0-0.5 0.0 0.5 1.0 1.5 Lolita Lempicka Cinéma L'instant Coco Mademoiselle Pure Poison J'adore (ET) Pleasures J'adore (EP) Aromatics Elixir Chanel n 5 Shalimar -1.0-0.5 0.0 0.5 1.0 1.5 2.0 Dim 1 (17.8%) 18/ 43

Représentation des parfums MCA factor map Angel Dim 2 (13.64%) -1.0-0.5 0.0 0.5 1.0 1.5 Lolita Lempicka Cinéma L'instant Coco Mademoiselle Pure Poison J'adore (ET) Pleasures J'adore (EP) Aromatics Elixir Chanel n 5 Shalimar Arom. El. Shalimar J'adore (EP) J'adore (ET) Arom. El. 98 42 12 7 Shalimar 42 98 6 7 J'adore (EP) 12 6 98 56 J'adore (ET) 7 7 56 98 Seul 6 24 2 2-1.0-0.5 0.0 0.5 1.0 1.5 2.0 Dim 1 (17.8%) 18/ 43

Représentation des mots en ACM Représentation individuelle des mots Distance entre deux mots k et h : ) 2 x ih I h d 2 (k, h) = i I ( xik I k Deux mots seront d'autant plus proches qu'ils sont associés aux mêmes objets Coordonnée du mot k sur l'axe de rang s : G s (k) = 1 I λs i=1 x ik F I s (i) k Double propriété barycentrique : un mot sera du côté des objets auxquels il a été associé et un objet sera du côté des mots auxquels il a été associé 19/ 43

Représentation des mots et des parfums aseptisé neutre discret estival poivré caractère barbe à papa épicé musc camphre corsé fort épicé chocolat nourriture épicé soirée sucré faible fruité sucré doux propreté fraîcheur savon fruité muguet fruité discret fruité discret Dim 2 (13.64%) pollen naturel sucré nature muguet -1 0 1 2 chaud sucré fruité chocolat vanille sucré chaud chaud vanillé épicé fort intense Cinéma J'adore (ET) J'adore (EP) Pleasures léger caractère fort enivrant fleuri fin suave acidulé désodorisant Lolita Lempicka L'instant Coco Mademoiselle MCA factor map Angel Pure Poison odeur prenante fête sucré miel fort fruité fort fort particulier -1 0 1 2 Dim 1 (17.8%) fort attaquant Chanel n 5 Shalimar Aromatics Elixir femme d âge mûr fleuri suffocant léger masculin poivré fort sucré épicé épicé homme eau de Cologne entêtant attaque toilettes savon savon fort prononcé parfum à WC WC médicament plante savon fort savon toilettes fort pain d'épices amande entêtant fruité pourri printemps agressif chimique piquant savon fort fort fleuri toilettes ancien eau de Cologne fort mauvais chimique non-naturel artificiel capiteux grand-mère pourri décomposition fleuri désodorisant désodorisant fort nauséabond oriental métallique médicament épicé agrume frais fleuri doux citronnelle sucré anti-moustique eau de Cologne hôpital oriental cire particulier fort médicament citronné renfermé agressif fort lavande eau de Cologne 20/ 43

Représentation des sujets en ACM Pas de représentation usuelle des variables (sujets) elles-mêmes en ACM Solutions possibles pour la coordonnée du sujet j sur l'axe de rang s : 1 Kj 1 η2 (F s, j), avec K j le nombre de groupes fournis par le sujet j et F s le vecteur de coordonnées des objets sur l'axe de rang s (Escoer, 1979) η(f s, j) (Cazes, 1982) ACM Recherche des z s tels que : max j η2 (z s, j) Choix du carré du rapport de corrélation : η 2 (F s, j) 21/ 43

Représentation des sujets Groups representation Dim 2 (13.64%) 0.0 0.2 0.4 0.6 0.8 1.0 31 18 93 40 0.0 0.2 0.4 0.6 0.8 1.0 Dim 1 (17.8%) 22/ 43

Représentation des sujets Groups representation Dim 2 (13.64%) 0.0 0.2 0.4 0.6 0.8 1.0 31 18 93 40 18 31 40 93 Aromatics Elixir 2 2 5 3 Chanel n 5 3 4 5 3 Shalimar 2 1 4 4 Coco Mademoiselle 3 1 2 2 J'adore (EP) 1 1 1 1 J'adore (ET) 3 1 1 2 L'instant 2 1 2 1 Pleasures 3 1 1 1 Pure Poison 1 2 2 2 Cinéma 3 3 3 2 Lolita Lempicka 1 3 3 2 Angel 3 5 6 1 0.0 0.2 0.4 0.6 0.8 1.0 Dim 1 (17.8%) 22/ 43

Représentation des sujets Groups representation Dim 2 (13.64%) 0.0 0.2 0.4 0.6 0.8 1.0 31 18 93 40 18 31 40 93 Aromatics Elixir 2 2 5 3 Chanel n 5 3 4 5 3 Shalimar 2 1 4 4 Coco Mademoiselle 3 1 2 2 J'adore (EP) 1 1 1 1 J'adore (ET) 3 1 1 2 L'instant 2 1 2 1 Pleasures 3 1 1 1 Pure Poison 1 2 2 2 Cinéma 3 3 3 2 Lolita Lempicka 1 3 3 2 Angel 3 5 6 1 0.0 0.2 0.4 0.6 0.8 1.0 Dim 1 (17.8%) 22/ 43

Sommaire 1 Introduction 2 Analyse factorielle des données de catégorisation 3 Recueil et traitement des données incomplètes 4 Éléments de validité 5 Deux extensions de la catégorisation 6 Conclusions et perspectives 23/ 43

Problèmes Lorsque il y a trop d'objets à évaluer : choix d'un sous-ensemble d'objets pour chaque sujet Comment traiter les données incomplètes? Comment choisir les objets évalués par chaque sujet? 24/ 43

Traitement des données incomplètes Sujet 1 Sujet 2 Sujet 3 Sujet 4 Sujet 5 Angel S1.miss 4 1 5 S5.miss Aromatics Elixir 3 3 S3.miss 2 S5.miss Chanel n 5 4 3 4 1 3 Cinéma 2 S2.miss 6 4 2 Coco Mademoiselle S1.miss 5 2 4 3 J'adore(EP) 1 6 2 3 3 J'adore(ET) 2 6 2 S4.miss 3 L'instant 1 S2.miss 6 2 4 Lolita Lempicka 1 5 1 5 2 Pleasures 3 4 6 S4.miss 4 Pure Poison 1 1 S3.miss 4 4 Shalimar 2 2 3 2 1 Pour chaque sujet : objets non-présentés = groupe additionnel 25/ 43

Choix d'un sous-ensemble d'objets (1) Chaque sujet évalue p objets parmi I : aléatoirement : chaque objet i est évalué un nombre diérent de fois : r i chaque paire d'objets (i, l) est évaluée un nombre diérent de fois : λ il 26/ 43

Choix d'un sous-ensemble d'objets (1) Chaque sujet évalue p objets parmi I : aléatoirement : chaque objet i est évalué un nombre diérent de fois : r i chaque paire d'objets (i, l) est évaluée un nombre diérent de fois : λ il selon un plan plan en blocs incomplets équilibrés (BIE) : chaque objet est évalué un même nombre de fois : r chaque paire d'objets est évaluée un même nombre de fois : λ 26/ 43

Choix d'un sous-ensemble d'objets (2) Distance entre les 2 objets i et l décomposée selon : part due aux groupes réellement constitués part due aux groupes d'objets manquants 27/ 43

Choix d'un sous-ensemble d'objets (2) Distance entre les 2 objets i et l décomposée selon : part due aux groupes réellement constitués part due aux groupes d'objets manquants Plan aléatoire : d 2 (i, l) = dk 2 (i, l) + 1 J I p ((r i λ il ) + (r l λ il )) Plan en BIE : d 2 (i, l) = dk 2 (i, l) + 1 I 2(r λ) J I p I 27/ 43

Choix d'un sous-ensemble d'objets (2) Distance entre les 2 objets i et l décomposée selon : part due aux groupes réellement constitués part due aux groupes d'objets manquants Plan aléatoire : d 2 (i, l) = dk 2 (i, l) + 1 J I p ((r i λ il ) + (r l λ il )) Plan en BIE : d 2 (i, l) = dk 2 (i, l) + 1 I 2(r λ) J I p Dans quelle mesure un plan en BIE sera meilleur qu'un plan aléatoire? I 27/ 43

Choix d'un sous-ensemble d'objets (2) Distance entre les 2 objets i et l décomposée selon : part due aux groupes réellement constitués part due aux groupes d'objets manquants Plan aléatoire : d 2 (i, l) = dk 2 (i, l) + 1 J I p ((r i λ il ) + (r l λ il )) Plan en BIE : d 2 (i, l) = dk 2 (i, l) + 1 I 2(r λ) J I p Dans quelle mesure un plan en BIE sera meilleur qu'un plan aléatoire? Simulation de données incomplètes I 27/ 43

BIE vs. aléatoire (1) Données incomplètes aléatoire Données complètes BIE Données incomplètes 28/ 43

BIE vs. aléatoire (1) Données incomplètes aléatoire Données complètes BIE Données incomplètes ACM ACM ACM 28/ 43

BIE vs. aléatoire (1) Données incomplètes aléatoire Données complètes BIE Données incomplètes ACM ACM ACM F 2 RV F 2 RV F 2 F 1 F 1 F 1 28/ 43

BIE vs. aléatoire (2) Simulations de diérentes situations à partir du jeu de données parfums : 30 sujets 60 sujets 98 sujets 10 parfums 8 parfums 6 parfums (17% mqt) (33% mqt) (50% mqt) aléatoire BIE aléatoire BIE aléatoire BIE Table: Valeurs moyennes des c cients RV (complet,incomplet) pour 100 simulations. 29/ 43

BIE vs. aléatoire (2) Simulations de diérentes situations à partir du jeu de données parfums : 10 parfums 8 parfums 6 parfums (17% mqt) (33% mqt) (50% mqt) aléatoire BIE aléatoire BIE aléatoire BIE 30 sujets 60 sujets 98 sujets 0.97 0.88 0.721 Table: Valeurs moyennes des c cients RV (complet,incomplet) pour 100 simulations. 29/ 43

BIE vs. aléatoire (2) Simulations de diérentes situations à partir du jeu de données parfums : 10 parfums 8 parfums 6 parfums (17% mqt) (33% mqt) (50% mqt) aléatoire BIE aléatoire BIE aléatoire BIE 30 sujets 0.76 0.652 0.471 60 sujets 0.92 0.77 0.621 98 sujets 0.97 0.88 0.721 Table: Valeurs moyennes des c cients RV (complet,incomplet) pour 100 simulations. 29/ 43

BIE vs. aléatoire (2) Simulations de diérentes situations à partir du jeu de données parfums : 10 parfums 8 parfums 6 parfums (17% mqt) (33% mqt) (50% mqt) aléatoire BIE aléatoire BIE aléatoire BIE 30 sujets 0.76 0.781 0.652 0.746 0.471 0.579 60 sujets 0.92 0.942 0.77 0.869 0.621 0.758 98 sujets 0.97 0.98 0.88 0.94 0.721 0.855 Table: Valeurs moyennes des c cients RV (complet,incomplet) pour 100 simulations. 29/ 43

Sommaire 1 Introduction 2 Analyse factorielle des données de catégorisation 3 Recueil et traitement des données incomplètes 4 Éléments de validité 5 Deux extensions de la catégorisation 6 Conclusions et perspectives 30/ 43

Données de catégorisation Nombre de colonnes nombre de lignes ACM : une variable = un sous-espace production automatique de fortes dimensions communes R I E j E j Validité de la première dimension (consensus)? 31/ 43

Consensus entre les sujets Première valeur propre λ 1 = 1 J j η2 (F 1, j) 32/ 43

Consensus entre les sujets Première valeur propre λ 1 = 1 J j η2 (F 1, j) Hypothèses : Absence de consensus (catégorisations indépendantes) Existence d'au moins une dimension consensuelle 32/ 43

Consensus entre les sujets Première valeur propre λ 1 = 1 J j η2 (F 1, j) Hypothèses : Absence de consensus (catégorisations indépendantes) Existence d'au moins une dimension consensuelle Evolution de l'indicateur pour des données indépendantes simulées 32/ 43

Consensus entre les sujets Première valeur propre λ 1 = 1 J j η2 (F 1, j) Hypothèses : Absence de consensus (catégorisations indépendantes) Existence d'au moins une dimension consensuelle Evolution de l'indicateur pour des données indépendantes simulées Nombre de sujets Nombre d'objets 10 20 50 100 10 20 50 100 Table: Valeurs moyennes des λ 1 pour 100 simulations. 32/ 43

Consensus entre les sujets Première valeur propre λ 1 = 1 J j η2 (F 1, j) Hypothèses : Absence de consensus (catégorisations indépendantes) Existence d'au moins une dimension consensuelle Evolution de l'indicateur pour des données indépendantes simulées Nombre de sujets Nombre d'objets 10 20 50 100 10 0.6957 0.6246 0.5578 0.5242 20 0.471 0.3892 0.3196 0.2863 50 0.3062 0.2288 0.1678 0.14 100 0.2364 0.164 0.1099 0.0864 Table: Valeurs moyennes des λ 1 pour 100 simulations. 32/ 43

Consensus entre les sujets Première valeur propre λ 1 = 1 J j η2 (F 1, j) Hypothèses : Absence de consensus (catégorisations indépendantes) Existence d'au moins une dimension consensuelle Evolution de l'indicateur pour des données indépendantes simulées Nombre de sujets Nombre d'objets 10 20 50 100 10 0.6957 0.6246 0.5578 0.5242 20 0.471 0.3892 0.3196 0.2863 50 0.3062 0.2288 0.1678 0.14 100 0.2364 0.164 0.1099 0.0864 Table: Valeurs moyennes des λ 1 pour 100 simulations. Nécessité d'un test sur la première valeur propre H 0 : absence de consensus (catégorisations indépendantes) H 1 : existence d'au moins une dimension consensuelle 32/ 43

Signicativité de l'indicateur pour un tableau donné Associer une probabilité critique à la première valeur propre de l'acm : Faire un grand nombre de fois : 1 Permutations indépendantes des lignes pour chaque colonne 2 Calcul de la première valeur propre associée au tableau permuté Distribution de la première valeur propre sous H 0 Calcul de la probabilité critique 33/ 43

Signicativité de λ 1 pour les données parfums Frequency 0 50 100 150 Frequency 0 50 150 0.0 1.0 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 First eigenvalue 34/ 43

Ellipses de conance autour des produits Ellipses de conance autour des produits Principe : Ré-échantillonnage des sujets (colonnes) : création de jurys virtuels Utilisation de la propriété barycentrique de l'acm : F s (i) = 1 x ik λs k K G J s(k) Véritable produit Produit ré-échantillonné Ellipse 35/ 43

Ellipses de conance autour des produits Confidence ellipses for the mean points Dim 2 (13.64%) 1.0 0.5 0.0 0.5 1.0 1.5 2.0 Cinéma Lolita Lempicka L'instant Coco Mademoiselle Pure Poison J'adore Pleasures (ET) (EP) Angel Aromatics Elixir Chanel n 5 Shalimar 1.0 0.5 0.0 0.5 1.0 1.5 2.0 Dim 1 (17.8%) 36/ 43

Recouvrement des ellipses Le non-chevauchement des ellipses est-il de même importance que celui susceptible d'être obtenu par hasard? 37/ 43

Recouvrement des ellipses Le non-chevauchement des ellipses est-il de même importance que celui susceptible d'être obtenu par hasard? Recherche d'un indicateur de recouvrement : Ellipses représentent les produits ré-échantillonnés Recouvrement des zones représentées par les produits ré-échantillonnés Théorème de Huygens sur le nuage des produits ré-échantillonnés : A 1 A 2 B 2 B 3 A 1 A 2 A 1 A 2 A B 2 B 3 A B A 3 A 3 A 3 B 1 B 1 B 2 B 3 B B 1 Inertie totale = Inertie inter-groupes + Inertie intra-groupe 37/ 43

Recouvrement des ellipses Le non-chevauchement des ellipses est-il de même importance que celui susceptible d'être obtenu par hasard? Recherche d'un indicateur de recouvrement : Ellipses représentent les produits ré-échantillonnés Recouvrement des zones représentées par les produits ré-échantillonnés Théorème de Huygens sur le nuage des produits ré-échantillonnés : A 1 A 2 B 2 B 3 A 1 A 2 A 1 A 2 A B 2 B 3 A B A 3 A 3 A 3 B 1 B 1 B 2 B 3 B B 1 Inertie totale = Inertie inter-groupes + Inertie intra-groupe Indicateur de recouvrement : 0 Inertie Inter-groupes Inertie totale 1 37/ 43

Recouvrement des ellipses Le non-chevauchement des ellipses est-il de même importance que celui susceptible d'être obtenu par hasard? Recherche d'un indicateur de recouvrement : Ellipses représentent les produits ré-échantillonnés Recouvrement des zones représentées par les produits ré-échantillonnés Théorème de Huygens sur le nuage des produits ré-échantillonnés : A 1 A 2 B 2 B 3 A 1 A 2 A 1 A 2 A B 2 B 3 A B A 3 A 3 A 3 B 1 B 1 B 2 B 3 B B 1 Inertie totale = Inertie inter-groupes + Inertie intra-groupe Inertie Inter-groupes Indicateur de recouvrement : 0 1 Inertie totale Même procédure de permutation que pour la première valeur propre 37/ 43

Signicativité de l'indicateur de recouvrement pour les données parfums Frequency 0 50 100 150 200 250 300 0.982 0.984 0.986 0.988 0.990 0.992 0.994 0.996 ratio 38/ 43

Sommaire 1 Introduction 2 Analyse factorielle des données de catégorisation 3 Recueil et traitement des données incomplètes 4 Éléments de validité 5 Deux extensions de la catégorisation 6 Conclusions et perspectives 39/ 43

Deux extensions de la catégorisation Napping R catégorisé (Pagès et al., 2010) banane A D C B E F H G doux 40/ 43

Deux extensions de la catégorisation Napping R catégorisé (Pagès et al., 2010) banane A D C B E F H G doux Tri hiérarchique (Egoro, 2005) N1 C A B H D J K L I E M N F G O P N2 A B C D E F G H I J K L M N O P N3 A B C D E G H F I JK L M N OP 40/ 43

Sommaire 1 Introduction 2 Analyse factorielle des données de catégorisation 3 Recueil et traitement des données incomplètes 4 Éléments de validité 5 Deux extensions de la catégorisation 6 Conclusions et perspectives 41/ 43

Conclusions Mise au point de méthodologies statistiques répondant à des problématiques sensorielles Méthodologies qui contiennent : Indicateurs unidimensionnels : description élémentaire des données Approches factorielles : représentation des objets, des mots, des sujets, etc. liées entre elles Éléments de validité Développement pour les utilisateurs : mise à disposition de fonctions, données et aides dans le package SensoMineR 42/ 43

Perspectives Construction des ellipses de conance : Ellipses optimistes Nouvelle stratégie à envisager dans leur construction : bootstrap total? 43/ 43

Perspectives Construction des ellipses de conance : Ellipses optimistes Nouvelle stratégie à envisager dans leur construction : bootstrap total? Envisager les données incomplètes pour : Tri hiérarchique : un groupe additionnel quel que soit le niveau? Napping R catégorisé : obtenir des données qualitatives et quantitatives qui soient en accord 43/ 43

Perspectives Construction des ellipses de conance : Ellipses optimistes Nouvelle stratégie à envisager dans leur construction : bootstrap total? Envisager les données incomplètes pour : Tri hiérarchique : un groupe additionnel quel que soit le niveau? Napping R catégorisé : obtenir des données qualitatives et quantitatives qui soient en accord Visualisation : Graphique dynamique avec R : dyngraph (Lê et Durand, 2010) Adaptation de logiciels dédiés aux données textuelles : Qnomis (Kerbaol et al., 1997) 43/ 43

dim 1 dim 2 dim 3 dim 4 dim 5 dim 6 dim 7 dim 8 dim 9 dim 1 dim 2 dim 3 dim 4 dim 5 dim 6 dim 7 dim 8 dim 9 dim 1 dim 2 dim 3 dim 4 dim 5 dim 6 dim 7 dim 8 dim 9 dim 1 dim 2 dim 3 dim 4 dim 5 dim 6 dim 7 dim 8 dim 9 dim 1 dim 2 dim 3 dim 4 dim 5 dim 6 dim 7 dim 8 dim 9 Evolution de la première valeur propre pour un nombre d'objets xé 10 sujets 20 sujets 50 sujets 100 sujets 1000 sujets 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 44/ 43