Séance 4: Analyse Factorielle des Correspondances Multiples



Documents pareils
La classification automatique de données quantitatives

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Analyse en Composantes Principales

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Résolution de systèmes linéaires par des méthodes directes

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Logiciel XLSTAT version rue Damrémont PARIS

Mémo d utilisation de ADE-4

Triangle de Pascal dans Z/pZ avec p premier

Programmation linéaire

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Extraction d informations stratégiques par Analyse en Composantes Principales

1 Complément sur la projection du nuage des individus

CULTURE GÉNÉRALE Histoire de l Art (RC) Philosophie (FB)

Statistiques Descriptives à une dimension

Analyse de la variance Comparaison de plusieurs moyennes

Initiation à l analyse en composantes principales

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

REVUE DE STATISTIQUE APPLIQUÉE

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Créer et modifier un fichier d'importation SAU avec Excel

ACP Voitures 1- Méthode

Nombre dérivé et tangente

L'analyse des données à l usage des non mathématiciens

23. Interprétation clinique des mesures de l effet traitement

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

L axe 5 du Cancéropole Nord Ouest

Avant-après, amont-aval : les couples de tableaux totalement appariés

Analyse des correspondances avec colonne de référence

Cours d analyse numérique SMI-S4

Introduction. Préambule. Le contexte

Chp. 4. Minimisation d une fonction d une variable

CCP PSI Mathématiques 1 : un corrigé

Individus et informations supplémentaires

Continuité et dérivabilité d une fonction

SERIE 1 Statistique descriptive - Graphiques

Cours 9 : Plans à plusieurs facteurs

CAHIER DES CLAUSES TECHNIQUES PARTICULIERES (CCTP)

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Objectif. Cette formation doit permettre au client d être autonome dans la création de ses rapports avancés en utilisant la fonctionnalité Excel +.

Résolution d équations non linéaires

Initiation à LabView : Les exemples d applications :

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

L exclusion mutuelle distribuée

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Polynômes à plusieurs variables. Résultant

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Plus courts chemins, programmation dynamique

Arrêté Royal du 7 juillet 1994 fixant les normes de base en matière de prévention contre l incendie et l explosion : Notice explicative

Qu est-ce qu une probabilité?

La protection sociale en France

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Performance et simplicité. Logiciel de diagnostic Sleepware G3

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

NOMBRES COMPLEXES. Exercice 1 :

Bases de données documentaires et distribuées Cours NFE04

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Optimisation Discrète

L analyse des données par les graphes de similitude

Université du Québec à Chicoutimi. Département d informatique et de mathématique. Plan de cours. Titre : Élément de programmation.

Bureaux régionaux de la CSST

Troubles de la vigilance au travail. Tests d aide à la décision d aptitude et structures de dépistage du syndrome d apnées du sommeil à Grenoble

Spectrophotomètre double faisceau modèle 6800

... /5. Bases de Données I (J. Wijsen) 23 janvier 2009 NOM + PRENOM : Orientation + Année : Cet examen contient 11 questions.

Application cobas IT 1000 Gestion des données de Point-of-Care

Centre Social de REVEL (31) C.C.A.S 500 m2. Journée de sensibilisation à la géothermie en Midi Pyrénées

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Aide - mémoire gnuplot 4.0

Evaluation de critères res de substitution de la survie globale dans les cancers bronchiques localement avancés

Enoncé et corrigé du brevet des collèges dans les académies d Aix- Marseille, Montpellier, Nice Corse et Toulouse en Énoncé.

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Estimation et tests statistiques, TD 5. Solutions

Théorie et codage de l information

Couples de variables aléatoires discrètes

1S Modèles de rédaction Enoncés

Traitement de l hépatite C: données récentes

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Caractéristiques des ondes

OBSAqim médias. Fréquence d utilisation, intérêt et qualité perçus par les médecins des différents canaux d information sur les médicaments

Biostatistiques : Petits effectifs

Renseignements relatifs aux baux de location pour

PROFIL DE POSTE PRATICIEN ANATOMIE ET CYTOLOGIE PATHOLOGIQUES

Période de recensement Répartition par âge des cas. Hôpital test <100 lits. Hôpital test 100 à 499 lits. Hôpital test >= 500 lits

TSTI 2D CH X : Exemples de lois à densité 1

Annexe A. Annexe A. Tableaux et données relatifs à la vérification par Eurocode 3 A.3

Prix communication jeunes chercheurs JFR 2010

VILLE DE VILLEURBANNE CONSEIL MUNICIPAL 5 JUILLET ooo-

Programmation Linéaire - Cours 1

FACTURATION. Menu. Fonctionnement. Allez dans le menu «Gestion» puis «Facturation» 1 Descriptif du dossier (onglet Facturation)

INSTALLATION DE CEGID BUSINESS VERSION 2008 Edition 4 (CD-Rom du 16/07/2009) SUR UN POSTE AUTONOME SOMMAIRE

Créer et modifier un fichier d'import des coordonnées approximatives avec Excel

Service des ressources informatiques - Conseil Scolaire de District Catholique Centre-Sud Page 1

Transcription:

Séance 4: Analyse Factorielle des Correspondances Multiples Révisions Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat

Quatrième partie IV Analyse Factorielle des Correspondances Multiples

Tableau disjonctif complet Généralisation de l AFC pour p > 2 observées sur n individus Parfois utilisée pour la construction de scores afin d effectuer une méthode de classification X variable à c modalités, on définit la variable indicatrice comme k {1... c} X (k) (i) = 1 si X(i) = X k et 0 sinon On note n k l effectif de X k La matrice des indicatrices de X est donnée par son terme général x k i = X (k) (i) n xi k =... i=1 c xi k =... k=1

Tableau disjonctif complet On considère p variables notées X 1,... X p c j est le nombre de modalités de X j Le nombre de modalités total c est donné par c =... Le tableau disjonctif complet X de taille n c est obtenue par concaténation X = X 1... X p Chaque sous-matrice X j est obtenue comme précédemment X vérifie n i=1 k=1 p xi k =... p xi k =... k=1

Tableau de Burt On construit à partir de X le tableau de Burt : B = X X B a pour taille c c On peut écrire B = (B j,l ), j, l = 1... p La taille de B j,l est c j c l B j,l = X jx l Si j l, B j,l est la table de contingence croisant X j avec X l Si j = l, B j,j est diagonale vérifiant B j,j = diag(n j 1,... nj c j ) B est symétrique, d effectifs marginaux n l jp et d effectif total np2

Démarche On s intéresse aux résultats fournis par l AFC réalisée sur X 1 X 2 (table de contingence relative à 2 variables qualitatives) On généralise les propriétés obtenues dans ce cas à un nombre plus important de variables (p) On définit ainsi l AFCM

Démarche T = X = X 1 X 2 r valeurs pour X 1 et c pour X 2 Matrice des poids P = 1/nI n (cas équipondéré) La matrice de la métrique D est donnée par D = 1 ( ) D1 0 = 1 2 0 D 2 2 Le tableau des profils lignes est donné par PL = 1 2 X Le tableau des profils colonnes est donné par PC = 1 n X 1

ACP du Profil Ligne L ACP du profil ligne issue de l AFC réalisée sur ( T conduit ) à l analyse spectrale de PL PC avec PL PC Ir B = A I c Les r + c valeurs propres sont µ k = 1 + λ k où Sp( Pl Pc) = (λ k ) k 0 M = diag(µ 1,... µ r+c ) 2 Les vecteurs D normés se mettent sous la forme [ 1 U 2 V] où U et V vecteurs propres obtenus en diagonalisant AB et BA. Dans la pratique, on ne garde que inf(r 1, c 1) axes La matrice des composantes principales vaut C r = 1 2 (X 1C r + X 2 C c ) 1/2 C r et C c composantes principales de l AFC classique

ACP du Profil Colonne On obtient des résultats similaires en opérant une AFC sur les profils colonnes On diagonalise la matrice PC PL Les r + c valeurs propres non nulles sont les µ k Les vecteurs propres associés se mettent sous la forme U = 1 n C r M 1/2 Les composantes principales s écrit C c = 1 2 [ Cr C c ] 1/2 M 1/2 On obtient ainsi la représentation des modalités des variables

AFC du tableau de Burt L ACP issue de l AFC du tableau de Burt conduit à l analyse spectrale de PL PC = [ PL PC] 2 Les valeurs propres associées vérifient ν k = µ 2 k Les composantes principales s écrit [ ] Cr 1/2 M C c

AFC du tableau de Burt X = X 1... X p tableau disjonctif complet B = X X Tableau de Burt L AFCM est l AFC effectuée sur le tableau de Burt On définit D j = diag(n j 1,... nj c j )/n et = diag(d 1,... D p ) On reprend les notations T = X P = I n /n D = /p PL = X /p PC = X 1 /n On effectue l ACP des Profils Lignes via l analyse spectrale de PL PC = 1 n B 1 On effectue l ACP des Profils Colonnes via l analyse spectrale de PC PL = 1 np X 1 X On effectue l ACP du tableau de Burt via l analyse spectrale de [ PL PC] 2

L interprétation se fait de façon comparable aux AFC On interprète les proximités et les oppositions entre les modalités des différentes variables On privilégie les interprétations sur les modalités suffisamment éloignées du centre du graphique Les rapports de valeurs propres ne sont pas interprétables mais on regarde la décroissance des valeurs propres pour choisir la dimension Seules les contributions des modalités à l inertie selon les axes sont interprétables

Données : trois centres hospitaliers (Boston, Glamorgan, Tokyo) sur des patientes atteintes d un cancer du sein. Étudier la survie de ces patientes, trois ans après le diagnostic. En plus de cette information, quatre autres variables sont connues pour chacune des patientes : le centre de diagnostic, la tranche d âge, le degré d inflammation chronique, l apparence relative (bénigne ou maligne). L objectif de cette étude est une analyse descriptive de cette table en recherchant à mettre en évidence les facteurs de décès.

Données TAB.: Données sous la forme d une table de contingence complète Histologie Inflammation minime Grande inflammation Centre Âge Survie Maligne Bénigne Maligne Bénigne Tokyo < 50 non 9 7 4 3 oui 26 68 25 9 50 69 non 9 9 11 2 oui 20 46 18 5 > 70 non 2 3 1 0 oui 1 6 5 1 Boston < 50 non 6 7 6 0 oui 11 24 4 0 50 69 non 8 20 3 2 oui 18 58 10 3 > 70 non 9 18 3 0 oui 15 26 1 1 Glamorgan < 50 non 16 7 3 0 oui 16 20 8 1 50 69 non 14 12 3 0 oui 27 39 10 4 > 70 non 3 7 3 0 oui 12 11 4 1

Résultats 1. 0 A > 7 0 0. 9 0. 8 0. 7 0. 6 0. 5 0. 4 A 0. 3 C b o s x e 0. 2 0. 1 2 0. 0-0. 1-0. 2-0. 3-0. 4-0. 5-0. 6-0. 7 T b e n I p e t S n o n A > - < C g l a S o u i T m a l A < 5 0 A x e 1 C t o k I g r a - 1 0 1 2 FIG.: Cancer du sein : analyse des données brutes. La variable survie, qui joue en quelques sortes le rôle de variable à expliquer, est très proche de l axe 2 et semble liée à chacune des autres variables.

Résultats Les variables centre et âge sont croisées, pour construire une variable c x âge, à 9 modalités. Les variables inflam et appar sont également croisées pour définir la variable histol, à 4 modalités. Une nouvelle analyse est alors réalisée en considérant comme actives les deux variables nouvellement créées, ainsi que la variable survie, et comme illustratives les variables initiales : centre, âge, inflam, appar. Les résultats sont donnés dans la figure suivante.

Résultats 2 A x e 2 1 0-1 H g - b X T H> g7- m I g r a X T > - C t o k T m a l X G < 5 X G > 7 X T < 5 A < 5 0 C g l ah ps -n mo n S o u ia > - < X G X> B -< 5 I p e t A > 7 0 T b e n H p - b C b o s X B > - X B > 7-2 - 2-1 0 1 2 A x e 1 FIG.: Cancer du sein : analyse des interactions.