Tableaux Croisés et Diagrammes en Mosaïque : Pour Voir Les Probabilités Marginales et Conditionnelles.



Documents pareils
Statistique descriptive bidimensionnelle

Initiation à l analyse factorielle des correspondances

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

SÉRIES STATISTIQUES À DEUX VARIABLES

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

55 - EXEMPLES D UTILISATION DU TABLEUR.

Séquence 5. La fonction logarithme népérien. Sommaire

Chap. 5 : Les intérêts (Les calculs financiers)

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

Dénombrement. Chapitre Enoncés des exercices

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

c. Calcul pour une évolution d une proportion entre deux années non consécutives

2 ième partie : MATHÉMATIQUES FINANCIÈRES

Limites des Suites numériques

STATISTIQUE : TESTS D HYPOTHESES

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Principes et Méthodes Statistiques

20. Algorithmique & Mathématiques

Université Pierre et Marie Curie. Biostatistique PACES - UE

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Comment les Canadiens classent-ils leur système de soins de santé?

Gérer les applications

Chapitre 3 : Fonctions d une variable réelle (1)

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

1 Mesure et intégrale

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

Le Sphinx. Enquêtes, Sondages. Analyse de données. Internet :

Statistique Numérique et Analyse des Données

Compte Sélect Banque Manuvie Guide du débutant

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Module 3 : Inversion de matrices

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Divorce et séparation

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

Échantillonnage et estimation

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

Les Nombres Parfaits.

Donnez de la liberté à vos données. BiBOARD.

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Cours 5 : ESTIMATION PONCTUELLE

EXERCICES : DÉNOMBREMENT

Neolane Leads. Neolane v6.0

La maladie rénale chronique

Probabilités et statistique pour le CAPES

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Guide du suivi et de l évaluation axés sur les résultats P ROGRAMME DES NATIONS UNIES POUR LE DÉVELOPPEMENT B U R E AU DE L É VA L UATION

Chapitre 3 : Transistor bipolaire à jonction

STATISTIQUE AVANCÉE : MÉTHODES

Processus géométrique généralisé et applications en fiabilité

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

Comportement d'une suite

COMMENT ÇA MARCHE GUIDE DE L ENSEIGNANT 9 E ANNÉE

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

Simulations interactives de convertisseurs en électronique de puissance

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

MUTUELLE D&O MUTUELLE D&O. Copilote de votre santé. AGECFA-Voyageurs CARCEPT CARCEPT-Prévoyance CRC CRIS CRPB-AFB

Sommaire Chapitre 1 - L interface de Windows 7 9

LE WMS EXPERT DE LA SUPPLY CHAIN DE DÉTAIL

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO

Nous imprimons ce que vous aimez!

Le Management Interculturel : Esquisse d un concept paradigmatique actuel

Une action! Un message!

Dominique Tapsoba, Vincent Fortin, François Anctil et Mario Haché

RÈGLES ORDINALES : UNE GÉNÉRALISATION DES RÈGLES D'ASSOCIATION

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Le chef d entreprise développe les services funéraires de l entreprise, en

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

Etude de la fonction ζ de Riemann

La Journée de l Innovation Collaborative

Séries réelles ou complexes

Cours de Statistiques inférentielles

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

14 Chapitre 14. Théorème du point fixe

RECHERCHE DE CLIENTS simplifiée

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Neolane Message Center. Neolane v6.0

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Terminale S. Terminale S 1 F. Laroche

CHAPITRE 2 SÉRIES ENTIÈRES

Microscope de mesure sans contact pour inspection et mesures de précision

LA NOUVELLE IDENTITÉ DE L AGESSS SE DÉVOILE!

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

4 Approximation des fonctions

Rêver, y croire, réussir! Un guide de planification d'études supérieures pour les apprenants de l anglais et leurs familles

Transcription:

Tableaux Croisés et Diagrammes e Mosaïque : Pour Voir Les Probabilités Margiales et Coditioelles. Moique Le Gue CNRS- MATISSE 1 Résumé Cet article s iscrit das ue démarche de sesibilisatio aux différetes facettes de la Statistique. La visualisatio de l iformatio par des méthodes graphiques lorsqu elle s appuie sur les Nouvelles Techologies de l Iformatio et de la Commuicatio, apparaît comme ue voie prometteuse vers ue meilleure compréhesio des cocepts abstraits de la Statistique. Notre propos est axé sur l aspect visuel des tableaux croisés représetés par des diagrammes e mosaïque. Après avoir replacé les graphiques e Statistique, ous présetos sur u exemple les tableaux croisés à double etrée. Cet exemple ous permet d itroduire le vocabulaire et les différets élémets statistiques, effectifs, probabilités margiales, probabilités coditioelles, repérables sur u tableau croisé. Nous motros l apport selo les situatios, des représetatios visuelles offertes par les diagrammes e barres, les diagrammes e bades et les diagrammes e mosaïque. Nous termios sur les prologemets e cours de développemet autour des diagrammes e mosaïque, et les logiciels iteractifs. Les référeces citées e fi d article doet des lies iteret, vers des articles et des logiciels accessibles e lige. Mots Clés Visualisatio, NTIC, tableaux croisés, probabilités margiales, probabilités coditioelles, diagrammes e barres, diagrammes e bades, diagrammes e mosaïque. Sommaire INTRODUCTION... 2 1. LA PLACE DES GRAPHIQUES EN STATISTIQUE... 2 2. LES TABLEAUX CROISÉS À DOUBLE ENTRÉE... 5 3. LES STATISTIQUES D UN TABLEAU CROISÉ... 7 3.1 Les Notatios... 7 3.2 Probabilités Margiales - Distributios Margiales... 8 3.3 Probabilités Coditioelles - Distributios Coditioelles... 8 3.4 Dépedace-Idépedace... 9 4. REPRÉSENTATIONS GRAPHIQUES... 11 4.1 Les Diagrammes e Barres (Bar Chart)... 11 4.2 Les Diagrammes e Bades... 12 4.3 Les Diagrammes e Mosaïque (Mosaic Plot)... 12 5. PROLONGEMENTS DES DIAGRAMMES EN MOSAÏQUE... 16 5.1 Représetatio e surface des résidus stadardisés... 16 5.2 Représetatio e surface des écarts à l Idépedace... 17 CONCLUSION... 18 RÉFÉRENCES... 19 1 MATISSE-CNRS UMR8595, Maiso des Scieces Ecoomiques, 106-112 Boulevard de l Hôpital, 75013 Paris. TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 1/20

Itroductio Cet article s iscrit das ue démarche de sesibilisatio aux différetes facettes de la Statistique. La visualisatio de l iformatio par des méthodes graphiques lorsqu elle s appuie sur les Nouvelles Techologies de l Iformatio et de la Commuicatio, apparaît comme ue voie prometteuse vers ue meilleure compréhesio des cocepts abstraits de la Statistique. L iteractivité etre l homme et la machie, tout comme l iteractivité etre les graphiques, apportet ue aide certaie à l appreat. Des gais e efficacité sot attedus. Ce domaie des NTIC est u champ de recherche très jeue, doc e grade évolutio. Les réalisatios appliquées à l éducatif sot très récetes. Tout est à iveter, à cocevoir et à réaliser. Quelques équipes uiversitaires américaies, aglaises, australiees, allemades sot e avace das ce domaie. Eseiger la Statistique et la méthodologie d Aalyse de Doées au iveau théorique comme au iveau pratique, est u véritable défi qui mobilise la commuauté des statisticies au iveau iteratioal. Les travaux de HARTIGAN, KLEINER, FRIENDLY, UNWIN, HOFFMAN et bie d autres, sur les représetatios graphiques des variables catégorielles, apportet u ouveau regard et de ouvelles facilités. Ce documet est axé sur l aspect visuel des tableaux croisés représetés par des diagrammes e mosaïque. Après avoir replacé les graphiques e Statistique au chapitre 1, ous présetos au chapitre 2, les tableaux croisés à double etrée, à partir d u exemple. Cet exemple ous permet d itroduire au chapitre 3 les différetes statistiques repérables sur u tableau croisé. Au chapitre 4, ous motros selo les situatios, l apport des représetatios visuelles offertes par les diagrammes e barres, les diagrammes e bades et les diagrammes e mosaïque. Nous termios sur les prologemets e cours de développemet autour des diagrammes e mosaïque, et les logiciels iteractifs. Les référeces citées e fi d article doet des lies iteret, vers des articles et des logiciels accessibles e lige. 1. La Place des Graphiques e Statistique E Mathématique le lie etre l algèbre et la géométrie est apparu qu au XVII ème siècle avec Descartes (1596-1650), iveteur des graphiques cartésies. Das le domaie de la Statistique il fallut attedre l écoomiste écossais WILLIAM PLAYFAIR (1759-1823) qui eut l idée d allier la statistique quatitative à ue représetatio visuelle de l iformatio. Il est l iveteur des diagrammes e barres (Bar Chart) et des diagrammes e secteurs (Pie Chart). Il est égalemet le cocepteur et le réalisateur «mauel» de beaux graphiques esthétiques comme le motre le graphique 1 paru e 1821. WAINER (1997) a republié ce graphique das so ouvrage «Visual Revelatio». Il est égalemet accessible par Iteret 2. 2 Graphique de WILLIAM PLAYFAIR «Chart Shewig at Oce View, The price of the quarter of Wheat, & Wages of Labour by the week, from the year 1565 to 1821» U.R.L : http://www.wmich.edu/ssc/about.html TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 2/20

Ce graphique rassemble trois sources d iformatio (variables) qui permettet des aalyses cojoites. L histogramme du haut schématise les salaires hebdomadaires et la courbe iférieure, le prix du blé, sur ue période de 260 aées. E haut du graphique sot metioés les siècles et les périodes de règes, des reies et des rois britaiques. O y voit l ébauche d ue aalyse de séries chroologiques avec la recherche d ue relatio de corrélatio. Graphique 1 : Ce graphique réalisé e 1821 par WILLIAM PLAYFAIR «Chart Shewig at Oce View, The price of the quarter of Wheat, & Wages of Labour by the week, from the year 1565 to 1821», motre la relatio etre les salaires hebdomadaires (histogramme du haut) et le prix du blé (courbe iférieure) sur ue période de 260 aées. E haut du graphique sot metioés les siècles et les périodes de règes, des Reies et des Rois britaiques. Les graphiques portat sur l iformatio quatitative sot de os jours largemet utilisés aussi bie das la phase d aalyse des doées que das celle de commuicatio. VALOIS J. P. das deux articles récets, Approche Graphique e Aalyse de Doées (2000), et Ue Typologie des Graphiques Statistiques (1999), propose ue typologie de classemet. A l opposé les graphiques portat sur l iformatio qualitative sot peu diversifiés, peu cous, et doc peu utilisés. Cepedat par le biais des ouveaux moyes de productio automatique, des recherches iovates s itesifiet et leur diffusio s accélère grâce à l accès à Iteret. Depuis 20 as, des oms poétiques: comme les Spie Plot, Mosaïc Plot, Sieve Diagram 3, Fourfold Displays, sot apparus das la littérature aglo-saxoe qui traite des doées catégorielles (Categorical Data). L article e lige de FRIENDLY Visualizig Categorical Data: Data, Stories, ad Pictures, e dresse ue rétrospective 4. 2 Les graphiques visualisat les cotributios sigificatives à la statistique du χ das u tableau croisé ot débuté das les aées 70 avec les travaux de SNEE R. (1974). E 1981 HARTIGAN & KLEINER proposèret les diagrammes e mosaïques, qui sot des représetatios e surface de tableaux croisés à 2 etrées. 3 Friedly M. (1992) Graphical Methods for Categorical Data, SAS SUGI 17 Coferece, Avril,1992. http://www.math.yorku.ca/scs/sugi/sugi17-paper.html 4 Friedly M. Visualizig Categorical Data: Data, Stories, ad Pictures, http://www.math.yorku.ca/scs/vcd/vcdstory.pdf TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 3/20

Ces diagrammes furet esuite développés et étedus aux tableaux à -etrées par FRIENDLY M. (1994, 1995), psychologue et statisticie de l Uiversité de Toroto (Caada). Il écrivit plusieurs macros e SAS, qui sot dispoibles sur so site Iteret. UNWIN A. & HOFMANN H. iformaticies et statisticies de l Uiversité de Augsburg (Allemage) ot prologé ces recherches e développat le logiciel MANET destié au traitemet visuel et iteractif des variables catégorielles. Les diagrammes e mosaïque sot peu répadus. Ils sot adaptés à la lecture des tableaux croisés. Leur lecture est pas triviale, elle écessite u appretissage. La gééralisatio proposée par FRIENDLY permet de faire le lie avec les modèles Log-liéaires, la régressio logistique, et même l Aalyse des Correspodaces. Aussi ous proposos das cet article, ue prise de coaissace de ces otios qui devraiet coduire le praticie à ue meilleure compréhesio des modèles log-liéaires. Traditioellemet l aalyse des tableaux croisés depuis PEARSON repose sur la statistique du 2 2 χ. Le χ doe u diagostic global sur la situatio de dépedace/idépedace etre les 2 2 variables. Lorsque le χ est sigificatif, l aalyste de doées souhaite coaître quelles sot les liges ou les coloes qui sot resposables des associatios. O peut faire u parallèle etre la statistique du pour les tableaux croisés, et la statistique F de Fisher-Sedecor e Aalyse de variace. Le χ 2 tout comme le F e reseiget pas sur les sous groupes resposables des différeces. L aalyste de doées doit esuite s itéresser aux comparaisos 2 à 2. Pour les doées catégorielles, les diagrammes e mosaïque vot faciliter ces comparaisos. 2 χ TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 4/20

2. Les Tableaux Croisés à Double Etrée Soit u échatillo 5 de 124 élèves. O relève pour chaque élève la couleur des yeux et la couleur des cheveux, (variables YEUX et CHEVEUX). Le tableau de cotigece cf. tableau 1, aussi appelé tableau croisé, repartit l effectif total (124) selo les croisemets 2 à 2 des modalités des 2 variables. Ce tableau permet de préseter le vocabulaire : modalités, effectifs margiaux, lige et coloe margiales, pourcetages et probabilités, distributios margiales, distributios coditioelles. Modalités Les etêtes de lige sot les modalités (BLEU, MARRON, VERT) de la variable YEUX, les etêtes de coloes sot les modalités (BLOND, BRUN, NOIR, ROUX) de la variable CHEVEUX. Elémets margiaux La lige Total et la coloe Total doet les effectifs margiaux. La lige margiale doe la distributio (tri à plat) de la variable CHEVEUX sas distictio de la couleur des yeux. La coloe margiale doe la distributio (tri à plat) de la variable YEUX sas distictio de la couleur des cheveux. Tableau 1 : Tableau de cotigece : croise la couleur des yeux avec la couleur des cheveux. Note : Les tableaux statistiques sot produits par la procédure FREQ du logiciel SAS. Le terme Frequecy e aglais sigifie effectif, tadis que le terme fréquece e fraçais, fait référece à ue fréquece relative c est à dire u pourcetage. Cette homoymie est ue source de cofusio lorsque l o passe d u cours de statistique (ouvrage) e fraçais, à u logiciel aglo-saxo. E examiat le tableau croisé ci-dessus, o remarque que la distributio des blods selo les modalités des yeux est différete de la distributio des roux. Il y a des poits d accumulatio (attractios) ou des vides (répulsios) à des edroits différets. Les cheveux blods et les yeux bleus sot souvet associés (25), comme le sot les cheveux brus (17) et les yeux marros (13). La comparaiso à partir de effectifs 'est pas adaptée lorsque les marges sot très différetes. 5 Source des doées : SCHWARTZ D., (1963), «Méthodes statistiques à l usage des médecis et des biologistes», Flammario, p79. TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 5/20

Aisi, e terme d effectif, les cheveux ROUX sot distribués presque idetiquemet parmi les yeux BLEU, MARRON et VERT. Mais si o calcule les pourcetages (7/44, 5/33, 7/47), la distributio est plus idetique. Règle: Pour redre les profils de lige homogèes, o compare les pourcetages, e teat compte des marges. Pourcetages et Probabilités A partir des effectifs e marge du tableau croisé o calcule les pourcetages e liges et e coloes. O fait de même pour les distributios margiales. Si l échatillo est représetatif les pourcetages observés sot des estimatios des probabilités 6. Distributio margiale des liges Tableau 2 : Tableau statistique doat les effectifs et les pourcetages Das chaque cellule du tableau o repère 4 liges : La 1 ère lige doe l effectif, La 2 ème lige doe le pourcetage par rapport à l effectif total La 3 ème lige doe le pourcetage e lige La 4 ème lige doe le pourcetage, e coloe Si les profils, c est à dire les pourcetages e liges ou e coloes diffèret, o parle alors d ue associatio etre modalités des liges et modalités des coloes, ou d ue dépedace etre la variable lige et la variable coloe du tableau. Distributios margiales Parmi les 124 élèves du tableau 2, le pourcetage de BLOND est de 36.29% (distributio margiale des coloes). La probabilité d être BLOND est de 0.3629. Le pourcetage des yeux BLEU est de 35.48 % (distributio margiale des liges). La probabilité d avoir les yeux BLEU parmi les élèves est de 0.3548. La suite de ces probabilités défiisset la distributio margiale des coloes, et la distributio margiale des liges. 6 Pour passer de la probabilité estimée sur l échatillo à la probabilité au iveau de la populatio il faudrait adjoidre u itervalle de cofiace. Mais ce est pas otre propos pour l istat. TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 6/20

Distributios coditioelles O s itéresse maiteat à ue strate i des élèves. Par exemple, soit la strate (c est ue souspopulatio) des élèves aux yeux BLEU. Qu elle est la probabilité qu u élève aux yeux bleus pris au hasard soit BLOND? Le tableau 2 doe la répose. Parmi les élèves aux yeux BLEU, 56.82 % ot les cheveux BLOND (cf. pourcetage e lige). C est ue probabilité coditioelle (0.5682). O utilise l expressio «probabilité de la modalité j sachat la modalité i). De maière symétrique, o peut s itéresser à ue strate j des élèves, par exemple celle qui a les cheveux BLOND. La probabilité qu u élève aux cheveux blods pris au hasard, ait les yeux Bleus est de 0.5556 (cf. pourcetage e coloe). Il y a autat de distributios coditioelles que de modalités de la variable de coditioemet. Aisi pour la variable YEUX il y a 3 distributios coditioelles et 4 pour la variable CHEVEUX. Remarque : Selo NOVI (1998), le passage des pourcetages au probabilité, e peut se faire que si o se place du côté de l observateur et o pas du côté de l élève. Ce est pas ue probabilité idividuelle, c est à dire attachée à u élève e particulier, mais ue probabilité collective. E pratique cette précautio d usage est souvet oubliée. Pour plus de détails ous recommados la lecture du QSJ de NOVI «Pourcetages et tableaux Statistiques». C est u ouvrage idispesable à qui veut compredre la base des techiques appropriées aux doées catégorielles. 3. Les Statistiques d u Tableau Croisé 3.1 Les Notatios Afi de faciliter la compréhesio des calculs et des statistiques élaborés sur u tableau croisé, ue covetio das la otatio s est istaurée au iveau iteratioal. Elle est résumée das le Tableau 3 ci-dessous. X Blod 1 Bru 2 j Total Y 1- Bleu 1+ 2- Marro 2+ i Total i+ + j + j + + Tableau 3 : Notatios utilisées das les tableaux de cotigece TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 7/20

O désige par : i : idice du de lige (i varie de 1 à I modalités e lige ) j : idice de de coloe (j varie de 1 à J modalités e coloe) : effectif de la cellule (i,j) i+ : effectif margial de la lige i défiit par i, + j + j : effectif margial de la coloe j défiit par + j i : Total global du tableau i j O otera que das u tableau croisé, costitué à partir de doées issues d u échatillo représetatif, les variables X et Y jouet le même rôle. Il e serait pas de même si o s itéressait à des doées d equêtes prospectives ou rétrospectives. Das ces deux cas le ses de lecture du tableau importerait. 3.2 Probabilités Margiales - Distributios Margiales Gééralisos sous forme symbolique. Si X désige la variable aléatoire e coloe et probabilité margiale de X se ote : Pr ( X x i ) x i p i la modalité de rag i de cette variable, la i+ Si Y désige la variable aléatoire e lige et probabilité margiale de Y se ote : Pr ( Y y j ) y j p la modalité de rag j de cette variable, la Par commodité, les modalités de rag i, respectivemet j serot otées par la suite modalité i, respectivemet modalité j. La suite des probabilités margiales e liges (respectivemet e coloes) défiisset la distributio margiale e liges (respectivemet e coloes). j 3.3 Probabilités Coditioelles - Distributios Coditioelles Les probabilités coditioelles d ue modalité i de la 1 ère variable sachat ue modalité j de la 2 ème variable ( et respectivemet ue modalité j de la 2 ème variable sachat ue modalité i de la 1 ère variable) se otet : Pr ( i j) pi! j et + j + j Pr ( j i) p j! i Ces probabilités serot utilisées pour costruire les diagrammes e mosaïques. i+ TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 8/20

3.4 Dépedace-Idépedace Itroduisos maiteat les otios d associatio, de liaiso ou de dépedace/idépedace etre 2 variables. Ces otios portet sur le même cocept statistique : les probabilités coditioelles sot-elles idetiques? Situatio d idépedace Si la variable X (couleur des cheveux) est idépedate de la variable Y (couleur des yeux) alors la probabilité d avoir à la fois la couleur x des yeux et la couleur y des cheveux e déped que du produit des probabilités margiales. Probabilité sous idépedace : i j Pr( X x p Y p * p i i j y j i+ ) Pr( X * + j x ) * Pr( Y i y j ) Cette situatio correspod à des probabilités coditioelles qui seraiet égales quelque soit la strate, c est à dire des profils (pourcetages e lige) idetiques. Das ce cas o dit qu il y a pas d associatio etre la variable X et la variable Y. L effectif théorique ou effectif attedu, d ue cellule, sous l hypothèse d idépedace s obtiet e multipliat cette probabilité par l effectif total, cf. Tableau 4. Effectif Théorique i + * + j formule 1 Exemple : L effectif théorique, d avoir les yeux BLEU et les cheveux BLOND sous l hypothèse d idépedace, est doé par le produit des effectifs des marges (44 et 45) divisé par l effectif total (124). Effectif Théorique m 45* 44 124 15.968 Tableau 4 : Effectifs observés (Frequecy) et effectifs théoriques (Expected) TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 9/20

FRIENDLY présete l effectif théorique de la cellule (i,j), comme u effectif issu d u modèle, ici le modèle d idépedace, et il le ote. m L écart etre l effectif observé (25) et l effectif modélisé m (16 ) est u résidu. Résidu : r m ) ( O calcule le résidu stadardisé de Pearso 2 la Statistique du χ. 2 χ ( d ( ( m ) qui correspod à la cotributio à m _( i+ PEARSON a démotré que l o peut rejeter l hypothèse d idépedace si d 2 avec u iveau de sigificativité p < 0.05. Ces résidus stadardisés peuvet être représetés sur des diagrammes e mosaïques, qui permettrot de visualiser les écarts à l idépedace. Situatio de dépedace Si les deux variables sot e situatio de dépedace, la probabilité das ue cellule est égale au produit de la probabilité margiale et de la probabilité coditioelle. i+ * * + j + j / / ) )) 2 ou Pr( X Y ) Pr( X ) * Pr( Y / X ) Pr( X Y ) Pr( Y ) * Pr( X / Y ) Preos u exemple à partir des doées du tableau 2 repris ci-dessous. 35.48 36.29 Das le cellule correspod aux yeux BLEU et cheveux BLOND il y a 25 élèves qui représetet 20.16% de l effectif total. TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 10/20

X BLEU et Y BLOND Pr(BLEU et BLOND)0.3548*0.56820.2016 Pr(BLOND et BLEU)0.3629*0.55560.2016 Par costructio, o trouve le même pourcetage 20.16% et le même effectif (124*0.2016) soit 25 élèves. E résumé : Parler d hypothèse d idépedace e statistique est formellemet la même chose que de dire : les probabilités coditioelles, de la couleur des cheveux sot les mêmes pour toutes les modalités (strates) de la couleur des yeux et réciproquemet. 4. Représetatios Graphiques 4.1 Les Diagrammes e Barres (Bar Chart) Le diagramme e barres ou diagramme e bâtos, est aux variables omiales ce que l histogramme est aux variables quatitatives. Das u diagramme e barres la largeur de chaque barre est fixe, la hauteur de chaque barre correspod à l effectif de chaque modalité. Traditioellemet les barres sot disjoites pour idiquer l absece de cotiuité etre les modalités (catégories), mais das le module SAS/INSIGHT 7 utilisé celles-ci sot accolées. Les diagrammes e barres permettet de comparer visuellemet les effectifs de chaque modalité d ue variable, e associat la hauteur des barres aux effectifs. Figure 1 : Diagrammes e Barres des variables Yeux et Cheveux. 7 Les graphiques ot été réalisés avec le module SAS/INSIGHT du logiciel SAS. Selo les logiciels les représetatios les barres de ces diagrammes sot disjoites ou accolées. La première solutio est la plus ratioelle. A l écra, les barres apparaisset e couleur. Les couleurs sot imposées par le logiciel SAS et elles e peuvet être modifiées. L ordoacemet des modalités sur l axe est doé par leur ordre alpha-umérique. Les barres e peuvet pas être déplacées au moye de la souris. Toutes ces limitatios fot de ces diagrammes produits par SAS/INSIGHT u moye rudimetaire, mais ils restet d ue grade utilité grâce à l iteractivité etre les graphiques. Nous le motreros sur u exemple, das u autre article. TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 11/20

4.2 Les Diagrammes e Bades Das la figure 2, les mêmes distributios margiales, des Yeux et des Cheveux, exprimées e % sot visualisées sous forme de diagrammes e bades, appelés Spie Plots das la littérature aglo-saxoe. Das SAS/INSIGHT ce sot des diagrammes e mosaïque à 1 dimesio. Figure 2 : Diagrammes e bades des variables Yeux et Cheveux. Chaque bade verticale représete 100% de l échatillo, et chaque mosaïque est proportioelle au pourcetage de la modalité das l échatillo. U diagramme e mosaïque à ue dimesio est ue représetatio de la distributio margiale du tableau croisé. Par costructio les hauteurs des mosaïques sot égalemet proportioelles aux effectifs. Das cette forme de représetatio, les comparaisos visuelles sot difficiles à faire. La discrimiatio etre 31.5 et 36.3 e saute pas aux yeux, alors qu elle serait évidete si o plaçait les 2 mosaïques côte à côte sur la même base horizotale, comme pour les diagrammes e barres. Nous avos présetés les diagrammes e bades car ils vot être utiles pour compredre la costructio des diagrammes e mosaïque à 2 dimesios. 4.3 Les Diagrammes e Mosaïque (Mosaic Plot) U diagramme e mosaïque à 2 dimesios est ue visualisatio d u tableau de cotigece. Le graphique symbolise, les effectifs d u tableau de cotigece, par des mosaïques, dot la surface est proportioelle aux effectifs des cellules du tableau, voir figure 3 : Diagrammes e mosaïque du tableau croisé. La costructio et la lecture de ce diagramme e sot pas triviales, elles hésitet u appretissage. TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 12/20

Figure 3 : Diagrammes e mosaïque du tableau croisé. Costructio d u diagramme e mosaïque. Pour costruire ce graphique partos, pour fixer les esprits d u carré de taille 100*100. Sur l axe horizotal la distributio margiale de la variable CHEVEUX est utilisée pour détermier les largeurs des mosaïques, voir figure 3. + j La largeur de chaque bade est doc proportioelle à p + Pour chaque modalité de la variable CHEVEUX, o répartit les modalités de la variable YEUX selo les probabilités coditioelles. j La hauteur das chaque bade est doc proportioelle à p i! j + j La surface d ue mosaïque, produit de la largeur par la hauteur représete bie la fréquece relative observée par rapport à l effectif total :. p + j * + j La surface d ue mosaïque est proportioelle à l effectif observé das la cellule d u tableau croisé. Cette représetatio e surface motre o seulemet l effectif mais la maière dot il se compose e terme de produit. TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 13/20

4 distributios coditioelles e coloes Figure 4 : Diagramme e mosaïque du tableau croisé, Avec ajout de la distributio margiale des CHEVEUX e coloes distributio margiale e coloes Distributio margiale e liges Figure 5 : Diagramme e mosaïque du tableau croisé, Avec ajout des deux distributios margiales YEUX e liges et CHEVEUX e coloes. La distributio margiale e liges sert de référece visuelle. Les yeux bleus sot sur-représetés parmi les blods et sous-représetés parmi les brus. Les yeux verts sot sur-représetés parmi les cheveux oirs. Tadis que le profil des roux est idetique à celui de l échatillo total. Toutes les comparaisos sot possibles au iveau visuel. TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 14/20

O s itéresse maiteat aux effectifs qu o devrait avoir si les 2 variables étaiet idépedates cf. Tableau 4 Effectifs observés et effectifs théoriques, obteus à partir de la formule 1. Figure 6 : Diagramme e mosaïque des effectifs théoriques calculés à partir des marges C est ue visualisatio d ue situatio d idépedace etre les variables YEUX et CHEVEUX. La figure 6 motre les effectifs théoriques calculés sous hypothèse d idépedace. S il y avait idépedace etre les 2 variables YEUX et CHEVEUX les distributios coditioelles seraiet égales aux distributios margiales, et les mosaïques seraiet toutes aligées. Les aglo-saxos parle de modèle baselie. Ce vocabulaire imagé est bie adapté à ce diagramme. Par comparaiso, la désorgaisatio des mosaïques das la figure 5 Diagramme e mosaïque du tableau croisé idique les écarts etre les effectifs observés et les effectifs théoriques. Ces diagrammes permettet d avoir ue vue globale et ue vue locale des iadéquatios des doées observées, au modèle d idépedace postulé. Avec cette représetatio visuelle les otios abstraites de dépedace/idépedace preet u ses cocret. Cette image est facilemet mémorisable par l appreat et so accessibilité e mémoire est plus rapide. L image sert de lie, aux ses des réseaux de euroes aturels, vers le vocabulaire et les formules. TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 15/20

5. Prologemets des Diagrammes e Mosaïque 5.1 Représetatio e surface des résidus stadardisés FRIENDLY 8 a prologé ces travaux e représetat sur des diagrammes e mosaïque, les résidus stadardisés (écarts stadardisés etre les effectifs observés et les effectifs théoriques). ( m ) d m Pour améliorer la lecture et le décodage visuel, les catégories (modalités) sot réordoées selo les coordoées factorielles résultat d ue aalyse factorielle des correspodaces. De plus les couleurs des mosaïques sot choisies selo des classes des résidus stadardisés, ce qui permet ue lecture très rapide. Classes de résidus stadardisés : <-4, -4 à -2, -2 à 0, 0 à +2, +2 à +4, >4. Les sous-représetatios sot e dégradés de couleur rouge et les sur-représetatios sot e dégradés de couleur bleue. La figure 7 emprutée à FRIENDLY, motre la représetatio des résidus stadardisés sur u tableau des doées aalogue à otre exemple : croisemet de la couleur des cheveux avec la couleur des yeux. Figure 7 : Diagramme e mosaïque des résidus stadardisés sur u tableau qui croise la couleur des cheveux avec la couleur des yeux. Source FRIENDLY URL : http://www.math.yorku.ca/scs/papers/drew/ FRIENDLY a égalemet étedu cette techique à l aalyses des tableaux à etrées (-ways). Il utilise ces représetatios comme u outil de diagostic pour tester différets modèles logliéaires. Les écarts sot «portraitisés» et leur aalyse permet parfois de suggérer des termes à ajouter das le modèle pour améliorer l ajustemet. 8 Voir l article de FRIENDLY M. e lige Extedig Mosaic Displays: Margial, Partial, ad Coditioal Views of Categorical Data, URL :http://www.math.yorku.ca/scs/papers/drew/ TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 16/20

Ces prologemets e sot pas développés das les logiciels stadards. SAS/Isight se limitet à la représetatio des tableaux croisés à double etrée. Il est pas possible de représeter les écarts. 5.2 Représetatio e surface des écarts à l Idépedace E Frace, il existe aussi des recherches sur les représetatios graphiques des tableaux croisés. Ph. CIBOIS, Professeur de Sociologie à l Uiversité Versailles St Queti et membre du Laboratoire Pritemps, a développé le logiciel Tri-Deux, qui permet de visualiser les écarts à l idépedace par des représetatios e surface. So cours aisi que so logiciel gratuit sot dispoibles sur le site du Pritemps 9. Nous emprutos à Ph. CIBOIS, la figure 7 ci dessous réalisée avec so logiciel Tri-Deux. Les doées sot issues d ue equête sur la pratique religieuse (4 modalités : Catholique pratiquat, Catholique o pratiquat, de traditio Catholique, Sas religio) et le choix politique (3 modalités : Gauche, Cetre, Droite). La référece horizotale représete la situatio d idépedace. La largeur des surfaces est comme pour les diagrammes e mosaïque, proportioelle aux probabilités margiales du choix politique. Les hauteurs sot proportioelles aux valeurs des écarts. Les écarts à l idépedace sot «portraitisés» e surfaces oires pour les sur-représetatios (valeurs positives), et surfaces blaches pour les sous-représetatios (valeurs égatives). Figure 8 : Représetatio e surface des écarts à l idépedace. Source CIBOIS URL : http://www.pritemps.uvsq.fr/cours.htm 9 Laboratoire Pritemps URL : http://www.pritemps.uvsq.fr/ TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 17/20

Coclusio Le diagramme e mosaïque est aux doées catégorielles, ce que le diagramme de dispersio (diagramme cartésie, uage de poits) est aux doées quatitatives. Il permet de visualiser les dépedaces etre les variables et les écarts par rapport à u modèle théorique. Les diagrammes e mosaïque remplisset deux foctios, d ue part ils facilitet l appretissage de la otio d idépedace, d autre part, ils permettet à l aalyste de doées de mieux utiliser les modèles théoriques. Du côté de l eseigemet ous avos motré le lie qui existe etre les tableaux croisés et les diagrammes e mosaïque. La représetatio e surface des effectifs observés permet de compredre commet itervieet et se composet les probabilités margiales et les probabilités coditioelles pour u tableau à double etrée. Les présetatios simultaées, des élémets statistiques costitutifs d u tableau croisé : probabilités margiales et probabilités coditioelles, leurs représetatios sous forme visuelle, et les formules mathématiques associées devraiet permettre u appretissage plus opératioel et ue mémorisatio facilitée de ces otios abstraites complexes. Cette approche permet de cocrétiser. Du côté de l aalyste de doées visualiser les attractios et les répulsios d u tableau croisé par les écarts stadardisés ou par des écarts à l idépedace, permet u diagostic rapide des écarts etre les doées observées et le modèle. Nous avos fait qu évoquer la gééralisatio de cette approche aux modèles log-liéaire (FRIENDLY). Les écarts ou résidus etre les doées observées et les valeurs estimées par différets modèles d idépedace (modèles log-liéaires), peuvet être visualisés par des graphiques e mosaïque u peu plus complexes dot la lecture est facilitée par les logiciels exploratoires iteractifs (cf. MANET). Il faudra appredre à les utiliser et à les lire. Le travail de l aalyste de doées est de rechercher des idices, à la maière d u détective, e s aidat de la visualisatio, e testat des modèles et e étudiat les résidus qui eux portet les iformatios qui vot le guider. C est la structure des mosaïques (patters) qui permet de suggérer des hypothèses par le biais des comparaisos visuelles. Les aalyses et les diagostics déduits de ces représetatios visuelles sot das l esprit de l aalyse exploratoire des doées de TUKEY (1962, 1977) : visualisatio, graphiques de diagostics à partir des résidus, émergece de ouvelles hypothèses, amélioratios du modèle. TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 18/20

Référeces CIBOIS PH. (1984), L aalyse des doées e Sociologie, Paris, PUF, coll. «Le Sociologue». CIBOIS PH. (1994), L aalyse Factorielle, Paris, PUF, Que Sais-je? 2095, 4 ème éditio. CIBOIS PH. cours de DEUG sur les écarts à l idépedace : http://www.pritemps.uvsq.fr/cours.htm Logiciel Tri-Deux : http://www.pritemps.uvsq.fr/ sélectioer logiciels puis Trideux. FRIENDLY M. (1991), Statistical Graphics for Multivariate Data, SAS SUGI 16 Coferece, April. http://www.math.yorku.ca/scs/sugi/sugi16-paper.html FRIENDLY M. (1992) Mosaic displays for log-liear models, America Statistical Associatio, Proceedigs of the Statistical Graphics Sectio, 1992, pp. 61-68. FRIENDLY M. (1992) Graphical Methods for Categorical Data, SAS SUGI 17 Coferece, April. http://www.math.yorku.ca/scs/sugi/sugi17-paper.html FRIENDLY M.(1994), Mosaic Displays for Multi-way Cotigecy tables, JASA March 1994, Vol. 89, 425, pp.190-200. FRIENDLY M., (1995), Coceptual ad Visual Models for Categorical Data, The America Statisticia, May 1995, vol. 49, 2, pp. 153-160. FRIENDLY M., (1995), Graphical Methods for Categorical Data, Programmes écrits e SAS/GRAPH et SAS/IML. http://www.math.yorku.ca/scs/courses/grcat/grcprog.html FRIENDLY M. Extedig Mosaic Displays: Margial, Partial, ad Coditioal Views of Categorical Data. http://www.math.yorku.ca/scs/papers/drew/ FRIENDLY M. Visualizig Categorical Data: Data, Stories, ad Pictures, http://www.math.yorku.ca/scs/vcd/vcdstory.pdf HARTIGAN, J. A., AND KLEINER, B. (1981), Mosaics for cotigecy tables, I W. F. Eddy (Ed.), Computer Sciece ad Statistics: Proceedigs of the 13th Symposium o the Iterface. New York: Spriger-Verlag, pp. 268-273. HOFMANN H. (1997), Simpso o Board the Titaic? Iteractive Methods for dealig with multivariate Categorical Data, Statistical Computig & Statistical Graphics, Newsletter vol. 9 2. http://cm.bell-labs.com/cm/ms/who/cocteau/ewsletter/issues/v92/v92.pdf HOFMANN H., UNWIN A., (1999) Graphical Methods for Categorical Data Aalysis, Jue 9, 1999. http://www1.math.ui-augsburg.de/~hofma/iterface99.pdf TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 19/20

HOFMANN H. (1997), Visualisatio i Data Miig Screeig Multivariate Categorical Data. http:www.stat.fi/isi99/proceedigs/arkisto/varasto/hofm0335.pdf NOVI M. (1998), Pourcetages et tableaux statistiques», Que Sais-je? 3337. SNEE, R. D. (1974), Graphical Display of Two way Cotigecy Tables, The America Statisticia, February 1974, vol. 28, 1, pp9-12. SCHWARTZ D., (1963), Méthodes statistiques à l usage des médecis et des biologistes, Flammario. TUKEY J.W., (1962) The Future of Data Aalysis, Aals of Mathematical Statistics, 33, pp. 1-67. TUKEY J.W., (1969), Aalyzig Data : Sactificatio or Detective Work, America Psychologist, 24, pp. PP. 83-91., 1969F TUKEY J.W. (1977), Exploratory Data Aalysis, Addiso-Wesley. UNWIN A. (2001) Graphical Methods, Aalytic, Ecyclopedia of the Social ad Behavioral Scieces. http://www1.math.ui-augsburg.de/~uwi/atoyarts/sbs201146.pdf UNWIN A. (2001) Patters of Data Aalysis?, Joural of the Korea Statistical Society, 30(2), pp. 219-230. http://www1.math.ui-augsburg.de/~uwi/atoyarts/patters2001.pdf UNWIN A. (2001) Statistificatio or Mystificatio? The eed for Statistical Thought i visual Data Miig, ECML/PKDD meetig i Freiburg, September 2001. http://www1.math.ui-augsburg.de/~uwi/atoyarts/uwifreiburg01.pdf UNWIN A. (2001) et HOFMANN H., MANET : logiciel pour l exploratio de doées. http://www1.math.ui-augsburg.de/maet VALOIS J. P. (1999) Ue Typologie des Graphiques Statistiques, S.F.d.S., / XXXIè Jourées de Statistique, Greoble, 17-21 Mai 1999. VALOIS J. P. (2000) Approche Graphique e Aalyse de Doées, Joural de la Société fraçaise de Statistique, Tome 141, 4, pp5-40. TableauxCroisés.MosaicPlots.pdf / Moique Le Gue / legue@uiv-paris1.fr page 20/20