L analyse des données par les graphes de similitude

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "L analyse des données par les graphes de similitude"

Transcription

1 1 L analyse des données par les graphes de similitude Par Pierre Vergès, directeur de recherche au CNRS et Boumedienne Bouriche, maître de conférence à l IUT de Gap Juin 2001

2 2 A Claude FLAMENT l inventeur de cette méthode et toujours l initiateur de son évolution PROLOGUE Origine Les années soixante ont vu fleurir les interfaces entre sciences humaines et mathématiques. Dans cette effervescence Claude Flament avait le souci d associer psychologie sociale et formalisation. Il explorait la théorie des graphes pour expliquer les biais de communication. Puis, associant sa pratique des analyses statistiques et les possibilités ouvertes par les mathématiques du discret, il invente l Analyse de Similitude. Il fallait un «passeur» pour que l analyse des données ne se réduise pas au labyrinthe de l analyse vectorielle. Cette méthode se développe avec la possibilité d utiliser les ordinateurs. Le premier programme fut écrit en cobol (langage bien peu adapté!), puis en fortran pour les grosses machines IBM du CNRS, un détour par les premiers Apple 1, enfin les programmes suivirent la puissance croissante des PC et du Turbo Pascal. Parallèlement la méthode se développait, le trio des années soixante-dix 2 visait une formalisation mathématique de plus en plus sophistiquée. Ils découvraient au passage l arbre maximum, les cliques et le filtrant des cliques Ils exploraient la possibilité d utiliser la théorie des hyper-graphes. La pratique a aussi son rôle dans l évolution de la méthode. Utilisée par de nombreux chercheurs, on découvrait les problèmes que posaient des données de formes bien différentes et des questionnaires toujours en évolution. L analyse de similitude est restée fidèle à ses origines et s est complexifiée. Le livre qui aurait du être écrit en serait bien différent du livre de l an Ce dernier profite de tous ces moments où il a fallu remettre en cause les intuitions initiales, ou plus exactement les rapports entre propriétés mathématiques et interprétations par les sciences sociales. On avait fait, dans les années soixante-dix, un peu trop confiance aux mathématiques (comme d autres ont fait trop confiance aux statistiques) pour dicter l interprétation de l analyste alors qu il ne fallait que la guider, ou plus exactement s interroger sur la traduction entre propriétés mathématiques et propriétés du social. 1 Sylvie Soukup et Alain Guénoche en furent les artisans. 2 Claude Flament, Alain Degenne, Pierre Vergès 3 Il en existe un manuscrit.

3 3 Une analyse et un analyste. Cette méthode est une méthode générale d analyse de données, elle est alternative ou complémentaire des classiques analyses factorielles ou de classification. Mais elle est aussi plus particulièrement adaptée à la théorie des représentations sociales, ce qui n étonnera personne quand on sait le rôle que joue son inventeur dans le champ des représentations sociales. L analyse de similitude a la grande qualité de ne pas éliminer l analyste des différentes phases de l analyse. A aucun moment il lui est proposé les résultats d une boite noire. Au contraire l analyse de similitude demande à l analyste de prendre des décisions à chaque étape de la démarche. Elle propose des descriptions qui doivent être validées et peuvent même être quelque fois contradictoires à première vue. Elle pousse alors l analyste à trouver son interprétation au croisement de deux informations différentes. Cet ouvrage montre comment à chaque instant la décision de l analyste est réclamée. Aussi les différents chapitres de ce livre vont essayer d éclairer cette décision. Le premier chapitre pose la question de la mesure des similitudes entre les variables : la multiplicité des indices de similitude doit être expliquée et explorée. Le second chapitre présente les différents outils de la théorie des graphes permettant de traiter une matrice de similitude associée à un graphe. Ici on fait un détour par une formalisation mathématique. Celle-ci n est pas très complexe même si on n y est pas très habitué. Elle propose une analyse combinatoire des données où les seules entités sont «des points et des traits». Le troisième chapitre montre les propriétés formelles que l analyse de similitude peut mettre à jour. Le quatrième présente sur un exemple la démarche, pas à pas, de l analyste et les décisions qu il doit prendre. Ici se situe l intérêt de l analyse de similitude : l analyste est maître des décisions qui vont orienter le traitement des données, comme il sera maître plus tard de leur interprétation. Le cinquième chapitre essaie de mettre en garde contre les fausses interprétations, les ambiguïtés qu il faut lever et contre la croyance aveugle en la qualité des données. On se servira tout au long de ce livre d exemples tirés des recherches de ces dernières années ; que les auteurs en soient ici remerciés. Ils ont utilisé des programmes informatiques sous Windows.

4 4 CHAPITRE 1. COMMENT SIMPLIFIER UNE MULTITUDE D INFORMATIONS POUR METTRE DE L ORDRE DANS LES DONNEES QUE VOUS VOULEZ TRAITER? 1.1 DE LA RESEMBLANCE A LA SIMILITUDE. Le point de départ de votre perplexité est le tableau des données. Il se présente le plus souvent sous la forme d un tableau [X x Y], ou X représente un ensemble de variables (en colonne) et Y un ensemble de sujets (ou d entités collectives, en ligne) sur lequel les variables prennent leurs valeurs 4. Sujets Item A Item B Item C Item D Item E Item F Tableau 1 : tableau [X x Y]. : Chaque sujet pouvait choisir deux items de X parmi les 6 proposés (on a interrogé 14 sujets) Items A B C D E F A ** B 2 ** C 1 1 ** D ** 2 1 E ** 2 F ** Tableau 2 : tableau [X x X] des cooccurrences entre les items de la figure 1. Les données de type [X x Y] se présentent sous la forme du classique tableau [Variables (ou questions) x Sujets]. On cherche alors à construire une tableau [X x X] indiquant la plus ou moins grande ressemblance entre les variables i et j de X. La propriété de cette matrice de similitude [X x X] est d être symétrique : i ressemble à j comme j ressemble à i. Pour cela il faut établir la similitude entre deux éléments i et j de X à l aide de la ressemblance de leur profil de réponse aux éléments du second ensemble Y : les réponses des sujets à un questionnaire par exemple (tableau 1). Cette construction passe par le calcul d un «indice de similitude» entre i et j de X, indice qui dépend d un calcul sur les réponses de tous les sujets pour chacune des variables dans le tableau [X x Y]. Il n y a pas qu un indice de similitude, l histoire de la statistique nous en décrit une profusion. Dans le tableau 2 on indique le nombre de fois où l item i a été choisi en même temps que l item j dans le tableau de la figure 1. Le prototype de ces indices est le coefficient de corrélation linéaire. Il se calcule bien comme le montre sa formule en tenant compte de la plus ou moins grande proximité des profils des 4 Tout au long de ce livre nous utiliserons le terme de «sujet» pour désigner un élément de l ensemble Y. Ce sujet peut être une personne ou un collectif : ville, entreprise, pays. Nous utiliserons aussi le terme de «variable» pour désigner un élément de l ensemble X. Il recouvre des réalités fort différentes : des questions, des modalités de réponses à une question, des mots d un texte, des quantités (mesure de taille, de valeurs monétaires, des pourcentages ).

5 5 variables i et j mesurée ici par la covariance 5 des valeurs prises par i et j dans le tableau [X x Y], covariance pondérée par un coefficient calculé sur les variances des deux variables : CoVar( ij) r( i, j) =. Var( i) Var( j) On se trouve aussi devant des données de type [X x X ] où l ensemble X est identique à l ensemble X. C est le cas des matrices de transition entre la profession du père et la profession des enfants. Les deux ensembles X et X sont les mêmes (les catégories professionnelles, par exemple) mais ce tableau ne peut être interprété comme une matrice de similitude car la symétrie (i ressemble à j comme j ressemble à i) n existe pas. Deux types d opérations peuvent être envisagées pour construire la matrice [X x X]. Soit on effectue un calcul sur le profil en X des éléments de X (l ensemble X se comporte en fait comme un ensemble Y). Soit on effectue un calcul visant à symétriser la relation (ij) entre les éléments de X quand la valeur de (ij) est la quantification d une relation. La ressemblance entre les professions des pères en fonction de la ressemblance des profils des professions des enfants est un exemple du premier type. Le cas des matrices de flux entre des entités : par exemple la valeur des flux de migration entre les régions françaises 6 est un exemple du second type. Comme le flux migratoire de i vers j n est pas égal à celui de j vers i, on est obligé de symétriser la relation entre deux régions en ne tenant compte que de l émigration (ou de l immigration) ou en faisant la somme ou la différence des déplacements entrants et sortants. Items A B C D E F G H I A ** B 25 ** C ** D ** E ** F ** G ** H ** 16 I ** Tableau 3 : tableau [X x X ] : on a compté le nombre de fois où un auteur D a cité l auteur F (ici 20 fois), le nombre de fois ou l auteur F a cité l auteur D est différent (33). Ce cas de figure se retrouve quand on analyse un questionnaire d évocation : on a catégorisé les mots, observé la co-apparition de ces catégories chez un même sujet et calculé la cooccurrence d une catégorie de mots avec une autre. Cette information n est pas symétrique. On peut la symétriser par la définition d un indice particulier. On retrouve ce problème dans l analyse des citations d auteurs dans un ensemble d articles de revues scientifiques (qui cite qui? tableau 3). On peut opérer de deux manières différentes : soit considérer les ressemblances entre les profils de deux auteurs, soit symétriser le nombre de citations entre deux auteurs (somme, différence ) Les données qui sont directement du type [X x X] sont rares, elles sont le plus souvent le résultat d un calcul. On peut, par exemple, recueillir une matrice de corrélation déjà calculée (à l aide d EXCEL ou d un programme d analyse factorielle en composantes principales). On peut demander aux sujets d une enquête d établir des relations entre un ensemble de notions (cf. annexe 2). On verra plus loin (2.4) un questionnaire où on demande aux sujets d évaluer sur une échelle de 1 à 9 la ressemblance entre les éléments i et j et cela pour toutes les paires possibles. 5 CoVar( ij) = (( xik m ) ( xjk m )) N ; avec N le nombre de sujets, xik la kiem valeur de la colonne i et xjk la k i j k-iem valeur de la colonne j et m i la moyenne des valeurs xik, m j la moyenne des valeurs xjk 6 Degenne, A., 1973.

6 6 Chaque sujet produit une matrice [X x X]. On va alors calculer une agrégation de ces matrices : ici l élément (ij) de la matrice [X x X] finale est la moyenne des scores obtenus pour chaque sujet. Quel que fois l information initiale est, non une similitude, mais une distance tel le nombre de kilomètres entre la ville i et la ville j. On est alors conduit à calculer une fonction inverse de la distance pour obtenir une valeur de la proximité entre i et j. Quel que soit le cas de figure [X xy], [X x X ] ou [X x X] on vise à construire une matrice carrée et symétrique de similitude [X x X] où les nombres indiquent le poids, la force de la ressemblance, de la relation entre les variables deux à deux. L analyse de similitude sur l ensemble Y est duale : on construit une matrice [Y x Y] en fonction des profils des sujets y Y sur les variables i X. Pour cela il suffit de transposer la matrice initiale, c est à dire de prendre en considération la matrice [Y x X] en lieu et place de la matrice [X x Y],

7 7 1.2 EXEMPLES DE CALCUL D UNE SIMILITUDE Le choix de réponses dans une liste. Dans un questionnaire sur l image de la banque 7 on demande aux sujets (506 sujets) de caractériser la banque en général en choisissant certains items dans une liste donnée(tableau 4). Tableau 4 : liste des items 1 : La Banque me fait Confiance 2 : On est en Confiance 3 : Aide Problèmes Particuliers 4 : Découvert Rapporte à Banque 5 : Travailler à son Profit 6 : On n'est qu'un Numéro Tableau 5 : Fichier : etc On demande au sujet de choisir les 2 items les plus caractéristiques de la banque. On donne ici un extrait de ces données (tableau 5). On obtient un fichier où le premier sujet a choisi les items 1 et 3 et le deuxième les items 3 et 4 et le troisième les items 1 et 2 etc On codera ces sujets en indiquant par un 1 les items choisis et par un 0 les items non choisis. On peut alors calculer la ressemblance entre deux items par le nombre de sujets ayant choisi ensemble deux items. On obtient une matrice de cooccurrence (tableau 6) : ici le choix des items 1 et 2 a été effectué par 100 sujets sur les 506 interrogées (c est le cas du troisième sujet par exemple). Le choix des items 1 et 4 n a été effectué que par 29 sujets. Tableau 6 : Le calcul de la cooccurrence donne la matrice suivante : 1 : La Banque me fait Confiance : * : On est en Confiance : 100 * : Aide Problèmes Particuliers : * : Découvert Rapporte à Banque : * : Travailler à son Profit : * 59 6 : On n'est qu'un Numéro : * Le choix d une réponse sur une échelle. Dans un questionnaire posé à des élèves de terminale 8 on présente un ensemble de phrases et on demande à l élève de choisir une attitude vis à vis de chaque phrase. Attitude que l on code de 1 à 5 (on ne tient pas compte des élèves ayant répondu 6) Totalement En partie ni d'accord En partie Totalement Je ne d'accord d'accord ni pas d'accord pas d'accord pas d'accord sais pas A- Le gouvernement devrait redistribuer les revenus au profit des moins favorisés. B- Trop de gens comptent sur le gouvernement pour assurer leur bien être. 7 Etude Paul Danloy & Cie, GIFRESH, commanditée par les Banques Populaires et le Crédit Mutuel en 1995 auprès de 504 personnes (méthode des quota), échantillon représentatif par quota de la population française. 8 Etude Union Européenne Copernicus sur les connaissances économique des jeunes européens (jeunes de ans en fin d étude secondaire en Angleterre, France, Pologne, République Tchèque), 1995

8 8 C- Le plus grand nombre n obtient pas une juste part de la richesse de la nation. D- Les aides sociales ne vont pas toujours à ceux qui en ont le plus besoin. E- Une vraie coopération dans les entreprises est difficile parce que chefs d entreprises et salariés n ont pas les mêmes intérêts. F- Les entreprises privées sont plus aptes que les entreprises publiques à résoudre les problèmes économiques de la France Phrases Score moyen A- Redistribuer Revenu 2.50 B- Compte sur Gouvernement 2.41 C- N'ont pas leur Part 2.13 D- Aide Sociale détournée 1.88 E- Difficiles Coopération 2.22 F- Privé mieux que Public 3.25 On peut calculer un score moyen obtenu pour chaque phrase (tableau 7). Mais il est plus intéressant de calculer la similitude des réponses en comparant les notes données par chaque sujet aux différentes phrases. On calcule alors une corrélation entre ces phrases (ici l indice de corrélation est le Tau de Kendall). Tableau 7 : score moyen des items * A B C D E F La phrase A est corrélée positivement à la phrase C (.26) et négativement à la phrase B (-.12) alors que leurs scores moyens sont proches. Ces deux exemples montrent comment il est possible de passer d un tableau [X x Y] à un tableau de similitude [X x X]. Nous allons maintenant étudier les différentes manières d effectuer ce passage, en un mot de calculer un indice de similitude entre les variables. ************************************ A * * B * -.12 * C * * D * * E * * -.01 F * * Tableau 8 : Tau de Kendall

9 9 1.3 IL N EST PAS POSSIBLE DE LIMITER LA SIMILITUDE A UN SEUL ET UNIQUE COEFFICIENT (coefficient de corrélation ou distance du Khi2 9 ) : POURQUOI? Il existe une première raison qui tient à la forme des données recueillies. Les données que l analyse de similitude permet de traiter, sont de formes très différentes. Nous avons déjà vu qu un tableau de données [X x Y] pouvait recouvrir plusieurs types de données différentes. Un questionnaire peut proposer une liste d items et demander au sujet de choisir les items qu il privilégie, les 1 indiquant le choix de l item comme dans la figure 1 (le nombre d items choisis peut être limité cf. annexe 2 les questionnaires de choix ou de caractérisation). Les variables i de X peuvent être des valeurs comme par exemple le nombre de pièces d un appartement ou le salaire du chef de famille, ou encore dans le cas où le sujet est un sujet collectif : le nombre d habitants d une commune, le pourcentage de population au chômage etc. On doit encore considérer un cas particulier : celui de la mesure de la position du sujet sur une échelle de réponses que l on code de 1 à n (valeur maximale), par exemple on codera 5 l accord total du sujet à une proposition et 1 le désaccord total, les valeurs intermédiaires permettant au sujet de moduler son opinion (cf. annexe 2 le questionnaire en échelle de «Likert»). Les différentes structures mathématiques de mesure. Binaire : une variable binaire ne peut prendre que deux valeurs : 0 ou 1. Cette variable est souvent obtenue par éclatement des modalités d une variable nominale. Par exemple à la question sur sa profession le sujet doit se positionner non pas sur une échelle mais dans un univers de catégories dont chacune à un nom. Seule la catégorie choisie sera codée 1, les autres prennent la valeur 0. Si la question est dite «à choix multiple» on peut avoir plusieurs 1 correspondants aux différents choix. Dans tous les cas chaque modalité de réponse est une variable binaire. Ordinale : une variable ordinale prend ses valeurs dans les nombres cardinaux (nombres entiers) au sein d un intervalle ayant une valeur minimale et maximale : par exemple [-2, +2], seules les valeurs -2,-1,0,1,2 sont acceptables. Cette échelle ne suppose pas qu il existe une distance égale entre deux échelons. Elle indique simplement que si le sujet a été codé 2, il a exprimé un choix supérieur à celui qu il aurait exprimé s il était codé par une valeur inférieure comme 1 (ou -2). Elle indique aussi que ce choix 2 est «intermédiaire» entre le choix 1 et le choix 3. Métrique : une variable métrique prend ses valeurs dans les nombres réels. C est le cas du revenu d un ménage, de la taille des élèves d une classe, de la superficie d une exploitation agricole, etc Il est alors possible de calculer une distance métrique (euclidienne), d effectuer les quatre opérations (+, -, x, /) et de la plonger dans un espace vectoriel. 9 La distance calculée par le coefficient de corrélation est utilisée par les programmes d ACP et celle du Khi2 par les programme d AFC.

10 10 Chaque type de donnée détermine l usage de coefficients qui tiennent compte des propriétés de la mesure utilisée (binaire, ordinale, métrique). C est ainsi que les chiffres codant les données de type binaire ne peuvent être considérés comme des réels. On ne peut pas les utiliser pour calculer un coefficient de corrélation, par exemple, il faut utiliser, comme nous le verrons plus loin, son correspondant pour les tableaux [0,1] : le Phi de contingence. De même lorsque les données sont ordinales le coefficient de corrélation que l on doit utiliser est le Tau de Kendall qui ne tient compte que de la différence entre les ordres induits sur les sujets par les différentes variables. Seules les données métriques permettent les calculs les plus sophistiqués, analyse de corrélation, analyse matricielle, analyse de régression etc. La mesure binaire (ou dichotomique) [0,1] peut couvrir l existence d un ordre 0 < 1 ou seulement la présence d un «nom», d une modalité. Le choix de l indice doit tenir compte de ce fait. Dans le premier cas on parlera d une mesure dichotomique ordonnée permettant l utilisation des indices relatifs à une mesure ordinale. C est par exemple l étude de l équipement des villes en notant dans une liste fixée à l'avance quels sont les équipements collectifs possédés. Deux villes se ressembleront alors par les équipements qu'elles ont en commun mais également par ceux qui leur manquent simultanément. Dans le second cas la mesure dichotomique est associée à une variable binaire (le 1 exprimant la présence du «nom» et le 0 l absence). Dans ce cas l absence du «nom» n a pas automatiquement un sens inverse à la présence de ce «nom». Par exemple l absence d un mot dans une liste d évocations spontanées peut signifier deux choses bien différentes : le sujet ne voulait pas l évoquer ou tout simplement le mot ne lui est pas venu spontanément à l esprit pour diverses raisons. Le zéro représente une diversité de situations alors que le 1 exprime uniquement le choix du sujet. On peut se trouver dans des situations mixtes. Quand on demande au sujet de choisir trois items parmi une liste de 12, la probabilité du non-choix est bien supérieure à celle du choix (ici 0,75 contre 0,25). Il n y a pas symétrie du 1 et du 0. Ici on peut décider de considérer soit seulement le choix (le 1), soit l ordre 0 < 1. Il existe encore un cas où ces deux valeurs [0,1] n ont pas le même sens mais où cette propriété échappe souvent à la conscience de l analyste, c est la transformation d une variable nominale ayant plusieurs modalités en une série de variables binaires comme dans le cas des catégories socioprofessionnelles. Le 0 n indique pas l absence d une profession donnée mais le fait que le sujet appartient à une autre profession. Cette procédure dite «d éclatement des modalités» est utilisée pour évaluer les effets de chaque item (ici de chaque profession). Cette procédure est, par exemple, obligatoire quand on construit un tableau de «Burt» en Analyse Factorielle de Correspondance, ou quand on utilise les procédures logistiques (Logit). Dans ces deux cas, les outils mathématiques utilisés font implicitement référence à une symétrie du 0 et du 1 alors qu il n en est rien. Outre la forme des données il faut aussi tenir compte du travail des statisticiens. Ceux-ci ont multiplié les indices 10 permettant une mesure de la similitude entre variables. Ces indices ont cependant quelques propriétés mathématiques communes. Ces propriétés dérivent du fait que, pour un coefficient de similitude donné, l ensemble des valeurs calculées entre les éléments i et j de X peuvent être rangées de la plus grande à la plus petite. Cet ordre entraîne un ordre sur les couples (i,j). Comme il est possible que certains couples aient la même valeur (soient ex-aequo) on utilise la notion mathématique de Préordonnance. Les propriétés de cette Préordonnance de similitude sont décrites dans l encart cidessous. L existence de cette diversité de la forme des données et de la multiplicité des mesures possibles (indices de similitude) donne toute sa souplesse et sa richesse à l analyse de similitude. Elle prend en 10 Hubalek, Z., 1982 ; Cet auteur présente 43 mesures d association (coefficients de similitude) dans le seul cas des variables dichotomiques. Il conclue son article par ces mots : «there is no absolutely general measure of the degree of dependance».

11 11 compte non seulement les propriétés mathématiques des données mais aussi le parti pris de celui qui traite les données. A cette richesse correspond un impératif : l analyste doit prendre des décisions qui influencent fortement le résultat des calculs. L analyse de similitude ne fonctionne pas comme une boite noire fournissant un résultat unique, elle oblige l analyste à préciser ce qu il recherche et par quel moyen. Préordonnance de similitude Soit X un ensemble {i,j } et [X x X] l'ensemble des couples (i,j) d'éléments de X. On appelle préordonnance de similitude sur X un préordre total sur X x X, vérifiant les conditions suivantes, quels que soit {i,j,k} éléments de X : (i,j) = (j,i) : propriété qui traduit la symétrie de la relation de ressemblance. (i,i) > (i,j) : propriété qui traduit que tout élément ressemble plus à lui même qu à tout autre. En outre si (i,j) > (i,k) i doit «ressembler» plus à j qu à k. Habituellement cette préordonnance est associée à une application S de X x X dans les nombres réels. On a alors Sij > Skt (i,j) > (k,t) Sij est appelé indice de similitude. Nous avons vu que la préordonnance de similitude peut être obtenue de deux manières : Soit la préordonnance P peut être donnée presque directement par l'observation sur l ensemble [X x X] ; dans ce cas on a obtenu une hiérarchie sur les paires ij. Soit, et c est le cas le plus général, on doit construire la préordonnance à partir du calcul d'un indice de similitude S (appelé aussi coefficient de similitude). Pour cela il faut établir une mesure de ressemblance sur l ensemble X. Cette mesure suppose l existence d un second ensemble Y tel que l on puisse construire un tableau rectangulaire [X x Y] exprimant les valeurs que prennent les éléments i (ou j) de X dans les référentiels y de Y. Les données servant à calculer l indice de similitude sont alors présentes dans ce tableau rectangulaire. Quel sont ces décisions? Elles concernent d abord la forme des données et par là même le choix d une classe d indices de similitude. L analyste doit identifier la mesure (binaire, ordinale, métrique) qui est imposée par la forme des données. Il peut se trouver dans un cas mixte l obligeant à un recodage. Il peut aussi être conduit à réduire la richesse de la mesure originale car elle dilue l information pertinente comme un costume trop grand. C est ainsi que l on ramène l information de l âge (ou du revenu) exprimé en années (ou francs) à des classes d équivalences ordonnées (les moins de 18 ans, les 18-24, les etc ). On passe d une mesure métrique à une mesure ordinale. De même on réduit souvent une échelle ordinale d opinion (de type Likert) à une variable dichotomique (les opinions favorables prenant la valeur 1 et les défavorables la valeur 0). On fait aussi quelque fois l opération inverse : considérer une mesure ordinale comme une mesure métrique (le calcul d une moyenne sur une échelle de Likert par exemple). On doit alors agir avec une certaine prudence, c est quelque fois acceptable même si ce n est pas légitime. Nous verrons plus loin que l analyste sera obligé de prendre des décisions tout au long de la procédure d analyse : choix de seuils, choix d un mode de représentation des résultats etc Le premier choix reste celui de l indice de similitude LES CRITERES DU CHOIX D UN INDICE DE SIMILITUDE. Pour choisir l indice de similitude qu il convient de calculer il faut donc tenir compte de deux éléments : a) la nature de la mesure où sont plongés les nombres que l on trouve dans ce tableau {X x Y} : ont-ils une valeur «binaire», sont-ils des positions sur une échelle «ordinale» (dichotomique

12 12 [0,1] ou sur un intervalle [a,b]), sont-ils des nombres pouvant prendre théoriquement toutes les valeurs dans une large plage des nombres réels (le «continue» des mathématiciens) ; b) la nature du calcul de l indice de similitude. On distinguera, ici, deux classes d indices : les indices exprimant une «majorité», ceux exprimant une «distance à l indépendance statistique». On traitera en 5.5 les indices qui mesurent un degré «d implication logique». Ils n ont pas la propriété de symétrie des indices de similitude mais permettent d analyser les données dont les fréquences sont par trop inégales. La nature du calcul de l indice de similitude. a) Les indices qui vont mettre en évidence la grandeur, le poids des différentes variables. C est le cas si on prend en considération la valeur absolu de xij d un item i. On a alors plus de chance de trouver une similitude forte entre les items ayant une forte moyenne (ou fréquence) qu entre ceux ayant une moyenne (ou fréquence) plus faible. On peut alors parler de mise en évidence d un effet tenant aux valeurs extrêmes et dans le cas des fréquences d un effet majoritaire (ce que pense ou fait la majorité). On peut éviter en partie cela en effectuant une standardisation classique des données (z-score en anglais) : on calcule alors x' ij = ( xij moyenne( xij)) Variance( xij) b) Les indices exprimant une distance à l indépendance statistique vont au contraire tenir compte seulement des écarts à l indépendance statistique. Or les items de poids faibles sont ceux qui permettent les plus forts écarts. Si par exemple on traite le choix de 2 items i et j tel que i a été choisi par 80% des sujets et j seulement par 30%, l indépendance statistique de leur croisement est 24% (0,8 x 0,3). L écart maximum est alors de 30% à 24% soit de 6% des sujets. Par contre si on croise l item j ayant la même distribution avec un item i choisi par 20% des sujets l indépendance statistique de leur croisement est 6% (0,2 x 0,3). L écart maximum est alors de 20% à 6% soit de 14% des sujets. Indépendance statistique Cooccurrence maximum Indépendance statistique Cooccurrence maximum j=0 j=1 tot j=0 j=1 tot j=0 j=1 tot j=0 j=1 tot i= i= i= i= i= i= i= i= Tot Tot Tot Tot Cas où i a la distribution 20 / 80 Cas où i a la distribution 80 / 20 Ici on sait que les indices de similitude vont mettre en évidence l existence de sous-ensembles de variables qui sont corrélées grâce à l existence de sous-populations de sujets, qui peuvent être peu nombreuses (cf. le 6% du premier cas ou le passage de 6% à seulement 20% dans le second cas) mais qui ont des profils comparables sur ce sous-ensemble de variables. Ces indices signalent qu une partie des données forment une «distribution conjointe» : à une souspopulation donnée correspond un sous-ensemble de variables. Ici on peut parler de «minorité cohérente» Indices de similitude dans le cas de données dichotomiques. Le croisement de deux éléments i et j de X se présente classiquement par le tableau carré suivant : j = 0 j = 1 Total i = 0 Zij Uij Ni0 i = 1 Wij Cij Ni1 Total Nj0 Nj1 N Tableau 9 : le croisement dichotomique N est le nombre de sujets. Ni1 est le nombre de sujets codés 1 sur l item i. Nj1 est le nombre de sujets codés 1 sur l item j. Cij est le nombre de sujets codés 1 aux items i et j. Zij est le nombre de sujets codés 0 aux items i et j. Wij est le nombre de sujets codés 1 à l item i et 0 à j. Uij est le nombre de sujets codés 0 à l item i et 1 à j.

13 Cas des variables binaires. Lorsque les variables sont binaires seules les informations concernant la présence (le 1) ont un sens. On peut alors construire les indices suivants. a) Le nombre de fois où i et j sont codés tous les deux 1 est appelé cooccurrence : S 1 = Cij. On peut aussi calculer un pourcentage S 2 = ( Cij N) 100. Ces deux indices donnent la même préordonnance de similitude. Ils font apparaître ce que l on peut appeler le phénomène majoritaire. En effet plus les items i et j sont présents (Ni1 et Nj1 grand) plus il y a de chance pour que Cij soit grand. b) On peut, pour corriger cet effet majoritaire, établir un rapport entre Cij et C*ij, fréquence de la cooccurrence dans le cas de l indépendance statistique entre i et j. C * ij = ( Ni1 Nj1) N On peut alors calculer leur rapport S 3 = Cij C * ij qui est égal à S 3 = ( Cij N) ( Ni1 Nj1). On peut aussi calculer leur différence en pourcentage S 4 = 100 ( Cij C * ij) C * ij On peut encore calculer l indice de Forbes S5 = ( Cij C * ij) ( Cij max C * ij) avec Cijmax la valeur maximum que peut avoir Cij ; cette valeur est en fait le minimum de [Nj1, Ni1]. Le domaine de variation de ces différents indices est fort différent : l indice S 3 varie entre 0 et une valeur maximale S 3 max quand Cij est maximum c est à dire égal au minimum de [Ni1,Nj1] alors : S 3 max = N max[ Ni1, Nj1] ; la valeur S 3 = 1 indique l indépendance statistique entre i et j ; entre 0 et 1 Cij est inférieure à la valeur attendue s il y avait indépendance statistique, entre 1 et S 3 max Cij est supérieur à cette valeur. La valeur S 4 = 0 indique l indépendance statistique entre i et j, il en est de même pour S 5 qui varie de 0 à 1 (quand C ij =C ijmax ). On montrera plus loin sur un exemple l usage de ces deux types d indices (cf ) Cas des variables dichotomiques ordonnées. Lorsque les variables dichotomiques sont représentatives d un ordre entre le 0 et le 1 on peut alors construire des indices où le 0 et le 1 tiennent des places symétriques. a) Le nombre de fois où i et j sont codés tous les deux de la même manière est appelé cooccurrence symétrique : S 6 = Cij + Zij On peut aussi calculer un pourcentage S 7 = (( Cij + Zij) N) 100. Ces deux indices donnent la même préordonnance de similitude. Ils expriment à l évidence le poids de la diagonale de corrélation mais sans faire référence au calcul de la valeur théorique des cases Cij et Zij. On a ici aussi la mesure d un phénomène majoritaire pouvant porter symétriquement sur la valeur 0 ou 1. L indice S 7 varie entre 0 et N, L indice S 8 varie entre 0 et 100. b) Le Phi de contingence va, lui, signaler la corrélation et donc la comparaison des données à leur valeur théorique dans le cas de l indépendance statistique, comparaison mise en évidence par la relation qui relie le Phi et le Khi 2. La formule du Phi dérive de l application du Tau de Kendall, au tableau à quatre cases. Il correspond bien à un ordre 0 < 1.

14 14 S 8 ( Zij Cij) ( Uij Wij) = Nj0 Nj1 Ni0 Ni1 = ϕ appelé Phi de contingence 11. On peut trouver dans la littérature tout un ensemble d indices dont la formule dérive de celle du Phi de contingence. On en signalera un qui essaye de corriger le fait que le Phi ne varie pas entre 1 et +1 comme le voudrait la théorie mais entre une valeur maximale et une valeur minimale qui dépend des marges (cf. annexe 1). On calcule alors le «Phimax» pour la zone des corrélations positives et on établit le rapport Phi sur Phimax : S 8bis = S 8 / Phimax. Le Phimax est obtenu en calculant le tableau donnant la corrélation maximale. Ce tableau maximise la valeur Cij. Alors Cij = min Ni1, Nj1. Dans ce cas la valeur de l indice varie, dans la zone des corrélations positives, entre 0 et +1 quelque soient les marges. Il est aussi possible d obtenir un indice variant de -1 à +1 en utilisant le Q de Yule S 9 ( Zij Cij) ( Uij Wij) Q = ( Zij Cij) + ( Uij Wij) =. Cet indice est égal à 1 si Uij ou Wij est égal à 0 (une case anti diagonale vide). Il est égal à 1 si Zij ou Cij est égal à 0 (une case diagonale vide). Il est égal à 0 comme le Phi de contingence dans le cas de l égalité des produits des valeurs des deux diagonales (nullité du numérateur). On est ici proche d une mesure de l implication plus que de la corrélation comme nous le verrons plus loin. Un indice particulier est aussi souvent utilisé car il évite de prendre en considération la case Z ij (absence de i et de j) : l indice de communauté dit indice de Jaccard : S = C ( C + U + W ) 10 ij ij ij ij 11 Le Phi est égal à la racine carrée du Khi 2 total du tableau divisé par N. On calcule ainsi le Khi ( Zij Z * ij) ( Uij U * ij) ( Wij W * ij) ( Cij C * ij) Khi = ; avec Z*ij, U*ij, W*ij, C*ij les valeurs Z * ij U * ij W * ij C * ij théoriques dans le cas de l indépendance statistique entre i et j calculées grâce aux marges du tableau : Z * ij = ( Ni0 Nj0) N ; U * ij = ( Ni0 Nj1) N ; W * ij = ( Ni1 Nj0) N ; C * ij = ( Ni1 Nj1) N. 2

15 Exemple de l utilisation des deux types d indices dans le cas du choix dichotomique. Nous reprenons ici le questionnaire sur l image de la banque présenté en L item 2 (On est en Confiance), par exemple, a été choisi par 189 sujets interrogées, l item 3 (Aide Problèmes Particuliers) a été choisi par 247 sujets. Le tableau de croisement de ces deux items est le suivant : 0 1 Total item Total item Tableau 10 : On indique le choix de l item par la valeur 1. On a trouvé 104 sujets ayant choisi à la fois l item 2 et l item 3. la cooccurrence est donc de 104. Le calcul du Phi de contingence entre l item 2 et l item 3 est alors : ( ) (143 85) soit 0,09. ( ) Le calcul de la cooccurrence S 1 = Cij donne la matrice suivante : 1 : La Banque me fait Confiance : * 2 : On est en Confiance : 100 * 3 : Aide Problèmes Particuliers : * 4 : Découvert Rapporte à Banque : * 5 : Travailler à son Profit : * 6 : On n'est qu'un Numéro : * Le calcul du phi de contingence S 8 donne la matrice suivante 1 : La Banque me fait Confiance : * 2 : On est en Confiance :.19 * 3 : Aide Problèmes Particuliers : * 4 : Découvert Rapporte à Banque : * 5 : Travailler à son Profit : * 6 : On n est qu'un Numéro : * Tableau 11 : La Banque : matrices de similitude. La matrice des Phi de contingence montre que la population enquêtée se compose de deux souspopulations : l une voit la banque sous un jour favorable (aide, confiance), la seconde pense qu elle vit sur le dos de ses clients. Les deux sous-ensembles d items caractérisant ces deux sous-populations sont assez exclusifs les corrélations sont toutes négatives dans le rectangle en bas et à gauche du croisement des items 1,2,3 avec les items 4,5,6. Quelle est l importance de ces deux sous-populations? La matrice des cooccurrence nous donne une première indication les sujets favorables sont plus nombreuses que les consuméristes 12, leurs cooccurrences sont plus fréquentes (de 104 à 112 versus de 59 à 85). Cette matrice module aussi la réalité d une nette division en deux de la population. En effet le fait que «le découvert rapporte à la banque» soit fortement associé à «l aide aux problèmes rencontrés par les particuliers» montre qu il n existe pas majoritairement une vision tranchée. On le montre aussi quand 52 sujets associent ce dernier item au fait de «n être qu un numéro». L interprétation par un seul de ces indices nous apparaît alors mutilante. 12 On peut aussi le montrer en observant simplement les fréquences de ces items : 40,4%, 37,4%, 49%, 40,4%, 29%, 27% : les deux derniers items sont nettement minoritaires.

16 Indices de similitude dans le cas de données ordinales. Dans le paragraphe précédent on a réduit l information obtenue au questionnaire «banque» à la seule présence du choix des items «caractéristiques» alors que l information initiale était plus complexe : le sujet devait choisir, parmi les 6 items, les deux items les plus caractéristiques de la banque, puis les deux items les moins caractéristiques de la banque, il restait alors deux items non choisis. On peut donc classer, pour chaque sujet, les items sur une échelle de trois degrés : caractéristique (3), non choisi (2), moins caractéristique (1). Le croisement de deux items prend alors la forme d un tableau 3 x 3. Le tableau 13 montre, par exemple, le croisement de l item 2 (On est en Confiance), avec l item 3 (Aide Problèmes Particuliers Total Item Plus généralement le croisement de deux variables i et j se présente sous la forme d un Total item tableau, le plus souvent carré, mais Tableau 12 : La Banque : Croisement des classements des items 2 et 3. pouvant être aussi rectangulaire si Ici il y a 49 sujets ayant considéré que l item 3 n est pas caractéristique de la le nombre de modalité n est pas le banque (codé 1)et dans le même temps ces sujets n ont pas choisi l item 2 : il n est ni caractéristique ni non caractéristique (codé 2). même pour i et j. Tableau 13 : Croisement des variables i et j. Variable i \ j échelon 1 échelon 2 etc k échelon max Total i échelon 1 n11 n12 n1k n1m n1t échelon 2 n21 n22 n2k n2m n2t etc q nq1 nq2 nqk nqm nqt échelon max Nm1 nm2 nmk nmm nmt Total j nt1 nt2 ntk ntm N a) Le calcul qui mettra en évidence le phénomène de concentration des réponses sur les mêmes valeurs pour les deux variables suppose que les variables aient la même échelle (même nombre d échelons). Dans ce cas on va faire la somme de toutes les cases où il y a concordance entre les échelons des deux items : k m S11 = nkk N. Cet indice est très sensible aux situations majoritaires. k = = 1 Cet indice ne met en évidence que l importance de la non préférence d un item sur l autre. Il ne tient pas compte de l ordre des échelons : 1 est plus proche de 2 que de 3 par exemple. Pour prendre en compte ce fait on peut construire des indices qui commencent par calculer une distance. Mais ce faisant on introduit une propriété supplémentaire : on ne peut faire ce calcul qu en supposant l équidistance entre les q k nqk k q modalités de 1 à 2, de 2 à 3 etc... S12 = 1 dite similitude calculée à partir de la N ( m 1) «distance city-block»

17 17 2 ( q k) nqk k l On peut aussi calculer une fonction inverse de la distance euclidienne : S13 = 1 N ( m 1) Christian Guimelli a voulu faire un indice variant entre 1 et +1, le 0 devenant une sorte de point neutre séparant les faibles et les fortes similitudes 13. Il calcule S 14 = 2( S 12 0,5). Cet indice veut se référer analogiquement aux questionnaires où on demande aux sujets de se positionner sur un intervalle de [ m à +m]. En fait c est une simple transformation linéaire de l indice S 12 «city block» b) Les indices de similitude, qui tiennent compte de l indépendance statistique, qui respectent la propriété de préférence et qui ne font pas implicitement l hypothèse d équidistance entre les échelons, ont été créés par Kendall. Cet auteur propose deux indices dit Tau b (S 15 ) dans le cas d un tableau non carré (si le nombre maximum d échelons n est pas le même pour les items i et j) et Tau c (S 16 ) qui correspond aux tableaux carrés (cf. annexe 1). 13 Guimelli, Ch., 1998

18 Indices de similitude dans le cas de données métriques. On se trouve devant un tableau [X x Y] pouvant prendre des valeurs dans les réels. Tableau 14 : Tableau des données métriques Variable Variable Variable Var max Total Sujets a p l 01 n1a n1p n1l n1mv n1 02 n2a n2p n2l n2mv n2 03 n3a n3p n3l n3mv n3 k nkp nkl nk max nmsa nmsp nmsl nms Total na np nl nmv N Avec nk = nkp et np = nkp et N = np p k p a) Dans le cas où toutes les variables ont le même intervalle de définition (par exemple les variables sont toutes des pourcentages) on peut calculer un indice mettant en évidence les effets de taille (l importance des différents nkp) : on calcule une fonction inverse de la distance euclidienne entre la 2 colonne p et l par exemple S = 1 ( nkp nkl. 17 ) k b) La distance à l indépendance statistique est bien représentée par le coefficient de corrélation de Bravais Pearson que nous avons déjà présenté : S 18 = r. Cet indice varie de 1 à +1. On peut aussi calculer la distance dite du Khi 2, distance proposée par J.P.Benzécri et utilisée dans les Analyses Factorielles de Correspondance : S = k = m nk nkp nkl = nl 19 1 k 1 N np 2

19 Indices de similitude dans le cas particulier des tableaux de données relationnelles (tableaux carrés). Ces tableaux comportent le même nombre de lignes et de colonnes. Si les cellules du tableau sont déjà les valeurs d un indice de similitude (corrélation par exemple) on se contente de considérer ce tableau comme une matrice de similitude [X x X]. Dans le cas contraire on se trouve devant le tableau suivant [X x X ] où nlp n est pas égal à npl. Tableau 15 : tableau des données relationnelles. Var a Var p Var l Var m Var a * nap nal nam * Var p npa * npl npm * Var l nla nlp * nlm * * * Var m nma nmp nml * a) Pour faire apparaître les effets de taille on utilisera l analogue de la cooccurrence S 20 = npl + nlp. b) La référence à une valeur d indépendance statistique conduit à calculer une distance à une valeur théorique. Si les valeurs npl représentent la valeur d une relation (non symétrique) on est conduit à la comparer au calcul de la valeur théorique relative à la somme de la ligne p et de la colonne l (indice S 21 de l annexe 1)

20 20 CHAPITRE 2 LES PROPRIETES FORMELLES AU SEIN DE LA MATRICE DE SIMILITUDE. La matrice [X x X] où on rassemble les indices de similitude est constituée de m ( m 1) 2 14 valeurs avec m le nombre de variables étudiées. Si m est égal à 25 cela nous donne 300 valeurs, s il est égal à 50 on obtient nombres. Il faut donc se donner un moyen pour résumer ces données en perdant le minimum d informations. Un graphe c est des points et des traits les reliant. Dans la figure 6 on compte 6 sommets de a à f reliés par des arêtes que l on écrit : (ad), (db), (ac) etc Si on élimine certains sommets et les arêtes qui y aboutissent on obtient un sous-graphe. S il existe toujours une arête entre deux sommets quelconques d un sous-graphe on dit que c est une clique. Si on garde tous les sommets d un graphe et que l on élimine certaines arêtes on obtient un graphe partiel. Si on va d un sommet (d une variable) à un autre sommet par un parcours empruntant des arêtes toutes différentes on a défini une chaîne. Si à partir d un sommet on parcourt une chaîne qui nous ramène sur le sommet de départ on parle d un cycle. Si un groupe de sommets est tel que l on peut toujours trouver une chaîne pour joindre deux sommets quelconques de ce groupe, il est appelé composante connexe. Si on affecte une valeur à ces traits on obtient une représentation graphique donnant la même information que la matrice de similitude : des variables et des valeurs de similitude entre chaque paire de variables qui deviennent, dans la théorie des graphes, des sommets et des arêtes valuées (un graphe valué). Principales définitions de la théorie des graphes non orientés. On appelle Graphe G = (X, U) le couple constitué par un ensemble X et une famille U de paires d éléments de X U [ X, X ], On dit que X est l ensemble des sommets {i} et U l ensemble des arêtes {u}, u = (ij) avec i, j X. On dit que les sommets i et j sont les extrémités de l arête (ij). On appelle G A sous-graphe de G le graphe engendré par A X dont les sommets i, j A X et les arêtes ( ij) U. On appelle graphe partiel de G engendré par V U le graphe (X, V) dont les sommets sont tous ceux de X et les arêtes ( ij) V. Un graphe est complet si toute paire (ij) est arête du graphe : i, j : ( ij) U. Une clique est un sous graphe complet du graphe G. On appelle chaîne la séquence (ul, u2,... uq) d arêtes de G telle que chaque arête de la séquence ait une extrémité en commun avec l'arête précédente (sauf u1), et l'autre extrémité en commun avec l'arête suivante (sauf uq). Nous ne considérons ici que les chaînes élémentaires c'est-à-dire celles où tous les sommets sont différents. On appelle chaîne maximale une chaîne élémentaire à laquelle on ne peut pas ajouter une nouvelle arête. On appelle cycle une chaîne élémentaire (u1,uq) tel que u1 = (ij) et uq = (ki). La longueur d'une chaîne ou d'un cycle est égale au nombre d'arêtes figurant dans cette chaîne ou ce cycle. On dit qu'un graphe est connexe si pour toute paire de sommets (ij) distincts il existe une chaîne reliant ces deux sommets. On montre que si G = (X,U) n'est pas connexe, on peut trouver une bipartition de X en X1 et X2 de telle sorte qu'aucune arête n'ait une extrémité en X1 et l'autre en X2. Une composante connexe est un sous-graphe connexe tel qu on ne peut y ajouter un autre sommet sans perdre la propriété de connexité. On appelle arbre un graphe connexe et sans cycle. On montre qu'un arbre a (n-1) arêtes si n est le cardinal de X. On appelle arbre d'un graphe G connexe un graphe partiel de G qui est connexe et sans cycle. On appelle matrice associée à un graphe la matrice dont les valeurs (ij) = 0 si ( ij) G et égale à 1 si ( ij) G. On peut étendre cette définition aux graphes valués. Ces graphes sont complets et chaque arête (ij) à la valeur de la cellule (ij) de la matrice. 14 La matrice a (m x m) valeurs, comme elle est symétrique chaque valeur apparaît 2 fois, comme on ne tient pas compte des valeurs de la diagonale, on aboutit à cette formule.

21 21 Pour cela nous utiliserons la théorie des graphes 15. Elle nous permet de dire qu à toute matrice symétrique, telles que nous les avons construites avec les divers indices de similitude, correspond un graphe valué non orienté. Les objets mathématiques que propose la théorie des graphes sont en effet appropriés à la description des similitudes. Il est alors possible de nous appuyer sur les outils que nous donne cette théorie pour construire des «représentations graphiques» les plus fidèles possible. Quelles différentes organisations d un ensemble de variables cherche-t-on à décrire? Les représentations graphiques qui sont, ici, utilisées ne relèvent pas d une représentation «approchée» des distances exprimées par la matrice de similitude (au sens d une représentation géométrique comme dans l AFC) mais visent une représentation exprimant par des traits les liaisons (les proximités) entre variables. On obtient une représentation plus topologique que géométrique. a) En premier on veut savoir si ces variables s organisent autour de dimensions. L analyse factorielle nous propose des axes géométriques (le plus souvent dans un espace Euclidien). Ici nous utiliserons la notion de chaîne qui informe sur l intermédiarité et une notion plus polymorphe celle d arbre comme ensemble de chaînes maximales. Ce dernier donne une structure 16 à l ensemble des variables. On voit sur l exemple pourtant simple de la figure 1 qu un arbre peut montrer l existence de plusieurs dimensions Soit la ressemblance établit par un seul sujet entre les variables a à f : Sommets a b c d e f a * b 0 * c 1 1 * d * e * f * On peut extraire de ce graphe l arbre ci-dessus. Cet arbre montre trois chaînes maximales (a,d,b,e,f) allant de a à f ainsi que (a,d,b,c) et (c,b,e). Figure 1 Exemple b) Cet arbre est un peu squelettique. Il met bien en évidence une dimension principale allant de a à f mais il ignore les cycles (a,c,d,b,a) et (c,b,e,c). Si les données ne sont pas correctement décrites par un (ou des) axe mais forment un (ou des) cycle(s) il faut abandonner l idée d une seule dimension explicative. Les cycles s interprètent souvent comme le produit de deux dimensions. Dans une étude sur les exploitations agricoles on obtenait un cycle qui passait des indicateurs relatifs aux grandes exploitations céréalières à ceux des grandes exploitations viticoles puis des petites exploitations viticoles pour se terminer par ceux des petites exploitations céréalières. On pouvait alors mettre en évidence l existence de deux critères indépendants : grand / petit et viticole / céréalier. On verra plus loin un cycle s appuyant sur deux oppositions : pays en voie de développement versus pays développés et pays occidentaux versus pays sous influence communiste (cf. 2.4). c) La recherche de classifications est aussi un mode classique de traitement des données. Un ensemble d algorithmes vise à construire des classes (Classification 15 Théorie défini par Koening, 1925 et introduite en France par Berge, Cette structure est minimale car on ne peut lui enlever une arête sans détruire la connexité et donc l arbre.

22 22 Ascendante Hiérarchique, Segmentation, Nuées dynamiques, block-model ). La notion de cliques et leur organisation en un «filtrant des cliques» est, comme nous le verrons plus loin, le moyen de mettre en évidence un ensemble de groupements non obligatoirement disjoints. Cette dernière propriété, même si elle donne une certaine complexité à l analyse, donne une souplesse et une richesse de description que n a pas la définition des classes qui supposent obligatoirement la disjonction (un élément ne peut pas appartenir à deux classes). d) L analyse du graphe permet la mise en évidence de l une (ou de plusieurs) de ces organisations : dimensions, cycles, groupements. Par là même l interprétation n est pas dépendante de la procédure mathématique utilisée : classification ou analyse factorielle. Dans un même graphe on peut déceler une zone de forte densité (clique) pouvant se trouver sur une chaîne décrivant un axe. Pour une partie des variables la description en groupements est pertinente, pour une autre partie la description d un axe le sera. On obtient ainsi la possibilité d identifier plusieurs formes de description des données. Cette souplesse est liée à une propriété essentielle de l analyse de similitude, propriété qui la distingue des classiques analyses de données. Ici la réduction de l information se fait à travers l étude des valeurs «localement» les plus fortes et non sur la base d une analyse «globale» (On tend à ne pas tenir compte des arêtes dont les valeurs sont faibles). Qu entendons nous par cette distinction local / global? pour nous faire comprendre nous allons présenter un exemple UN PREMIER EXEMPLE D ANALYSE DE SIMILITUDE. Nous reprenons l exemple du paragraphe Le questionnaire passé à 506 sujets représentatives de la population française visait à caractériser la «banque» par les termes d une liste. Cette liste comprend un grand nombre de termes. Nous en extrayons ici six. Chaque terme est codé de 1 à 3 comme nous l avons indiqué au paragraphe (tableau 12). On calcule le Tau de Kendall pour chaque paire de terme 17. On obtient une matrice de similitude qui présente, quand on organise ses lignes (et colonnes), une structure binaire : d un coté on trouve une vision positive et de l autre une vision plutôt négative (tableau 16). Comment l analyse de similitude montre cela? 17 Au paragraphe nous n avions conservé que l information : «le mot est caractéristique de la banque». L indice était alors soit la cooccurrence soit le phi de contingence (cf. tableau 11). Ici nous utilisons une information plus complète en utilisant la hiérarchie : le mot est non caractéristique (codé 1), le mot n a pas été choisi ni comme non caractéristique ni comme caractéristique (codé 2), le mot est caractéristique (codé 3). On utilise alors le Tau de Kendall. On trouve en annexe 2 un exemple de questionnaire de caractérisation.

23 23 1 : La Banque me fait Confiance : * 2 : On est en Confiance :.25 * 3 : Aide Problèmes Particuliers : * 4 : Découvert Rapporte à Banque : * 5 : Travailler à son Profit : * 6 : On n'est qu'un Numéro : * Tableau 16 : La Banque : matrice de similitude (Tau de Kendall) Nous associons à cette matrice un graphe valué donc complet. Pour résumer ce graphe en conservant les informations essentielles à la description de la structure des données nous allons, en premier, construire l arbre maximum 18 associé à cette matrice de similitude. Pour cela nous ordonnons de manière décroissante (grâce à leur valeur) les arêtes du graphe. L ensemble de ces valeurs forme un préordre (il peut y avoir plusieurs arêtes de même valeur) ; on appelle Préordonnance de similitude la liste ordonnée associant les arêtes et leurs valeurs. Pour le graphe de cet exemple nous avons la préordonnance suivante (La première arête rejoint les sommets 1 et 2 et a la valeur 0,25). 0,25 (1-2) ; 0,21 (4-5) ; 0,21 (5-6) ; 0,15 (4-6) ; 0,12 (1-3) ; 0,10 (2-3) ; -0,14 (2-4) ; -0,15 (3-6) ; -016 (2-5) ; - 0,16 (1-5), -0,17 (3-4) ; -0,23 (3-5) ; -0,29 (1-6) ; -0,32 (2-6) ; -0,38 (1-4) Tableau 17 : Préordonnance de similitude de l exemple La Banque. On construit l arbre maximum en parcourant la préordonnance de manière décroissante et en retenant les arêtes qui ne construisent pas un cycle avec les arêtes déjà retenues. Pour cela on utilise l algorithme suivant. Algorithme de construction de l arbre maximum. a- étape k =1 : on retient les deux premières arêtes. On définit les composantes connexes au seuil de la deuxième arête. On définit i=0. b- étape «k» : on définit «vk» la valeur de l arête suivante. c- on établit la liste «lk» des arêtes ayant la même valeur «vk». d- on retient les arêtes de cette liste qui relient deux composantes connexes différentes de l étape «k-1». e- on reconstruit avec les arêtes retenues les composantes connexes de l étape «k». f- s il y a plusieurs composantes connexes on retourne en b (en se plaçant à la dernière arêtes de la liste «lk»). g- les arêtes retenues après ce critère d arrêt sont les arêtes de l arbre maximum (et s il y a des ex-aequo de la RAM, cf. infra). Cet algorithme appliqué à la préordonnance des données «La Banque» construit l arbre suivant: étape valeurs liste «li» des arêtes arêtes retenues composantes connexes 0 0, (1-2) (3) (4) (5) (6) 0 0, ; ; 5-6 (1-2) ; (4-5-6) ; (3) 1 0, non retenu car cycle (4,5,6) 2 0, (1-2-3) ; (4-5-6) 3 0, non retenu car cycle (1,2,3) 4-0, ( ) 18 On appelle arbre maximum l arbre dont la somme des valeurs de ses arêtes est maximale.

24 24 5 arrêt car il n y a qu une seule composante connexe. Cette procédure est un peu semblable à celle de la construction d un réseau électrique élémentaire. On veut relier les différents groupes d usagers (les composantes connexes) au moindre coût. La solution est un réseau qui a la forme d un arbre (ici minimum). Si l une des arêtes est coupée par une intempérie l une des deux composantes connexes ainsi créées se trouve sans électricité.

25 25 Nous avons, pour les besoins de l exemple 19 modifié une valeur de la matrice de similitude. Il y avait en fait deux arêtes ayant même valeur 0,14. Dans ce cas où deux arêtes (ici les arêtes 2-4 et 3-6) peuvent faire partie de l arbre maximum, il y a deux arbres maximum possibles ( ) ou (2-1- Figure 2 : La Banque : Arbre Maximal ). Et il n est pas possible de choisir l un ou l autre de ces arbres car les sommes des valeurs de leurs arêtes sont identiques. Il faut alors dessiner sur un même graphe les deux arbres, tous les deux maximaux. Il nous faut accepter une modification de la définition première de la figure obtenue par l algorithme : on appelle cette figure la RAM (Réunion des Arbres Maximaux). Figure 3 : La Banque : RAM, Réunion des Arbres Maximaux. le Graphe-Seuil G s0 au seuil s0 est tel qu on efface les arêtes de valeur inférieure à un certain seuil s0. On ne garde que les arêtes supérieures ou égales à ce seuil. Il est composé des arêtes (ij) tel que si valeur( ij) s0 alors ( ) Gs0 ij. Pour donner un peu de chair autour de ce squelette (la RAM de la figure 3) on va admettre toutes les arêtes supérieures à une certaine valeur-seuil. On définit alors une nouvelle notion : le Graphe-Seuil. Ici on dessine le graphe des arêtes positives (s0 = 0,0). Il complète la description de l arbre. Il montre que ces données sont constituées de deux sous-ensembles correspondant à deux sous-graphes. L opposition entre ces deux groupes de variables est bien indiquée par l arête de valeur négative (-0,14)de l arbre maximum qui réunit ces deux composantes connexes. On voit que la représentation de la banque (ici caricaturale pour les besoins de l illustration) repose pour une partie de la population interrogée sur la confiance et pour une autre partie sur le profit que fait la banque avec l argent de ses clients. 19 Cet exemple donne un cas particulier d arbre : c est une chaîne (de 6 à 3). On se trouve rarement dans ce cas de figure.

26 26 Figure 4 : La Banque : Graphe des arêtes positives. 2.2 LA DEMARCHE FORMELLE DE L ANALYSE DE SIMILITUDE. Nous prenons maintenant un exemple plus conséquent pour montrer la démarche de l analyse de similitude. La matrice de similitude est ici une matrice de corrélation calculée sur des données provenant d une enquête sur les «valeurs» à partir d un questionnaire de Schwartz 20 passé auprès de 268 sujets. Leurs réponses au questionnaire ont permis de construire une série de scores pour chaque sujet : chaque score reflète l opinion d un sujet à propos d une valeur. Cette méthode identifie dix valeurs : B*Accomplissement, A*Pouvoir, K*Sécurité, J*Conformisme, H*Tradition, G*Bienveillance, F*Universalisme, D*Stimulation, E*Centration sur soi, C*Hédonisme. On obtient la matrice suivante. B*Accomplissement : * A*Pouvoir : 41 * K*Sécurité : * J*Conformisme : * H*Tradition : * G*Bienveillance : * F*Universalisme : * D*Stimulation : * E*Centration sur soi : * C*Hédonisme : * Tableau 18 : Les 10 Valeurs de Schwartz : matrice de similitude (corrélation multipliée par 100) 20 Enquête Eric Tafani, 1999, Laboratoire de Psychologie Sociale de l Université de Provence ; et Beauvois, L., (ed) La construction sociale de la personne vol 4, P.U.G.

27 Recherche d un squelette : la construction de l arbre et la 3-analyse On associe à cette matrice un graphe complet. Le résumé de l information contenu dans cette matrice, dans le graphe complet, doit être conçu comme devant donner le maximum d informations avec le minimum d arêtes. La première analyse consiste donc à construire un arbre maximum.

28 28 Figure 5 : Les 10 valeurs de Schwartz : arbre maximum Cet arbre nous montre qu il existe une sorte d axe allant de la valeur E*Centration sur soi à B*Accomplissement. Il faut vérifier ce premier résultat. Pour cela on utilise une méthode de traitement du graphe dite «3-analyse». Cette méthode fut la première utilisée par Claude Flament, l inventeur de l analyse de similitude. Elle consiste à étudier tous les triangles du graphe complet (ij,jk,ki) et d éliminer, dans chacun de ces triangles, l arête dont la valeur est la plus faible. Cette méthode procède de l intuition d intermédiarité, intuition reposant sur l inégalité triangulaire : si un sommet j est «intermédiaire» entre les sommets i et k on doit avoir Sij > Sik et Sjk > Sik. En éliminant (ik) on créé une chaîne (i,j,k). Le triangle ikj est d une certaine manière aplati. Algorithme de la 3-analyse Le graphe G3 est composé des arêtes qui ne sont pas marquées par l algorithme suivant : - soit l arête (ik) de G. - on passe en revue tous les sommets j du graphe G : j forme avec ik un triangle dont les arêtes sont (ij), (ik), (jk) [certaines de ces arêtes peuvent déjà être marquées] - Si Sij > Sik et Sjk > Sik alors on marque l arête (ik). Figure 6 : Principe de la Après l exploration, par cet algorithme, de toutes les arêtes du graphe G, on obtient un graphe dit «G3». Ce graphe contient l arbre mais on y trouve le plus souvent d autres arêtes formant des cycles. Il contient l arbre car si on applique l algorithme précédent non seulement au cycle d ordre 3 (les triangles) mais à tous les cycles (d ordre 4 à m-1, avec m le nombre de sommets du graphe), en éliminant l arête la plus petite de chaque cycle, on obtient l arbre maximum (graphe sans cycle). L existence de cycle dans le

29 29 graphe G3 est l indicateur d une inadéquation partielle, ou totale, de l idée d axe pour décrire les données. Quand les données s organisent autour d un axe le graphe, G3 est l arbre maximum. La théorie socio-psychologique sur lequel repose ce questionnaire prédit l existence d un cercle sur lequel se disposent les valeurs 21. On constate ici, par le graphique de la 3-analyse, que ce cercle est à peu près respecté par les données (A,B,C,D,E,F,G,H,J,K). L axe dessiné par l arbre maximum est ici un grand cercle où les sommets D et E rejoignent les sommets B et A. La centration sur soi a d une certaine façon des points communs avec le pouvoir et de l autre avec la stimulation, de même l accomplissement personnel est associé à la stimulation et au pouvoir. Ils ne sont pas aux deux bouts d un axe. Les valeurs de corrélation entre (BA) et (BD) sont bien différentes (0,41 versus 0,19 par exemple) mais ces arêtes ne sont jamais les plus petites dans tous les triangles possibles. Elles représentent un maximum «local». Nous reviendrons plusieurs fois sur cette caractéristique de l analyse de similitude : elle raisonne localement (ici, sur les triangles). On peut aussi observer que d autres cycles existent tel (E,D,F,G), (D,F,G,C) (G,H,J,K) etc.. Il montrent une certaine complexité autour de la chaîne de l arbre maximum qui va de E à G. 21 Cette circularité a été vérifiée dans de nombreuses recherches utilisant diverses analyses de données.

30 Recherche de la chair autour du squelette : le filtrant des cliques 22. Ayant mis en évidence que la chaîne principale de l arbre maximum n est pas une bonne description de ces données, il convient de compléter l analyse. Pour cela il nous faut explorer la préordonnance de similitude. Cette préordonnance se présente sous la forme d une liste d arêtes affectées de leur valeur de similitude. Tableau 19 : Les 10 valeurs de Schwartz : début de la préordonnance de similitude. La liste ci-dessous indique la valeur de l arête puis les deux sommets: la première arête est.58 (KJ) c est l arête (KJ) qui a pour valeur 0,58. La préordonnance :.58 (KJ).45 (AK).41 (BA).41 (AJ).41 (GF).39 (JH).34 (BK).34 (BJ).34 (DE).33 (HG).32 (KG).29 (HF).28 (KH).27 (JG).27 (DC).20 (FD).19 (KF).19 (BD).18 (AH).16 (GC) Figure 8 : Les 10 valeurs de Schwartz Graphe-seuil Gs =0,41 0,41 il est composé de 5 arêtes : (KJ), (AK), (BA), (AJ), (GF), cf. figure 14. On va parcourir cette préordonnance de manière décroissante. A une valeur donnée s0 on peut faire correspondre un graphe seuil G s0. A la première valeur 0,58 ce graphe n est composé que d une seule arête. Au seuil Dans ce graphe on observe une clique (A,K,J) qui s est constituée à ce seuil. On dira que cette clique à la valeur 0,41. Si on poursuit le parcours de la préordonnance au seuil suivant 0,39 se rajoute l arête (JH), puis au seuil 0,34 se rajoute les arêtes (BK), (BJ), (DE). La notion de préordre prend ici tout son sens quand on Une clique est un sous-graphe complet. Soit G = (X,U) et soit un sous ensemble de sommets E X, pour tout couple i, j E il existe une arête ( ij) U. Une clique est dite «clique maximale» s il n est pas possible de rajouter un nouveau sommet à E sans détruire sa propriété de sous-graphe complet. En explorant pas à pas de manière décroissante la préordonnance de similitude on va faire apparaître des cliques maximales qui forment un ensemble organisé par l inclusion. Cet ensemble est appelé «filtrant des cliques maximales». Figure 9 : Les 10 valeurs de Schwartz Graphe-seuil Gs =0,34

31 31 observe que plusieurs arêtes ont la même valeur. Avec ce nouveau seuil on observe la présence de plusieurs triangles et d une clique maximale de quatre sommets (B,A,K,J) qui inclut la clique (A,K,J)du seuil 0,41 précédent. Si on continue notre parcours décroissant on verra successivement apparaître les cliques (H,G,F) au seuil de 0,29 puis (K,J,H) et (K,H,G) au seuil 0,28. Ces deux cliques s unissant au seuil suivant 0,27 pour former la clique maximale (K,J,H,G). Toutes les cliques ne se trouvent pas obligatoirement dans la liste des cliques maximales. Ici on va voir que les cliques (A,K,J) et (B,A,K,J) sont présentes dans le filtrant des cliques maximales mais que les cliques (B,A,K) et (B,K,J) ne s y trouvent pas car elles apparaissent au seuil 0,34 et sont immédiatement, à ce seuil, absorbées par la clique (B,A,K,J). La liste des cliques maximales a donc des propriétés particulières : elles existent entre le seuil de leur création et celui de leur absorption. Si, pour une clique, ces deux seuils sont confondus, alors elle ne fait pas partie du filtrant. Le filtrant ne retient que les cliques qui ne sont pas des étoiles filantes! Construction pas à pas du filtrant : valeurs arêtes cliques maximales du filtrant 0,58 K-J (K,J) 0,45 A-K (K,J) ; (A,K) 0,41 A-B ;A-J ; G-F (A,K,J) ; (B,A) ; (G,F) [cf. figure 8] 0,39 J-H (A,K,J) ; (B,A) ; (G,F) ; (J,H) 0,34 B-K ; D-E (B,A,K,J) ; (G,F) ; (J,H) ; (D,E) [cf. figure 9] 0,33 H-G (B,A,K,J) ; (G,F) ; (J,H) ; (D,E) ; (H,G) 0,32 K-G (B,A,K,J) ; (G,F) ; (J,H) ; (D,E) ; (H,G) ; (K,G) 0,29 H-F (B,A,K,J) ; (H,G,F) ; (J,H) ; (D,E) ; (K,G) 0,28 K-H (B,A,K,J) ; (H,G,F) ; (K,J,H) ; (K,H,G) ; (D,E) 0,27 J-G ; D-C (B,A,K,J) ; (H,G,F) ; (K,J,H,G) ; (D,E) ; (D,C) 0,20 F-D (B,A,K,J) ; (H,G,F) ; (K,J,H,G) ; (D,E) ; (D,C) ; (F,D) 0,19 K-F ; B-D (B,A,K,J) ; (K,H,G,F) ; (K,J,H,G) ; (D,E) ; (D,C) ; (F,D) ; (B,D) 0,18 A-H (B,A,K,J) ; (K,H,G,F) ; (K,J,H,G) ; (D,E) ; (D,C) ; (F,D) ; (B,D) ; (A,K,J,H) etc. 22 On utilise cette notion mathématique de «Filtrant» car l ensemble des cliques que l on va maintenant définir a bien les propriétés d un «ensemble filtrant supérieurement» : ensemble ordonné tel que toute paire de ses éléments admet au moins un majorant commun.

32 32 Pour représenter cette suite de cliques et leurs relations d inclusion on construit et dessine le «filtrant des cliques maximales» qui est composé des cliques maximales et de leur relation d inclusion. On dessine rarement le filtrant complet qui a pour sommet terminal la clique du graphe complet, clique constituée par tous les sommets. On ne représente pas non plus les arêtes qui sont les cliques maximales de deux sommets car elles ont la propriété d être les arêtes du graphe G3. Pour mettre en évidence les relations d inclusion on cherche à positionner au mieux les cliques maximales en se servant de l axe haut / bas pour exprimer la décroissance des seuils et, dans la mesure du possible, représenter une quasimétrique de l échelle de la valeur des seuils. Figure 10 : Les 10 Valeurs de Schwartz : Filtrant des cliques maximales (limité au seuil de 0,11). La valeur des cliques est la valeur de l arête qui a crée la clique (multiplié par 100) tel qu on l a vu dans la construction pas à pas du filtrant. Cette valeur se trouve avant l astérisque, après celle-ci on trouve les lettres correspondantes aux sommets composant la clique (exemple : 11 * K.H.G.F.E est la clique (K,H,G,F,E) créée au seuil 0,11). On peut constater que les sommets se trouvent prioritairement dans une certaine zone de ce filtrant. On peut représenter ainsi leurs domaines :

33 33 La première constatation est la situation de l élément K Sécurité qui participe à la quasi totalité des cliques. Ce filtrant montre la circularité du graphe : on retrouve les éléments D (Stimulation) et E (Centration sur soi) associés aux éléments des deux bouts de la chaîne (B-A / F-G). A un seuil élevé (0,18), on observe l existence d un axe sous la forme d une famille de recouvrement allant de la clique (F,G,H) à la clique (B,A,K,J) par une suite de proximités qui est représentée par une ligne en zigzag dans Figure 11 : Les 10 Valeurs de Schwartz : Filtrant des cliques maximales (limité au seuil de 0,18). le haut du filtrant. Cette suite de proximités montre bien que l axe identifié plus haut recouvre en fait ce que le caricaturiste Daumier avait fait de la tête de Louis Philippe : par déformations successives le portrait devenait une Poire. Il y a entre chaque dessin successif une forte ressemblance mais presque aucune entre le premier (Louis Philippe) et le dernier (la poire). Ici les raisons qui ont contribuées à la ressemblance des éléments B (Accomplissement) et A (Pouvoir) ne sont pas celles qui ont contribué à la ressemblance des éléments G (Bienveillance) et F (Universalisme). Le filtrant, au seuil de 0,11, nous permet aussi de tenir compte de groupes de cliques apparus à des seuils plus bas. Dans cet exemple il y a un important écart entre le premier ensemble de cliques (créé de 0,41 à 0,27) et un second ensemble qui se forme autour des seuils de 0,11 à 0,13. Ce second ensemble met en évidence les liaisons des valeurs D,E et C avec le reste du graphe. Il montre une certaine autonomie de ces valeurs qui s organisent d abord de manière isolée et ne s intègrent qu avec la forte décroissance du seuil. Le graphe au seuil de 0,14 (figure 12) commencera à montrer cette intégration alors que celui dessiné au seuil de 0,27 (figure 13) montre au contraire deux univers distincts de valeurs. Figure 12 : Les 10 Valeurs de Schwartz : graphe au seuil de 0,14

34 34 Figure 13 : Les 10 Valeurs de Schwartz : graphe au seuil de 0, COMPARAISON ENTRE ANALYSE DE SIMILITUDE ET ANALYSE FACTORIELLE. On se propose d étudier le rapport entre un ensemble de professions (lignes L1 à L8) et un ensemble d adjectifs décrivant des traits de caractères (colonnes C1 à C8). On a pour cela interrogé 60 sujets 23 à qui on a demandé d associer chaque profession à deux adjectifs pour décrire un homme sympathique. On obtient le tableau de fréquences suivant (tableau 20) : par exemple le technicien (L6) a été associé 22 fois à l adjectif intelligent (C5). Tableau 20 : Homme sympathique : tableau de contingence. C1 C2 C3 C4 C5 C6 C7 C8 C9 Total L L L L L L L L Total L analyse de ce tableau dit «tableau de contingence» se fait en utilisant la corrélation entre les colonnes. On obtient alors la matrice de corrélation suivante entre les adjectifs (tableau 21). 23 Exemple tiré de Maisonneuve, Recherches diachroniques sur une représentation sociale,1978 ; repris par Rouanet, H.,Le Roux, B., 1993

35 35 Tableau 21 : Homme sympathique : matrice de corrélation. C1 C7 C6 C4 C9 C3 C2 C5 C8 C1 * C7.53 * C * C * C * C * C * C * C * Les adjectifs sont les suivants : C8 :compréhensif, C5 intelligent ; C2 généreux ; C3 gai ; C7 courageux ; C6 serviable ; C4 honnête ; C1 sérieux ; C9 discret. Cette matrice met en évidence deux sous ensembles de variables : (C1,C7,C6,C4) et (C3,C2,C5,C8) très corrélées positivement et une variable intermédiaire C9 qui est proche de certains éléments du premier groupe. Entre ces deux groupes on ne trouve que des corrélations négatives. L analyse de similitude va représenter cela en dessinant un arbre maximum (figure 14) dont l une des arêtes aura une valeur négative et en dessinant un graphe (au seuil 0,0 c est à dire ne comprenant que les arêtes de valeur positive : figure 17) composé de deux cliques maximales mettant en évidence les deux groupes de variables déjà cités. On voit alors que la variable C9 forme aussi une clique avec les sommets (C1,C6,C4) elle est Figure14 : Homme sympathique :Arbre maximum donc relativement bien associée au premier sous-ensemble de variables. Figure 15 : Homme sympathique : ACP (cercle des corrélations Figure 16 : Homme sympathique : AFC (comprenant les lignes et les colonnes)

36 36 On a effectué sur ce même tableau de données une analyse factorielle (ACP) et un analyse de correspondance (AFC). On obtient des résultats comparables mais avec certaines nuances. Dans les deux graphiques on voit une opposition entre (C1,C7,C6,C4) et (C3,C2,C5,C8). De même la colonne C9 se distingue un peu. Figure 17 : Homme sympathique : Graphe des arêtes positives (graphe-seuil, s = 0,001) Mais on peut aussi remarquer que l éloignement, dans le graphique de l ACP, entre C2-C3 et C5-C8 ne correspond pas aux valeurs de la matrice des corrélations : C2-C3 a pour valeur 0,60 tout comme C2- C5. On peut encore être surpris de l éloignement de C7 avec C1, ils sont corrélés à 0,53 alors que C6 semble plus proche de C1 avec quasiment la même corrélation 0,55. Dans le graphique de l AFC on trouve aussi quelques différences : C3 est très éloigné de C2 et surtout C2 est encore plus loin de C5-C8 alors que leur corrélation est très forte (0,60 et 0,58). C1 est au bout du premier axe alors qu elle forme avec C4,C6,C7 une clique dont les valeurs sont très fortes (supérieure à 0,53 sauf C4-C7 à 0,34). Une première raison à ces différences est l écart important entre les valeurs explicatives des deux premiers axes. Ils font respectivement 64% et 21% pour l ACP, 75% et 16% pour l AFC. Il faudrait écraser le second axe (par homothétie) pour donner une image un peu plus fidèle. Mais la raison principale des différences tient à l accent mis dans ces analyses sur la prise en compte de toutes les valeurs de la matrice de corrélation(ou la matrice de la distance du Khi 2 dans le cas de l AFC). D une certaine manière on donne autant d importance aux faibles valeurs (ici en particulier aux valeurs négatives) qu aux fortes valeurs. L analyse de similitude raisonne, elle, «localement». Autour d un sommet (d une variable) on prend en considération les valeurs les plus fortes (en particulier dans l arbre maximum et dans les graphes seuil) sans se préoccuper de représenter graphiquement les valeurs les plus faibles. On raisonne en tenant compte du fait que la similitude entre deux variables i et j tient à certains rapports entre les adjectifs et les professions alors que la similitude de deux autres variables m et l tient à d autres rapports. Il n est pas nécessaire pour établir la ressemblance entre les deux premières variables de tenir compte des éléments qui font la ressemblance des deux autres. On peut en donner une idée de cette différence de traitement «local versus global» sur cet exemple même si les calculs dans cet exemple relativisent, en partie, la possibilité qu a l analyse de similitude de tenir compte des valeurs extrémales. En effet l utilisation du coefficient de corrélation vise à résumer globalement l ensemble des valeurs des colonnes du tableau de contingence prises deux à deux. Quand les données sont

37 37 dichotomiques (0/1) les différences entre analyse factorielle et analyse de similitude sont bien plus importantes. Nous allons transformer le tableau de données en calculant pour chaque case le rapport entre le nombre de choix observés et le nombre théoriques si les choix des diverses professions étaient comparables à celui de la population totale. Soit nmk le nombre de choix de la case Lm/Ck (par exemple la case L4/C3 contient 12 choix : cf. tableau 20). On calcule n mk les choix théoriques correspondant à l indépendance statistique : n ' mk = ( nm nk) N. Dans le cas de la case L4/C3 on calcule : n ' 43 = (120 86) 960 ; n 43 = 10,75. Le rapport n mk / nmk est alors égal à 1,12. Il indique une case plutôt pleine. On représente ces rapports dans le tableau suivant où on a réorganisé les colonnes pour faire apparaître les blocs de nombre supérieurs à 1,1 ; ces blocs indiquent une certaine conjonction entre les lignes et le colonnes. C est cette conjonction qui est interprétée par les analyses factorielles ou de similitudes. Tableau 22 : Homme sympathique : Tableau des rapports valeur observée sur valeur théorique. C7 C1 C6 C4 C9 C3 C2 C5 C8 L1 1,42 1,62 1,20 1,21 0,77 0,84 0,96 0,58 0,33 L2 1,42 1,70 1,05 1,16 1,06 1,02 0,53 0,52 0,49 L3 0,75 1,70 0,97 1,16 1,16 0,84 0,32 0,87 1,06 L4 1,05 0,68 1,20 1,07 1,16 1,12 0,96 0,81 0,98 L5 0,82 0,85 0,97 1,21 1,45 0,74 0,53 1,10 1,06 L6 0,82 0,85 0,97 1,12 0,96 1,12 0,53 1,28 1,06 L7 0,90 0,26 0,82 0,51 0,67 1,21 1,92 1,45 1,63 L8 0,82 0,34 0,82 0,56 0,77 1,12 2,24 1,39 1,39 Ce tableau (22) a une certaine complexité. On comprend alors que tout résumé sera une approximation. Les analyses factorielles vont raisonner de manière globale. Ainsi on peut observer que dans le plan des deux premiers axes de l AFC la profession L3 (les vendeurs) se trouve très proche des adjectifs C4 (honnête) et C9 (discret) comme le montre les deux valeurs 1,16 du tableau mais la distance importante sur ce plan de L3 avec C1 (sérieux) ne reflète pas, elle, la valeur la plus forte de la ligne C1-L3 (1,70). Cet adjectif (C1) est plus attiré par L1 et L2, eux même attirés par C7. Cette suite d attirances est exprimée mathématiquement par le fait que chaque profession est au barycentre des éléments du second ensemble (des adjectifs) et réciproquement. C est cette suite d attirances qui détermine la position dans le plan des facteurs. Dans l analyse de similitude le raisonnement est local. Ainsi le groupe (C8, C5, C2, C3) n a d existence que grâce aux lignes L7 et L8 (Universitaires et Professions libérales) et cela malgré leurs divergences sur les lignes L5 et L6 (Employés et Techniciens). C est sur les lignes L7 et L8 que ces quatre adjectifs ont leurs valeurs les plus fortes. De même le groupe (C7, C1, C6, C4) se définit grâce à ses valeurs fortes sur les deux premières lignes (Paysans et Ouvriers). La position de C9 proche de C4 dans le graphe est ici exprimée par leur proximité sur les lignes L2 à L6. Le graphe de similitude met en évidence la nette séparation entre les deux groupes de colonnes, en cela il remet en cause l impression d une possible diagonalisation que donne le tableau.

38 38 Comme l écrit Alain Degenne 24 on peut distinguer ces méthodes par une métaphore géométrique. «Si l on veut une métaphore géométrique de manière à comparer l analyse de similitude et l analyse factorielle, l analyse factorielle détermine les meilleurs plans de projection d un nuage de points de manière à le présenter sous différents points de vue, l analyse de similitude recherche un meilleur itinéraire pour découvrir une topographie de ce nuage, vu en quelque sorte, de l intérieur». Par l analyse de similitude on évite les phénomènes d homothétie (de taille) qui affecte l analyse factorielle. Philippe Cibois 25 les met bien en évidence, aussi a-t-il inclus dans ses programmes d AFC (Tri-deux, Modalisa) la possibilité de représenter les premières valeurs de similitude, dessinant ainsi sur le plan factoriel un graphe-seuil. 2.4 COMPARAISON ENTRE ANALYSE DE SIMILITUDE ET ANALYSE «MULTIDIMENSIONAL SCALING» (MDS). Figure 18 : Douze Le premier exemple traité dans le livre de référence 26 de la méthode «Multidimensional Scaling» présente une enquête effectuée auprès de 18 étudiants américains en 1968 (Whish, M., 1971). Il leur était présenté les 66 couples formés par douze pays et on leur demandait de situer sur une échelle en 9 points la ressemblance entre les deux pays de chaque couple. Ensuite les auteurs ont identifié la similitude entre deux pays par la moyenne des scores obtenus 27. Ils présentent les résultats sur un plan à deux dimensions de l analyse faite par le programme INDSCAL. 24 Degenne, A., Cibois, Ph, Kruskal, J.B., Wish, M., On est ici dans le cas rare d une relation [X x X] où les valeurs sont données directement par les données : ici la moyenne des scores individuels.

39 39 Nous avons effectué une analyse de similitude de la matrice des scores moyens et nous avons dessiné sur ce plan, produit par INDSCAL, l arbre maximum de l analyse de similitude. Nous pouvons observer que les deux graphiques ne sont pas concordant même s ils ont quelques similitudes. Les auteurs sont eux-mêmes critiques sur leur propre représentation planaire. Ils présentent une matrice où se trouvent calculées les différences entre les valeurs de la matrice de similitude et celles des distances calculées entre les pays sur le plan des deux premières dimensions repérées par le programme INDSCAL. Il existe une différence non négligeable pour certain couples de pays : pour le couple Cuba Brésil 28, la distance sur le plan n est pas représentative de sa ressemblance telle qu elle a été exprimée par les étudiants. En effet cette arête fait partie de l arbre maximum pour l analyse de similitude. Les auteurs concluent l analyse de cet exemple en mettant en garde le lecteur : «This example illustrates an important point about the interpretation of MDS configuration. The coordinates printed out and plotted by the computer are not generally susceptible to direct interpretation». Figure 19 : Douze pays : graphe au seuil de 4,72 représentant le premiers tiers des arêtes (les valeurs sont multipliées par 100) Nous montrons dans la figure 19 le graphe au seuil 4,72, seuil permettant de représenter le premier tiers des arêtes. Il montre que les premières impressions conduisant à des catégorisations simples (opposition pays développés versus en voie de développement ou encore pays occidentaux versus pays sous influence communiste) ne sont pas vérifiées. Les données de cette enquête sont plus complexes. L analyse des graphes aux seuils successifs et de manière plus rigoureuse l analyse du filtrant des cliques sont ici nécessaires et très éclairantes (cet exemple sera repris de manière détaillé au 4.3). L arbre maximal (cf. figure 39) se compose bien d une étoile autour des USA regroupant les pays occidentaux, il définit une chaîne de pays communistes de la Yougoslavie à Cuba, et une chaîne de pays en voie de développement du Brésil à l Inde ou au Congo. Mais cet arbre maximum n est pas une bonne description des données. A travers l analyse du filtrant des cliques, on peut montrer l importance des cycles et même des liaisons transversales entre zones du graphes. Le Filtrant met d abord en évidence des zones où les cliques apparaissent à des seuils assez élevés (au dessus de 4,50). On peut alors identifier, à gauche, une zone de pays en voie de développement Congo(2), Egypte(4), Inde(6) ou Congo, Egypte, Cuba(3) ou Brésil(1), Congo, Cuba. Mais ces cliques sont totalement isolées, elles ne vont pas se regrouper même si on prend en compte la moitié des arêtes de la préordonnance. De même on trouve, à un seuil élevé une structure fermée des pays d influence communiste Cuba(3), Chine(9), Russie(10), Yougoslavie(12), auquel viendra se rattacher à un seuil inférieur l Egypte(4). Enfin, à droite, on trouve les pays occidentaux autour des USA (11) Israël (7) et le Japon (8) une clique dont la France(5) est exclue, même à des valeurs de similitude très faibles. Il y a 28 Ces deux pays sont les seuls pays latino-américains. C est sans doute la raison ponctuelle de leur relativement grande similitude. Les critères plus généraux de Est / Ouest et Nord / Sud sont alors moins pertinents.

40 40 donc bien une réalité, à un seuil élevé, de la catégorisation spontanée. Mais dès que l on abaisse le seuil du filtrant, cette catégorisation ne tient plus. Figure 20 : Douze pays : Filtrant des cliques supérieures à 4,16. 1 = Brésil, 2= Congo, 3 = Cuba, 4 = Egypte, 5 = France, 6 = Inde, 7 = Israël, 8 = Japon, 9 =Chine, 10= Russie, 11 = USA, 12 = Yougoslavie. Dans le filtrant au seuil de 4,16 la Russie (10) est présente dans de très nombreuses cliques. On identifie à droite une structure de recouvrement connexe autour des USA (11), avec d un coté Israël (7) et le Japon (8) puis Japon (8) et Russie (10) et enfin vers Russie (10) et France (5). Plus à gauche on observe une structure de recouvrement connexe autour de la Russie (10) et de la Yougoslavie (12) avec d un coté Israël (7), Japon (8), puis France (5) et enfin Egypte (4). On notera aussi la multitude des cliques isolées sans descendance : elles expriment les différentes facettes des pays en voie de développement.

41 41 Le graphe de la 3-analyse (figure21) montre lui aussi que l interprétation doit se complexifier. Figure 21 : Douze Pays : graphe 3-analyse (les arêtes rajoutées à l arbre sont en trait fin) Les arêtes la 3-analyse France Russie et Israël Yougoslavie indiquent comme le filtrant qu il existe de nombreuses liaisons transversales. On peut voir que chaque type de regroupement ou de liaison a sa propre logique, son propre raisonnement. C est la clique Inde, Japon Russie (la vocation asiatique de la Russie!), ou encore Egypte, Inde, Russie, (l appui russe au tiers monde!), Egypte, France, Russie Yougoslavie (la France de De Gaulle hors de l OTAN!, les sujets interrogées sont des étudiants américains en 1968). L intérêt de l analyse de similitude est de ne pas les mélanger tout en donnant à chacune sa place : certains sont majoritaires d autres plus minoritaires (mais l étude des minorités n est-elle pas aussi importante que celle des majorités On fera ici référence au livre de Serge Moscovici sur les minorités actives : Moscovici, S., 1979

42 42 CHAPITRE 3 LES DONNEES ONT DES PROPRIETES FORMELLES : L ANALYSE DE SIMILITUDE VA LES METTRE EN EVIDENCE. Le traitement de l analyse de similitude vise à mettre en évidence des propriétés formelles qui soient interprétables par les sciences sociales. Les mathématiciens ont toujours privilégié les axes, les dimensions d un univers (gééométrique). Cette notion est à la base des analyses factorielles : elles résument les données par quelques principes organisateurs souvent dichotomiques (jeunes / vieux ). Les statisticiens ont ensuite mis en évidence la possibilité de segmenter les données en classes, en groupements pouvant permettre une généralisation, ou donner un nom générique à un groupe de variables. Enfin les analystes ont cherché à affaiblir ces modèles. On parle alors de recouvrement de composantes connexes etc Nous allons présenter dans ce chapitre comment l analyse de similitude identifie ces différentes propriétés et leur affecte un degré de vraisemblance. 3.1 CERTAINES CHAINES MAXIMALES DE L ARBRE PEUVENT ETRE DES AXES SUPPORTANT UNE DIMENSION QUASI GEOMETRIQUE. Nous avons vu que l arbre était la représentation minimale des données garantissant le maximum d informations (la somme des arêtes). C est d une certaine façon le squelette sur lequel les représentations suivantes (cliques, graphes-seuil ) vont s accrocher. Avec l arbre on cherche à mettre en évidence les dimensions sur lesquelles les données pourraient s organiser, faire sens. Un arbre est composé de chaînes maximales. La construction de l arbre est une tentative pour trouver des chaînes maximales qui pourraient être assimilables à des axes sur lesquels la position des variables aurait une interprétation métrique ou en tout cas ordinale. En d autres termes il y aurait une relation entre toutes les similitudes des sommets de la chaîne maximale. Pour qu il y ait de tels axes il faut que B*Accomplissement : * A*Pouvoir : 41 * les chaînes maximales ait la propriété de K*Sécurité : * «régularité». On peut donner une J*Conformisme : * intuition géométrique de cette propriété à H*Tradition : * partir d un extrait de la matrice de Tableau 23 : exemple de Matrice de similitude (valeurs x 100) similitude que nous avons étudiée précédemment (la matrice des 10 valeurs de Schwartz, tableau 18). On peut représenter cette matrice sous la forme d un treillis où les nœuds seraient affectés de la valeur du coefficient de similitude correspondant aux deux sommets (aux deux générateurs). Quand on suit une ligne du treillis en partant d un sommet on observe une décroissance des valeurs tout au long de cette ligne. Plus deux sommets sont éloignés plus leur similitude est faible : par exemple s AK > s AI >s AH (.45 >.41 >.18). On Figure 22 Treillis quasi métrique de cette matrice voit sur cet exemple que seule la valeur s14 ne répond

43 43 pas à ce critère : s BK = s BJ. Habituellement on accepte quelques incartades au principe de décroissance si elles sont très peu nombreuses et si elles portent sur des valeurs proches de celles qui ne remettraient pas en cause l ordre. On peut observer que cette propriété de régularité de la chaîne n impose rien sur le rapport entre les coefficients de similitude des sommets du treillis appartenant à deux lignes différentes. Ainsi le fait que s BA < s AK alors que s BA > s JH ne remet pas en cause la régularité de la chaîne. On ne cherche pas à comparer les incomparables. On ne cherche pas une approximation métrique de cette chaîne, approximation visant à positionner les sommets sur un axe de manière telle que les distances sur cet axe soient les plus proches possible (au sens des moindres carrées dans les procédures La propriété de régularité d une chaîne. Soit une chaîne (i1,i2,iq,.im). Pour que la chaîne soit régulière il faut que : q, p, n S(iq,iq+p) > S(iq,iq+n) avec 0 < p < m-q et p < n <m-q S(iq,iq-p) > S(iq,iq-n) avec 0 < p < q et 0 < n <p Cette propriété peut encore s écrire : q, r, t si 0 <q < r <t <m+1 : S(iq,ir) > S(iq,it) et S(ir,it) > S(iq,it) les plus courantes (tel MDS 30 )) des distances (duales des coefficients de similitude) indiquées par la matrice de similitude. On cherche simplement une propriété structurale sur la préordonnance des coefficients de similitude : propriété mise en évidence si on ordonne la matrice (lignes et colonnes) de telle sorte qu il y ait décroissance en ligne et en colonne (à partir de la diagonale) des valeurs de la matrice de similitude. On peut donner une définition mathématique de cette propriété de régularité (cf. encart). La matrice de l arbre maximum de l exemple des valeurs de Schwartz qui se trouve au tableau 18 ne répond pas, par exemple, à cette propriété. Seuls les cinq premiers items forment une chaîne régulière et de manière plus approximative les sept premières valeurs mais dès que l on complète cette chaîne par les valeurs de Schwartz D et F on perd complètement cette régularité. Nous avions vu que l interprétation devait alors tenir compte d un grand cycle. Cycle et régularité sont deux propriétés alternatives des chaînes. La mise en rapport de l arbre avec le filtrant des cliques conduit à définir une autre propriété : la «rigidité» des cliques maximales du filtrant. On désire affaiblir la notion d un arbre support d axes dimensionnels en acceptant qu il soit seulement le support d une suite de groupements de sommets pouvant se recouvrir partiellement. L arbre reste alors une bonne description de ces regroupements. Une clique ayant la propriété de rigidité doit avoir tous ses sommets sur un sous-arbre connexe de l arbre maximum : la chaîne de l arbre maximum qui relie deux sommets quelconque d une clique maximale «rigide» ne doit pas avoir de sommets hors de la clique. Figure 23 : 10 Valeurs de Schwartz : Les cliques rigides sur l arbre. 30 Kruskal, J.B., Wish, M., Multidimensional scaling, Sage, series : quantitative applications in social sciences 11.

44 44 Si on reprend une partie de l exemple des 10 valeurs de Schwartz et que nous dessinions par des ovales les différentes cliques de la partie du filtrant représentée à la figure 24, certaines sont rigides sur l arbre. On les représente sur la figure 23 : (A,J,K), (H,J,K), (G,H,J,K) et (F,G,H). On aurait encore pu dessiner la clique (A,H,J,K). Mais ce filtrant est aussi composé de cliques non rigides : (G,H,K) et (F,G,H,K). Dans ces deux cliques l arbre sort de la clique pour passer par le sommet J (figure 25). Cette entorse à la propriété de rigidité indique aussi une entorse à la régularité des chaînes car on peut démontrer que toutes les chaînes régulières produisent une zone du filtrant où les cliques sont rigides. Aussi est-il important de prendre en considération les cliques non rigides sur l arbre maximum car elles indiquent les zones où l arbre n est pas une bonne description. On peut accepter, par approximation, des cliques non rigides si les cliques qui lui sont reliées par inclusion dans le filtrant se trouvent à des seuils proches. C est le cas de la clique (G,H,K) qui apparaît au seuil de 0,28 puis qui est absorbée dans la clique (G,H,J,K) au seuil de 0,27. La différence de 0,01 est minime et non significative. Par contre la clique (F,G,H,K) se trouve très éloignée des deux cliques qu elle absorbe : 0,19 versus 0,29 pour la clique (F,G,H) et 0,28 pour (G,H,K). On ne peut la passer sous silence. Figure 24 : 10 Valeurs de Schwartz : Extrait du filtrant des cliques Jusqu à présent nous sommes à la recherche de dimensions qui permettraient de résumer les données par des axes ou des quasi-axes, si on accepte quelques Figure 25: 10 Valeurs de Schwartz : Les cliques non rigides sur l arbre entorses aux propriétés mathématiques associées à l existence de «Dimensions» de l univers des données. Une autre manière de résumer les données consiste à construire des classifications. Par une telle méthode (il existe en fait une multiplicité de méthode de classification) on cherche à savoir comment les données se regroupent et comment ces regroupements se hiérarchisent. 3.2 L ARBRE PEUT PERMETTRE UNE CLASSIFICATION DES DONNEES. On définit une classification par le regroupement des variables en «classes» telles que toutes variables appartiennent à une et une seule classe. On a l habitude de construire des regroupements de classes par inclusion afin d établir les proximités qui existent entre les classes. Ces proximités sont représentées par une arborescence hiérarchique. Il y a alors divers niveaux de regroupement, les classes qui sont constituées à des valeurs de similitude fortes sont nombreuses, mais plus on accepte des similitudes faibles moins il y aura de classes et plus les classes contiendront de nombreux éléments. A un seuil donné (à un niveau de la hiérarchie de l arborescence) les classes sont exclusives : une variable ne

45 45 Figure 26 : La classification des composantes connexes de l arbre des 10 valeurs de Schwartz. L ordre des arêtes de l arbre est le suivant : 0,20 (D,F) ; 0,27 (C,D) ; 0,33 (G,H) ; 0,34 (D,E) ; 0,39 (H,J) ; 0,41 (F,G) et (A,B) 0,45 (A,K) ;0,58 (J,K). On peut alors dessiner la classification suivante qui met en évidence les différentes composantes connexes de l arbre et leur mode de regroupent hiérarchique. Classification arborescente : algorithme de.classification du «lien simple». On peut construire une telle classification en ne tenant compte que des arêtes de l arbre. Pour cela : a- on ordonne les arêtes de l arbre par ordre croissant ; b- on supprime l arête dont la valeur est la plus petite ; c- l arbre se décompose alors en deux sous-arbres, les sommets de chacun de ces sous-arbres forment une classe, chaque classe est une «composante connexe» puisque tout sous-arbre est connexe. d- on ré-applique l algorithme b et c sur les arêtes restantes : les sous-arbres se dédoublent alors. Quand la procédure algorithmique est terminée on a construit un filtrant des composantes connexes de l arbre qui a les propriétés d une classification descendante hiérarchique. Cet algorithme est celui de la classification de Johnson (Johnson, 1967) ou encore dite de Wroclaw. L arête (D,F) crée deux composantes connexes : (B,A,K,J,H,G,F) et (C,E,D). Puis L arête (C,D) crée deux composantes connexes : (C) et (D,E) etc peut pas appartenir à deux classes. On dit que de telles classifications sont des «Classifications Ascendantes Hiérarchiques (CAH)». Le filtrant des cliques a très rarement la propriété d une classification. Pour que le filtrant ait cette propriété il faut que toutes ses cliques soient des parties rigides sur l arbre et que les cliques, à un seuil donné, n aient pas de variables communes. On peut cependant chercher à construire une classification qui soit une approximation du filtrant. Cette classification se fait sur la base des arêtes de l arbre maximum : c est la classification dite de Johnson (Johnson, 1967) ou dite de Wroclaw. Cette classification est intéressante car elle est définie par l arbre maximum. Elle n a de sens que si les cliques du filtrant sont rigides sur l arbre. Mais sa qualité dépend de la qualité de l arbre. Elle doit être utilisée surtout dans le cas où l arbre exprime des données s organisant autour d axes (autour de dimensions du phénomène analysé). Nous allons nous placer dans une situation plus courante, celle où ce dernier n est pas une bonne description des données, c est le cas de l exemple sur les Valeurs. Quelle est la qualité de la classification que nous obtenons à la figure 26? On peut vérifier cette qualité en construisant le filtrant des cliques dont la valeur est supérieure à la valeur (s 0 ) juste supérieure à celle de la plus petite arête de l arbre (dont la valeur est s 0-ε ). Cette valeur s 0 a la propriété suivante : si on dessine un graphe à ce seuil (Gs 0 ), alors ce graphe se compose de deux sousgraphes (G 1 et G 2 )n ayant aucune relation. Ce graphe Gs 0 n est pas connexe car on a détruit la connexité de l arbre en enlevant la plus petite arête de l arbre. En effet l arête de l arbre maximum de valeur s 0-ε est l arête ayant la plus forte valeur parmi toutes les arêtes pouvant relier un sommet de G 1 à un sommet de G 2. La valeur s 0-ε est donc à la fois la valeur de similitude la plus forte entre les deux zones G 1 et G 2 du graphe de similitude et la valeur la plus faible de l arbre maximum. C est donc un «minimax».

46 46 Dans l exemple des 10 valeurs de Schwartz l arbre se coupe en deux : d une part les sommets (C,E,D) et de l autre les sommets (B,A,K,J,H,G,F). Le filtrant, à ce seuil, ne confirme pas cette partition (figure 27). Il se réduit à trois composantes connexes. Seule la composante la plus à droite, et dont les valeurs sont les plus fortes, confirme la classification de Johnson avec la clique (B,A,K,J) identique à la classe construite au seuil de 0,41 (sur la classification des composantes connexes) et la clique (A,K,J) identique à la classe construite au seuil de 0,45. Les autres composantes connexes associent des éléments qui ne forment pas une classe comme (F,G,H) ou (G,H,J,K). Ceci ne nous surprend pas car dans cet exemple l arbre maximum n est pas un bon résumé des données. Figure 27 : Le filtrant des 10 valeurs de Schwartz pour les valeurs supérieures ou égales à 0, RECHERCHE DE PROPRIETES PARTICULIERES SUR LE FILTRANT DES CLIQUES MAXIMALES. Comme nous l avons montré les cliques se construisent et s absorbent, donc se hiérarchisent, si on parcourt la préordonnance de similitude dans un ordre décroissant. A chaque seuil correspond un grapheseuil. Dans ces graphes on peut identifier les cliques maximales. Elles forment un «recouvrement» partiel du graphe. On parle de recouvrement et non de classement car il n y a pas toujours de séparation nette entre deux cliques. Le plus souvent on se trouve devant un ensemble de cliques qui ont en commun certains sommets. Elles se recouvrent partiellement comme dans le graphe des cliques rigides sur l arbre (figure 23) : (A,J,K), (H,J,K), (F,G,H). Si on parcourt l ensemble des seuils, ces recouvrements sont organisés par les relations d inclusion du filtrant. Que peut-on alors en dire? L intérêt du filtrant des cliques doit le plus souvent être trouvé ailleurs, en dehors des propriétés classificatoires. Nous avons vu, dans l exemple des 10 valeurs de Schwartz, que le filtrant faisait apparaître plusieurs autres propriétés. On peut en décrire principalement trois: a- l existence d une zone où les cliques se regroupent successivement par inclusion, on peut associer cette propriété à l image d une huître (cf , figure 29) ; b- l existence d une succession de recouvrements dont les intersections ne sont pas vides, elle est repérable par la présence d une figure en zig-zag(cf , figure 30) ; c- l existence de zones non connexes à un seuil donné (cf. figure 27). On peut en outre rechercher à caractériser les sommets par la nature des zones du filtrant où ils se trouvent, comme dans l exemple des 10 valeurs de Schwartz (figure 10). On identifie alors trois types de variables : - les variables qui se retrouvent dans un très grand nombre de cliques (dans la figure 10 la variable K sécurité) ; ce sont des éléments que l on peut qualifier de «centraux» pour le graphe. - les variables jouant le rôle d éléments «générateurs» d une zone du filtrant ; ils apparaissent dans le filtrant à un seuil élevé et participent ensuite à plusieurs cliques (dans la figure 10 la

47 47 variable A pouvoir, B accomplissement, J conformisme, H tradition, G bienveillance et F universalisme) ; - les variables intervenant à des seuils faibles, dans le bas du filtrant ; elles peuvent ne participer qu à un nombre restreint de cliques (dans la figure 10 la variable C Hédonisme) Modèles formels et propriétés du filtrant. L analyse de similitude n est pas une méthode de validation d un modèle mathématique, c est la recherche d un résumé des données, résumé le plus fidèle possible. Mais on peut trouver des filtrants ou des zones dans le filtrant qui ont une propriété faisant référence à un modèle. On peut en envisager particulièrement deux : les échelles d attitude (dite échelle de Guttman) et les recouvrements connexes (ou échelle d opposition, du type droite / gauche) Le Filtrant où les données peuvent être ordonnées par une échelle de Guttman. Nous prendrons un exemple fictif : le questionnaire comprend cinq questions auxquelles il fallait répondre Oui (codé 1) ou Non (codé 0) ; il a été posé à 41 sujets. On a obtenu les protocoles de réponses suivants qui définissent une matrice de similitude : Nombre A B C D E de sujets Tableau 24 : Protocoles des réponses A * A B C D E B 29 * C * D * E * Tableau 25 : Matrice de similitude produite par l indice de cooccurrence : échelle de Guttman

48 48 Les données peuvent être situées sur une échelle de Guttman auquel seul les trois derniers patrons ne répondent pas, mais leur faible fréquence permet d accepter le modèle 31. On calcule alors la matrice de similitude (tableau 25). Cette échelle permet d ordonner de manière conjointe les questions et les sujets : les questions de A à E et les sujets en fonction du nombre de réponses codées 1. Figure 28 : Filtrant des cliques : échelle de Guttman. Figure 29 : l huître des cliques A B C D E A * B 31 * C * D * E * Tableau 26 : L Arbre de la Matrice de similitude produite par l indice de cooccurrence symétrique : échelle de Guttman. La matrice de similitude calculée avec un indice de cooccurrence est régulière et le filtrant des cliques est bien particulier : les cliques forment une suite d inclusions qui donnent au graphe des cliques maximales une allure «d huître»(figure 29). La structure d inclusion redonne l ordre des questions. Si on utilise la cooccurrence on obtient un filtrant significatif, par contre la RAM ne peut pas être dessiné car c est le graphe complet (exemple : toutes les arêtes reliant D aux sommets de la composante connexe A B C ont pour valeur 16, cf. tableau 25). Pour obtenir un arbre maximum qui indique l ordre de l échelle de Guttman il faut utiliser la cooccurrence symétrique (la somme des 11 et des 00). On obtient alors la chaîne A-B-C-D-E (tableau 26). Les données sont rarement aussi parfaites mais on peut observer dans un filtrant l existence d une (ou des) zone où les cliques dessinent une ligne d inclusion successive sans interférence notable avec d autres ensembles de cliques ; on peut alors supposer l existence d une échelle de Guttman pour le groupe de variables concernées par les cliques de cette partie du filtrant Le filtrant où les données peuvent être ordonnées sur un axe construit par une suite de recouvrements connexes. Le modèle qui est ici recherché n est plus l existence d une échelle mais d un axe sur lequel les réponses découpent des parties connexes. On présente Nombre A B C D E souvent ce modèle sous la forme d une diagonalisation de sujets du tableau des données Tableau 27 : Protocoles des réponses Les exemples d un tel modèle sont nombreux : axe droite gauche, échelle de datation de période historique ou de phénomène évoluant sur un axe temporel. On va alors caractériser les sujets par leur position sur cet axe. Nous ne sommes plus sur une échelle d accumulation de caractéristiques comme précédemment mais sur 31 On calcule un coefficient d accord avec le modèle (cf. coefficient de reproductibilité en annexe 1).

49 49 l existence de zones contiguës sur un axe d évolution (transformation) d un phénomène 32. Nous prendrons ici encore un exemple fictif. Chaque patron de réponse est une zone connexe de variables (par exemple B-C-D pour la cinquième ligne). L arbre maximum est alors une chaîne régulière, comme le montre la propriété de régularité de la matrice de similitude. Les cliques maximales sont toutes rigides sur cet arbre. Elles s organisent sous la forme d un recouvrement qui va donner au filtrant une allure de «zigzag» (figure30) que nous avons déjà rencontrée. A * A B C D E B 8 * C 0 10 * D * E * Tableau 28 : Matrice de similitude produite par l indice de cooccurrence : recouvrement connexe. Figure 30 : Filtrant des cliques : recouvrement connexe Figure 31 : graphe de similitude (cliques et arbre maximum) : recouvrement connexe On retrouve assez souvent de telles formes dans certaines zones du filtrant. Ce modèle a été présenté par Claude Flament 33 comme un «modèle à composante non monotone», on le trouve aussi dans la littérature américaine sous le nom «d unfolding technique» 34. Dans les deux modèles que nous venons de décrire (échelle de Guttman et composante non monotone) il existe une correspondance entre une propriété des chaînes et une propriété du filtrant : toutes les cliques du filtrant, dont les sommets sont sommets d une chaîne régulière, sont rigides sur cette chaîne (par exemple BCD ou CDE). Inversement si on trouve une zone du filtrant dont les cliques sont toutes régulières et dont les éléments de ces cliques forment un sous-ensemble de sommets connexes sur une chaîne de l arbre alors cette chaîne est régulière. Les propriétés de ces deux modèles sont suffisamment fortes pour qu il soit très rare de les trouver à l état pur. Ils peuvent par contre servir pour repérer des zones du graphe ayant des propriétés particulières qui peuvent être ensuite identifiées à l un de ces modèles. 32 Un sujet est, par exemple, d accord avec les idées politiques proches de la sienne amis pas avec celles plus lointaines (à droite et/ou à gauche). 33 Flament, Cl., Coombs, C.H., 1965

50 Propriétés du filtrant ne renvoyant pas à un modèle. L analyse du filtrant, conçue comme une représentation des données, vise à valider le ou les graphes que retient l analyste pour exposer les données. On met ici à jour des propriétés plus pauvres que celles des modèles précédents. On en présentera trois que l on retrouve assez souvent et qui permettent une interprétation formelle des similitudes. Nous nous servirons ici d un exemple tiré d une étude de représentations sociales de l économie chez les étudiants. Le questionnaire demandait de mettre en relation onze notions économiques. La fréquence de ces relations donnait une matrice de similitude dont on reproduit ici le filtrant des cliques de valeurs supérieures à 13 (soit données par 7% des 200 sujets) Les sous-ensembles «fermées» pour l inclusion. La première propriété que l on peut mettre en évidence est celle des sous-ensembles de variables que l on peut appeler «fermées» pour l inclusion : un ensemble de cliques se retrouvent toutes incluses dans une seule clique de valeur minimum. Ici par exemple (figure 32) les cliques (4,7,11) et (4,5,7) se retrouvent dans la clique (4,5,7,11) au seuil de 29. Cette dernière clique n a pas de descendant. de même les cliques (1,6,7), (5,6,7), (1,5,6,7) et (5,6,10), (1,6,10), (1,5,6,10) se trouvent toutes incluses dans la clique (1,5,6,7,10) au seuil 21. On peut identifier un autre ensemble inclus dans la clique (3,5,7,8,10) mais dans cette zone du filtrant les dérivations (5,7,8,11), (3,5,7,8,11) et (3,5,9,10) n en font pas partie. La totalité de cet ensemble n est donc pas fermé. La constitution de ces ensembles dépend, évidemment du seuil minimum du filtrant (ici 14). Nous reviendrons plus loin sur ce point de définition du seuil du filtrant, dans la mesure où le dessin du filtrant complet n est pas utilisable et même n est pas souhaitable car il tient compte de valeurs non significatives ou non intéressantes. On reste toujours fidèle au principe de privilégier les valeurs maximales. Figure 32 : Les relations économique : Exemple de filtrant La projection des deux «parties fermées» les plus à gauche du filtrant sur le graphe au seuil de 16% est intéressante (figure 33) : on y trouve une zone assez centrale dans le graphe (1,5,6,7,10) où se trouvent associés les éléments économiques relatifs aux trois principaux acteurs de l économie : l état (7), la

51 51 finance (1,6) et l entreprise (5,10). Cette partie du filtrant se développe entre les seuils de 10% et 25% des sujets, mais aucune de ces cliques n est rigide sur l arbre ; pour qu elles le soient il faudrait éliminer le terme chômage. De la même manière la clique (4,5,7,11) n est pas rigide sur l arbre alors qu elle est fermée et qu elle découpe une zone intéressante, celle des rapports de l état avec les entreprises (en haut et à gauche de la figure 32 et au bas de la figure 33). Figure 33 : Les relations économiques : le graphe-seuil à 16%. On a indiqué les valeurs des arêtes en nombre de sujets et dessiner trois cliques La clique la plus à gauche (3,5,9,10) de la figure 33est bien particulière. C est la clique de quatre sommets la plus élevée (55 soit 28%) dans le filtrant mais elle n a pas de descendance. Elle décrit l ensemble des éléments économiques de l entreprise. Mais l articulation de ses éléments avec le reste de l économie ne se fait que de manière partielle et particulière. C est ainsi que le profit (9) est exclu de la zone se fermant sur la clique (3,5,7,8,10), zone qui associe le fonctionnement de l entreprise à l état et au chômage. Cette zone a la particularité de n être constituée que de cliques rigides sur l arbre comme le montre la figure 34. Mais cette zone ne peut être une partie fermée comme nous l avons vu plus haut. Figure 34 : Les relations économiques : l arbre maximum. On a aussi tracé la clique fermant la partie droite du filtrant La clique exprimant l activité monétaire de l état (1,2,7) est comme la zone équivalente de l activité de l entreprise représentée par une clique apparaissant à un seuil élevé (35%) mais elle est quasiment sans descendance. Il faut attendre le seuil de 7% pour voir s associer à cette clique le sommet entreprise (5). Cet exemple montre deux choses : d une part les propriétés de rigidité et d identification d une partie fermée du filtrant ne sont pas équivalentes, chacune a son intérêt ; d autre part le filtrant nous permet d étudier la matrice de similitude à des seuils bien inférieurs à celui de l arbre ou à celui permis par la lisibilité des graphes-seuil. Compte tenu de cela il faut alors faire attention au fait que les regroupements identifiés ne sont pas des catégories car les cliques se recouvrent le plus souvent comme dans cet exemple.

52 Autres formes d organisation : des propriétés locales. A coté des ensembles fermés de cliques qui se regroupent par inclusion on peut mettre en évidence des propriétés moins formelles. On peut alors distinguer : - les de cliques majoritaires (apparues à des seuils élevés). Elles indiquent, comme dans la figure 11, les zones saillantes du graphe de similitude ; - les sous-ensembles qui engendrent une descendance : ils mettent en évidence des variables génératrices et des variables secondaires. - les sous-ensembles qui, inversement, se retrouvent bien isolées quand on diminue le seuil ; on identifie alors des variables qui forment à elles seules une dimension de l univers des données. Ces différents modes d organisation des sommets du graphe montrent bien l intérêt de la démarche «locale» de l analyse de similitude. Chaque type de regroupement comme précédemment chaque type d organisation autour d un axe n a pas la même propriété. Ici en particulier ils indiquent comment les deux principaux agents économiques (l Etat et l entreprise) ont un univers propre (clique apparue à un seuil élevé et sans descendance), et comment leur mise en relation peut prendre sens autour d un thème donné : ici les rapports entre l Etat et l entreprise se font d une part autour du thème de la monnaie, d autre part autour de la redistribution des revenus et enfin autour du chômage. Cette diversité des modes de ressemblance ne peut s exprimer dans une analyse globale qui est obligée de pondérer ces diverses proximités locales à travers une boite noire que ne contrôle pas l analyste. Cette approche à partir des modes d organisation des cliques du filtrant, peut se compléter par l identification des types de variables à travers leur place dans le filtrant comme on l a montré dans la figure 10 sur l exemple des 10 valeurs de Schwartz.

53 53 CHAPITRE 4. FAIRE UNE ANALYSE DE SIMILITUDE : DEMARCHE PAS A PAS. Nous présentons maintenant de manière systématique les différentes étapes de l analyse de similitude. Celles-ci sont au nombre de 6 : 1- la transformation des données initiales en matrice de similitude 2- l exploration de la matrice de similitude pour en extraire la préordonnance, l arbre maximum, le graphe de la 3-analyse, les cliques maximales du filtrant. 3- le dessin de l arbre maximum et des graphes-seuil 4- le dessin du filtrant des cliques maximales 5- la présentation réordonnée de la matrice de similitude ou la sélection d un sous-ensemble de variables 6- la comparaison de matrices de similitude créées sur des sous-populations. Une exploitation rapide des données se contente des 3 premières étapes. La quatrième est nécessaire pour une analyse fouillée. La cinquième étape vise à mieux organiser les données pour une présentation plus parlante. La sixième est essentielle quand on veut mettre en évidence des différences entre souspopulations définies par une variable indépendante (tel le sexe) quand on veut mettre en évidence les spécificités de certaines sous-populations définies par une configuration particulière des patrons de réponse. 2003

54 54 Les différents calculs de l analyse de similitude sont utilisés par un programme informatique dont on présente ici l écran de démarrage et les correspondances avec les différentes étapes 35. Figure 35 Les déférentes phases du programme d analyse de similitude 35 Programme SIMI2000 utilisable sur PC sous Windows 95 et plus (il existe une version plus frustre pour Windows 3.1) 2003

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

n 84 [décembre 2013] Éducation formations Le décrochage scolaire : un défi à relever plutôt qu'une fatalité

n 84 [décembre 2013] Éducation formations Le décrochage scolaire : un défi à relever plutôt qu'une fatalité n 84 [décembre 2013] & Éducation formations Le décrochage scolaire : un défi à relever plutôt qu'une fatalité n 84 [décembre 2013] formations Le décrochage scolaire : un défi à relever plutôt qu'une fatalité

Plus en détail

Une décomposition du non-emploi en France

Une décomposition du non-emploi en France MARCHÉ DU TRAVAIL Une décomposition du non-emploi en France Guy Laroque et Bernard Salanié* «Grande est notre faute, si la misère de nos pauvres découle non pas de lois naturelles, mais de nos institutions».

Plus en détail

La notion de fonction en classe de seconde,

La notion de fonction en classe de seconde, IUFM Académie de Montpellier Site de Perpignan DURAN Arnaud La notion de fonction en classe de seconde, Enjeux et obstacles Discipline : Mathématiques Classe concernée : Seconde Etablissement : Lycée Déodat

Plus en détail

Comment bien régresser: La statistique peut-elle se passer d artefacts?

Comment bien régresser: La statistique peut-elle se passer d artefacts? Comment bien régresser: La statistique peut-elle se passer d artefacts? Jean-Bernard Chatelain To cite this version: Jean-Bernard Chatelain. Comment bien régresser: La statistique peut-elle se passer d

Plus en détail

Tout ce que vous n avez jamais voulu savoir sur le χ 2 sans jamais avoir eu envie de le demander

Tout ce que vous n avez jamais voulu savoir sur le χ 2 sans jamais avoir eu envie de le demander Tout ce que vous n avez jamais voulu savoir sur le χ 2 sans jamais avoir eu envie de le demander Julien Barnier Centre Max Weber CNRS UMR 5283 julien.barnier@ens-lyon.fr 25 février 2013 Table des matières

Plus en détail

FONDEMENTS DES MATHÉMATIQUES

FONDEMENTS DES MATHÉMATIQUES FONDEMENTS DES MATHÉMATIQUES AYBERK ZEYTİN 1. DIVISIBILITÉ Comment on peut écrire un entier naturel comme un produit des petits entiers? Cette question a une infinitude d interconnexions entre les nombres

Plus en détail

CHAPITRE VI. Détermination d unités de traitement

CHAPITRE VI. Détermination d unités de traitement Détermination d unités de traitement 272 Détermination d unités de traitement Aperçu La confrontation des textes entre eux suppose la définition d unités d analyse, qui sont fournies par une opération

Plus en détail

RESSOURCES POUR FAIRE LA CLASSE. Le nombre au cycle 2. mathématiques

RESSOURCES POUR FAIRE LA CLASSE. Le nombre au cycle 2. mathématiques RESSOURCES POUR FAIRE LA CLASSE Le nombre au cycle 2 mathématiques Sommaire Préface... 4 Introduction Les mathématiques, regards sur 50 ans de leur enseignement à l école primaire... 6 Partie 1 Dialectique

Plus en détail

Pourquoi les ménages à bas revenus paient-ils des loyers de plus en plus élevés?

Pourquoi les ménages à bas revenus paient-ils des loyers de plus en plus élevés? LOGEMENT Pourquoi les ménages à bas revenus paient-ils des loyers de plus en plus élevés? L incidence des aides au logement en France (1973-2002) Gabrielle Fack* Depuis la fin des années 1970, les aides

Plus en détail

Marc HINDRY. Introduction et présentation. page 2. 1 Le langage mathématique page 4. 2 Ensembles et applications page 8

Marc HINDRY. Introduction et présentation. page 2. 1 Le langage mathématique page 4. 2 Ensembles et applications page 8 COURS DE MATHÉMATIQUES PREMIÈRE ANNÉE (L1) UNIVERSITÉ DENIS DIDEROT PARIS 7 Marc HINDRY Introduction et présentation. page 2 1 Le langage mathématique page 4 2 Ensembles et applications page 8 3 Groupes,

Plus en détail

Plus de maîtres que de classes

Plus de maîtres que de classes Plus de maîtres que de classes Analyse des conditions de l efficacité du dispositif Bruno Suchaut Unité de recherche pour le pilotage des systèmes pédagogiques Institut de recherche sur l éducation Février

Plus en détail

Chapitre VI TECHNIQUES DE PLANIFICATION DE LA

Chapitre VI TECHNIQUES DE PLANIFICATION DE LA Chapitre VI TECHNIQUES DE PLANIFICATION DE LA PRODUCTION On a vu au chapitre I (page 45) que la planification de la production est une décision tactique qui répond à un souci de régulation à moyen terme

Plus en détail

Être sans diplôme aujourd hui en France : quelles caractéristiques, quel parcours et quel destin?

Être sans diplôme aujourd hui en France : quelles caractéristiques, quel parcours et quel destin? ENSEIGNEMENT - ÉDUCATION Être sans diplôme aujourd hui en France : quelles caractéristiques, quel parcours et quel destin? Rachid Bouhia*, Manon Garrouste*, Alexandre Lebrère*, Layla Ricroch* et Thibaut

Plus en détail

B : passé, présent, futur.

B : passé, présent, futur. B : passé, présent, futur. J.-R. Abrial. Décembre 2002. Version 4 B : passé, présent, futur 1 Introduction Ce texte s adresse à des lecteurs qui auraient entendu parler de B et qui auraient le désir d

Plus en détail

Souhaiter prendre sa retraite le plus tôt possible : santé, satisfaction au travail et facteurs monétaires

Souhaiter prendre sa retraite le plus tôt possible : santé, satisfaction au travail et facteurs monétaires EMPLOI Souhaiter prendre sa retraite le plus tôt possible : santé, satisfaction au travail et facteurs monétaires Didier Blanchet * et Thierry Debrand ** Les souhaits des individus en matière d âge de

Plus en détail

UNE APPROCHE RENOUVELEE DES ETUDES DE SASTIFACTION

UNE APPROCHE RENOUVELEE DES ETUDES DE SASTIFACTION UNE APPROCHE RENOUVELEE DES ETUDES DE SASTIFACTION Guide pratique pour réaliser son étude de satisfaction pas à pas Ce guide est destiné aux opérationnels souhaitant réaliser une étude de satisfaction

Plus en détail

CHAPITRE VII. Caractérisation d un texte dans un corpus : du quantitatif vers le qualitatif

CHAPITRE VII. Caractérisation d un texte dans un corpus : du quantitatif vers le qualitatif Caractérisation d un texte dans un corpus : du quantitatif vers le qualitatif 410 Caractérisation d un texte dans un corpus : du quantitatif vers le qualitatif Aperçu La définition de d indicateurs chiffrés

Plus en détail

RECRUTER UN CADRE : ENTRE SÉLECTION ET RISQUE DE DISCRIMINATION

RECRUTER UN CADRE : ENTRE SÉLECTION ET RISQUE DE DISCRIMINATION LES ÉTUDES DE L EMPLOI CADRE N 2013-01 JANVIER 2013 Pratiques et critères de sélection dans les entreprises et chez les intermédiaires du recrutement La sélection lors des recrutements : perceptions et

Plus en détail

Ecrire avant de savoir lire : l écriture tâtonnée permet-elle de mieux préparer les élèves de maternelle à l apprentissage de la lecture?

Ecrire avant de savoir lire : l écriture tâtonnée permet-elle de mieux préparer les élèves de maternelle à l apprentissage de la lecture? GOUTTE LANGLAIS Patricia Ecrire avant de savoir lire : l écriture tâtonnée permet-elle de mieux préparer les élèves de maternelle à l apprentissage de la lecture? CAFIPEMF Session 2008/2009 1 Sommaire

Plus en détail

Ressources pour la classe de seconde

Ressources pour la classe de seconde Mathématiques Lycée Ressources pour la classe de seconde - Fonctions - Ce document peut être utilisé librement dans le cadre des enseignements et de la formation des enseignants. Toute reproduction, même

Plus en détail

Les inégalités sociales d accès aux grandes écoles

Les inégalités sociales d accès aux grandes écoles ÉDUCATION Les inégalités sociales d accès aux grandes écoles Valérie Albouy et Thomas Wanecq* Les grandes écoles, institutions spécifiquement françaises, sont souvent présentées comme le creuset de la

Plus en détail

Vers un modèle formel de classification de problèmes mathématiques et son usage dans la définition de compétences mathématiques

Vers un modèle formel de classification de problèmes mathématiques et son usage dans la définition de compétences mathématiques 07.1002 DéCEMBRE 2007 Vers un modèle formel de classification de problèmes mathématiques et son usage dans la définition de compétences mathématiques Luc-Olivier Pochon Vers un modèle formel de classification

Plus en détail

La participation associative au regard des temps sociaux

La participation associative au regard des temps sociaux SOCIÉTÉ La participation associative au regard des temps sociaux Lionel Prouteau et François-Charles Wolff* Comparés à la population totale des plus de 15 ans, les adhérents aux associations sont plus

Plus en détail

Classe de première L

Classe de première L Classe de première L Orientations générales Pour bon nombre d élèves qui s orientent en série L, la classe de première sera une fin d étude en mathématiques au lycée. On a donc voulu ici assurer à tous

Plus en détail

Espace II. Algèbres d opérateurs et Géométrie non commutative.

Espace II. Algèbres d opérateurs et Géométrie non commutative. Chapitre 2 Espace II. Algèbres d opérateurs et Géométrie non commutative. Dans le formalisme de la mécanique quantique, les observables ne sont plus des grandeurs ou fonctions numériques, que l on peut

Plus en détail

Mesure, impact des politiques et estimation. Programme de formation MIMAP. Remerciements

Mesure, impact des politiques et estimation. Programme de formation MIMAP. Remerciements Pauvreté, bienêtre social et équité : Mesure, impact des politiques et estimation par JeanYves Duclos Département d économique et CRÉFACIRPÉE, Université Laval, Canada Programme de formation MIMAP Remerciements

Plus en détail

Guide pratique à l'intention des étudiants des sciences humaines et sociales

Guide pratique à l'intention des étudiants des sciences humaines et sociales Collection Devenir chercheure Guide pratique à l'intention des étudiants des sciences humaines et sociales Comment Comment faire faire? Une méta-analyse, méthode agrégative de synthèse des connaissances

Plus en détail

GUIDE MÉTHODOLOGIQUE SUIVI DE LA PERFORMANCE

GUIDE MÉTHODOLOGIQUE SUIVI DE LA PERFORMANCE ROYAUME DU MAROC PROGRAMME DE RÉFORME DE L ADMINISTRATION PUBLIQUE GUIDE MÉTHODOLOGIQUE DU SUIVI DE LA PERFORMANCE NOVEMBRE 2006 Préparé par : Gérald Collange, Pierre Demangel, Robert Poinsard SOMMAIRE

Plus en détail