Les tests de rangs (Rho et coefficient de concordance) Le Rho (ρ) de Spearman mesure l indépendance de deux variables dont les résultats ont été mis en rang. Ainsi, plutôt que d utiliser les résultats bruts on classe ces mêmes résultats selon leur rang. C est donc un calcul qui vise à déterminer s il existe une corrélation entre les rangs de ces deux variables. Par exemple, supposons que nous examinions 10 pays. On désire savoir s il existe une corrélation entre l espérance de vie et le produit intérieur brut de ces pays. On pose ainsi la question : Est-ce que l espérance de vie est plus importante en fonction du PIB? D une manière simpliste vie-t-on plus vieux dans un pays plus riche? 1 En nous référant au CIA World Factbook nous obtenons la liste des 10 pays dont l espérance de vie est la plus élevée. Ces pays sont : Pays Espérance de vie (en année) mondial Macau 84,36 1 Andorre 8,51 Japon 8,1 3 Singapour 81,98 4 San Marino 81,97 5 Hong Kong 81,86 6 Australie 81,63 7 Canada 81,3 8 France 80,98 9 Suède 80,86 10 On remarquera qu on ne tient pas compte de la valeur réelle mais bien du rang. Ainsi dans notre exemple la différence entre Singapour et San Marino est infime (0,01 an) mais suffisante pour classer Singapour avant San Marino. Nous verrons un peu plus loin ce qu il faut faire lorsqu il y a égalité au niveau des rangs. Nous devons maintenant utiliser les rangs concernant le PIB. Nous obtenons le tableau suivant pour ces mêmes 10 pays. 1 Nous introduisons volontairement des carences méthodologiques à la fois dans la formulation de la question et dans le choix des pays afin d illustrer les dangers d une utilisation simpliste d un calcul. Nous examinerons en détails ces carences un peu plus loin. https://www.cia.gov/library/publications/the-world-factbook/. (Données en date du 14 mai 009).
Pays PIB ($ US) mondial Macau 30,000 44 Andorre 4,500 15 Japon 34,00 36 Singapour 5,000 9 San Marino 41,900 16 Hong Kong 43,800 14 Australie 38,100 6 Canada 39,300 1 France 3,700 38 Suède 38,500 3 On remarquera que dans le premier tableau le rang mondial des 10 pays commençait par 1 et se terminait par 10 alors que dans le deuxième tableau les rangs sont plus dispersés. Il est important de noter que pour effectuer le calcul du Rho de Spearman il est important que les rangs soient remis en fonction des observations. Ainsi, pour le tableau portant sur le PIB, nous devons remettre les rangs sur une base de 1 à 10 pour nos 10 pays. Nous obtenons donc le tableau suivant : Pays PIB ($ US) mondial corrigé Macau 30,000 44 10 Andorre 4,500 15 3 Japon 34,00 36 8 Singapour 5,000 9 1 San Marino 41,900 16 4 Hong Kong 43,800 14 Australie 38,100 6 7 Canada 39,300 1 5 France 3,700 38 9 Suède 38,500 3 6 Il est alors possible de compléter le tableau. Ce dernier devient alors :
Pays Mondial (Espérance de vie) Macau 1 10 Andorre 3 Japon 3 8 Singapour 4 1 San Marino 5 4 Hong Kong 6 Australie 7 7 Canada 8 5 France 9 9 Suède 10 6 Corrigé (PIB) On observe ainsi que Macau qui se situe au premier rang mondial pour l espérance de vie se retrouve au 10 e rang des 10 pays qui ont la plus grande espérance de vie dans le monde. Nous voulons ainsi observer le «comportement» des dix pays qui possèdent l espérance de vie la plus élevé dans le monde. La formule du Rho est : ρ = 6 n n 1 D tel que D = La différence au carré de chacun des rangs n = le nombre d observations Si nous poursuivons avec notre exemple nous obtenons donc le tableau suivant : Pays Mondial (Espérance de vie) Corrigé (PIB) D (Différence entre les deux rangs) Macau 1 10-9 81 Andorre 3-1 1 Japon 3 8-5 5 Singapour 4 1 +3 9 San 5 4 +1 1 Marino Hong 6 +4 16 Kong Australie 7 7 0 0 Canada 8 5 +3 9 France 9 9 0 0 Suède 10 6 +4 16 Total 0 158 D (Différence au carré entre les deux rangs)
On remarquera que la somme des différences donne un total de 0 puis que (-9) + (-1) + (-5) + (+3) + (+1) + (+4) + (0) + (+3) + (0) + (+4) = 0 parce que (-9) + (-1) + (-5) = -15 et (+3) + (+1) + (+4) (+3) + (+4) = +15 (-15) + (+15) = 0 Si vous faites le calcul de façon manuelle ceci devient une base de vérification afin de s assurer qu il n y a pas d erreur. Ceci explique également pourquoi nous mettons cette différence au carré. Il est maintenant possible d appliquer la formule. Rappelons qu il y a 10 observations (ou dans ce cas-ci 10 pays) donc n = 10 et que la somme de la différence entre les rangs au carré D = 158. Donc : 6 1 n n = 0,044 D 6*158 = 1 10( 10 1) 948 = 1 = 10 100 1 1 948 10 99 = 948 1 = 1 0,957575758 990 Le résultat du Rho est donc de 0,044. Ce chiffre doit être interprété à l aide d une table. Toutefois, il est important dans un premier temps, de signaler que le résultat du Rho va se situer entre +1 et -1. Une valeur de +1 signale une corrélation de rang positive parfaite (c est-à-dire que les rangs sont identiques) alors qu un résultat de -1 indique une corrélation de rang négative parfaite (c est-à-dire que les rangs sont inversés) 3. Pour notre exemple le résultat est très près de 0 ce qui signifierait une absence de corrélation. Nous aurons la confirmation en examinant la table. Pour utiliser la table il est nécessaire de considérer deux choses. Premièrement, comme pour les autres tables, nous devons identifier le degré de liberté. Dans le cas du Rho de Spearman le degré de liberté est déterminé par le nombre d observations. Pour notre exemple, il y a dix pays donc le d.l. est de 10. En deuxième lieu il faut décider si nous effectuerons un test unilatéral ou bilatéral. (explication en classe) Habituellement, on effectue un test bilatéral. Il faut comprendre que la zone 3 Nous verrons ces situations dans le cadre du deuxième exemple.
Deuxième exemple Supposons que l on désire savoir si la quantité de fluor aide à réduire les caries. On examine la quantité de fluor dans 6 écoles et on examine le nombre de caries chez les enfants de ces six écoles après un an. Le protocole de recherche contrôle évidemment l ensemble des variables. On met en ordre les écoles en fonction de la quantité de fluor et dans la deuxième colonne on indique le rang de ces mêmes écoles en fonction du nombre de caries. Il est important de noter que seul les rangs et non la quantité de fluor ou le nombre de caries font l objet du tableau. École Fluor Caries Différence D Différence au carré D A 1 5-4 16 B 6-4 16 C 3 3 0 0 D 4 4 E 5 4 1 1 F 6 1 5 5 Total 6 Le Rho est donc de : 6 Rho = n n Rho = -.7714 1 D 6*6 = 1 6( 6 1) 37 37 37 = 1 = 1 = 1 = 1-1.7714 6 36 1 6 35 10 Nous avons donc un Rho négatif. Ceci signifie que plus le rang dans la quantité de fluor est élevé moins le rang dans les caries est élevé. Plus il y a de fluor moins il y a de caries. Il faut toutefois utiliser une table afin d accepter ou de rejeter l hypothèse nulle. Cette table utilise le nombre d observations comme référence pour la table. Le dl est donc égal au nombre d observations. Comme le Rho peut prendre une valeur positive ou négative il est possible d examiner le résultat avec un test unilatéral ou bilatéral. Habituellement on effectue un test bilatéral. Par exemple, un test bilatéral à 10% indique que la zone de rejet de l hypothèse nulle (Ho) 4 se partage également des deux côtés de la courbe. La zone de rejet est donc de 5% du côté positif et de 5% du côté négatif pour un total global de 10%. On aura donc compris que la valeur critique pour un test bilatéral à 10% est identique à celui d un test unilatéral à 5% puisqu il s agit de la même zone de rejet. La valeur critique à 10% bilatéral (ou 5% unilatéral) pour un échantillon (n) de 6 est de ±.886. Notre résultat est de -.7714. Il est important de souligner que le rho peut avoir une valeur qui se situe entre +1 et -1. Plus (+) 1 indiquant une corrélation positive parfaite (tous les rangs sont identiques) et moins (-) 1 indiquant une corrélation inverse parfaite (les rangs sont inversés). Un Rho qui se rapproche de 0 indique qu il n y a pas de corrélation entre les variables. Pour notre exemple, il n y a donc pas de corrélation de 4 On aura compris que Ho veut dire «Il n y a pas de corrélation»
rang puisque le résultat du Rho (-.7714) est plus petit que la valeur critique de -.886. Nous écririons le résultat : ρ (6) -.7714 n.s. (n.s. = non significatif = on accepte l hypothèse nulle). Nous ne pouvons donc affirmer qu il y a corrélation de rangs entre la quantité de fluor et la nombre de caries puisque le résultat du Rho (-.7714) ne dépasse pas la valeur critique dans la table (±.886) Si nous avions eu le tableau suivant : École Fluor Caries Différence D Différence au carré D A 1 6-5 5 B 5-3 9 C 3 4-1 1 D 4 3 1 1 E 5 3 9 F 6 1 5 5 Total 70 Alors : Rho = 6 n n 1 D 6*70 = 1 6( 6 1) 40 40 40 = 1 = 1 = 1 = 1 = -1 6 36 1 6 35 10 Nous avons ici une corrélation négative parfaite. Quand le rang dans la quantité de fluor est élevé alors le nombre de caries est faible. Pour une corrélation positive parfaite nous aurions le tableau suivant : École Fluor Caries Différence D Différence au carré D A 1 1 0 0 B 0 0 C 3 3 0 0 D 4 4 0 0 E 5 5 0 0 F 6 6 0 0 Total 0 6*0 0 Rho = 1 = 1 = 1 6( 6 1) 10 Ceci voudrait dire que lorsque le rang en quantité du fluor est grand, le nombre de caries est grand. RÉSUMÉ Interprétation du Rho
Le Rho est un de test de corrélation. Le résultat s'interprète à l'aide de la table que j'ai distribué en classe. Si le résultat du Rho est plus petit que la valeur critique dans la table on dira alors qu'il n'y a pas de corrélation. Si le résultat du Rho est égal ou plus grand que la table on dira alors qu'il y a corrélation. Le Rho peut être soit positif soit négatif (avec une valeur maximale de +1 ou de -1. C'est pourquoi la table comporte deux seuils un pour un test bilatéral et un pour un test unilatéral. Par exemple pour un test bilatéral à 10% on retrouvera une zone de rejet de 5% d'u côté positif de la courbe et une autre zone de rejet de 5% du côté négatif de la courbe pour un total de 10%. Si il y a rejet de l'hypothèse nulle (il n'y a pas de corrélation) on dira qu'il y a corrélation. Un dernier exemple Voici des données concernant le nombre de à la DPJ 5. Il s agit donc du nombre de et du rang que les arrondissements occupent. Arrondissement Nombre de (/1000) selon le nombre de Hochelaga 35,57 1 Centre Sud 0,97 Montréal 19,1 3 P. St-Charles 19,07 4 St- Michel 17,84 5 Petite Patrie 17,08 6 St- Henri 16,95 7 Villeray 15,38 8 Rosemont 13,64 9 Verdun 13,6 10 Total - - Supposons que l on désire établir une corrélation de rangs entre le et le nombre de prestataire du bien être social. Si il nous est possible d établir une corrélation entre les deux variables, ceci pourrait permettre une meilleure intervention de la part des autorités puisque nous aurions un prédicteur. 5 Ces données datent de 1998.
Nous obtenons alors le tableau suivant : Arrondissement Nbre de (/1000) selon le nbre de selon l aide sociale Hochelaga 35,57 1 Centre Sud 0,97 4 Montréal 19,1 3 6 P. St-Charles 19,07 4 1 St- Michel 17,84 5 5 Petite Patrie 17,08 6 8 St- Henri 16,95 7 3 Villeray 15,38 8 10 Rosemont 13,64 9 9 Verdun 13,6 10 7 Total - - - Finalement nous complétons le tableau pour effectuer le calcul du Rho et on obtient : Arrondissement Nombre de (/1000) selon le nombre de selon l aide sociale D i D i Hochelaga 35,57 1-1 1 Centre Sud 0,97 4-4 Montréal 19,1 3 6-3 9 P. St-Charles 19,07 4 1 3 9 St- Michel 17,84 5 5 0 0 Petite Patrie 17,08 6 8-4 St- Henri 16,95 7 3 4 16 Villeray 15,38 8 10-4 Rosemont 13,64 9 9 0 0 Verdun 13,6 10 7 3 9 Total - - - 0 56 Le Rho est donc : 6 n n 1 D 6*56 = 1 10( 10 1) = Nous avons un Rho de 0,6607. Il y a 10 degré de liberté Coefficient de concordance 6 336 1 = 1-0,3393 = 0,6607 990 Le coefficient de concordance est une mesure statistique qui mesure un accord de rang entre, par exemple, des évaluateurs et une variable. Supposons que 4 juges évaluent 5 6 On retrouvera cet exemple dans «Dictionary of Statistics», Penguin.
étudiants 7. Les juges vont donner un rang à ces cinq étudiants. Nous obtenons le tableau suivant : Juge A Juge B Juge C Juge D Σ (Somme) Candidat A 4 4 5 5 18 Candidat B 1 1 1 5 Candidat C 3 1 8 Candidat D 3 4 3 1 Candidat E 5 5 3 4 17 La formule est la suivante : 1S W= m n n 1 tel que 1 S = s i m n + 1 Alors pour notre exemple : 1 S = s i m n + 1 m = le nombre de juge (4) n = le nombre de candidat (5) s i = la somme des rangs du candidat 1 1 s i m n + 1 = 1 s 4 5 + 1 = 4 6 i 1 = [ ] i s i = Donc : 18 1 + 5 1 + 8 1 + 1 1 + 17 1 S = S = ( 6 ) + ( 7) + ( 4) + ( 0) + ( 5 ) S = 36 + 49 + 16 + 0 + 5 S = 16 s i 1 4 W = 1S m n ( n 1) = 1*16 4 5 5 = 1*16 16*5 ( 5 1) = 1*16 16*5( 4) = 1*16 151 = = 0.7875 16*10 190 7 Le Kappa mesure l accord entre deux juges seulement.
On interprète la valeur de W à l aide d une table statistique. Ce résultat se rapproche de un (1) alors nous pouvons affirmer que les juges sont généralement en accord. Le résultat maximum de W est 1 et cela arrive lorsque tous les juges donnent le même rang à tous les candidats. Pour notre exemple, les juges n ont pas accordées leurs rangs de façon aléatoire puisque la table nous indique que la probabilité que W soit supérieure à 0.66 est de 0.01 ou une chance équivalente à 1%. Comme le résultat de 0.7875 est plus grand que 0.66 nous pouvons rejeter l hypothèse qu il n y a pas d accord entre les juges.