Leçon 2 L analyse de la relation entre 2 variables
C est une technique qui permet d'étudier la relation qui pourrait exister entre deux variables X et Y. L analyse porte alors sur une distribution à 2 caractères ou bivariée 2 Tests de corrélation seront évoqués dans ce cours: Corrélation de Pearson Corrélation de Spearman valable pour les variables quantitatives valable pour les variables qualitatives
Le diagramme de corrélation Pour savoir s'il existe une relation entre deux caractères, on établit un diagramme de corrélation, c'est à dire un diagramme croisant les modalités de X et de Y. Chaque élément i est représenté par le point de coordonnées (X i,y i ). L'ensemble des points forme un nuage de points dont la forme permet de caractériser la relation à l'aide de trois critères : - intensité de la relation - forme de la relation - sens de la relation
L'intensité de la relation Une relation est nulle => le nuage de point a le forme d'un carré, d'un cercle sans véritables lignes directrices. Une relation est faible => le nuage de point n'a pas la forme d'une ligne ou d'une courbe, ou seulement de façon très grossière. Une relation est forte => le nuage de point prend alors la forme d'une ligne ou d'une courbe dont les points s'écartent peu.
La forme de la relation Une relation est linéaire si l'on peut trouver une relation entre X et Y de la forme Y=aX+b, => le nuage de point peut s'ajuster correctement à une droite. Une relation est non-linéaire si la relation entre X et Y n'est pas de la forme Y=aX+b, mais de type différent (parabole, hyperbole, sinusoïde, etc). => Le nuage de point présente alors une forme complexe avec des courbures. Une relation non-linéaire est monotone si elle est strictement croissante ou strictement décroissante, c'est-à-dire si elle ne comporte pas de minima ou de maxima.
Le sens de la relation Une relation monotone (linéaire ou non) est positive si les deux caractères varient dans le même sens Une relation monotone est négative si les deux caractères varient en sens inverse
La corrélation linéaire simple Les tests de corrélation simple sont utilisés pour mesurer et tester l intensité de la relation entre deux variables quantitatives. Le coefficient le plus utilisé est le coefficient de corrélation linéaire de Pearson (ou coefficient de Bravais Pearson)
Propriétés et interprétation de r (XY) Ce coefficient varie entre -1 et +1 ; l'intensité de la relation linéaire sera donc d'autant plus forte que la valeur du coefficient est proche de +1 ou de - 1, et d'autant plus faible qu'elle est proche de 0. une valeur proche de +1 montre une forte liaison entre les deux caractères. La relation linéaire est ici croissante (c'est-à-dire que les variables varient dans le même sens) une valeur proche de -1 montre également une forte liaison mais la relation linéaire entre les deux caractères est décroissante (les variables varient dans le sens contraire); une valeur proche de 0 montre une absence de relation linéaire entre les deux caractères. une absence de relation -1-0,5 0 +0,5 +1 Relation de dépendance inverse Relation de dépendance directe
Propriétés et interprétation de r (XY) Le signe de r indique le sens de la relation tandis que la valeur absolue de r indique l'intensité de la relation c'est-àdire la capacité à prédire les valeurs de Y en fonctions de celles de X. Corrélation négative Corrélation positive Nulle Très forte Forte Faible Faible Forte Très forte -1-0,5 0 +0,5 +1 Relation de dépendance inverse Relation de dépendance directe
La formule du coefficient de corrélation linéaire de Bravais-Pearson est la suivante La covariance est la moyenne du produit des écarts à la moyenne.
(Xi-X) (Yi-Y) (Xi-X)x (Xi-Y) La covariance de X et Y étant égal à 64.1 On obtient le coefficient de corrélation de X et de Y en divisant la covariance par le produit de l'écart-type de X et de l'écart-type de Y : r (X,Y) = 64.1 / (2.4 * 32) = +0.83 Nous sommes en présence d'une corrélation positive forte, qui semble indiquer qu'il existe une relation linéaire (de type Y=aX+b) reliant X et Y
Limites du coefficient de Pearson Le coefficient de Pearson peut aboutir à des conclusions erronées sur la présence ou l'absence d'une relation pour mesurer la relation entre deux variables X et Y ne comportant pas de valeur exceptionnelles. L absence d'une relation linéaire ne signifie pas l'absence de toute relation entre les deux caractères étudiés.