TEST NON PARAMETRIQUE : ANALYSES DE FREQUENCES

TEST NON PARAMETRIQUE : ANALYSES DE FREQUENCES Ce type d'analyse statistique s'applique à des variables qualitatives ou à des variables quantitatives réparties (éclatées) en classes. On ne s'intéresse plus alors aux valeurs de la variable mais aux effectifs ou fréquences des individus observés dans les différentes classes de la variable. Critère du χ² (Khi-carré ou Khi-deux) Pour tester l'hypothèse nulle dans le cas de la comparaison d une distribution de fréquences avec une distribution attendue dans le cas d'un modèle théorique, on utilise l expression suivante : X² = k 1 ( O A)² A pour k classes de fréquences La distribution d'échantillonnage de X² suit approximativement une distribution théorique connue : la distribution du χ² définie comme la distribution de fréquences de la somme des carrés de (k-1) valeurs (zi) d'une variable normale (µ=0, σ=1). Mario Cannavacciuolo (2002) 1

Loi du khi-carré (χ²) soient z 1, z 2,... z ν variables aléatoires normales N(0,1) indépendantes ν χ² = z 2 1 + z 2 2 2 +... z ν = z i= 1 i obéit à une loi du χ² à ν degrès de liberté cas particulier pour ν=1 : χ²= z 1 ² ² Le carré d une variable normale centrée réduite suit une loi du χ² à 1 ddl 1. Famille de courbes de densité de probabilité obéissant à la loi du χ² pour différents degrés de liberté f(χ²) 1.0 0.8 0.6 ν=1 ν=2 ν=3 0.4 ν=6 0.2 2 4 6 8 10 12 χ² L'expression ν z i= 1 i ² permet donc de générer une distribution continue du χ² à ν degrés de liberté (ddl). Il existe une distribution différente pour chaque nombre de ddl, et l'on peut ainsi construire une courbe de fréquence représentative de la fonction de densité de probabilité Mario Cannavacciuolo (2002) 2

2. Utilisation dans le test du χ² - Valeur critique f(χ²) χ²[ν] α Si le critère testé suit une loi du χ² à ν ddl, et sous l hypothèse H 0 (c-a-d. si l hypothèse nulle est vraie), la valeur χ² α présente un risque α d être dépassée. 1-α χ² α[ν] χ² on rejettera donc l hypothèse nulle si la valeur observée est supérieure au χ² α [ν] pour un seuil fixé α. L'expression X² étant approximativement distribuées comme un χ² à k-1 ddl, on peut donc la comparer à la valeur d'une table du χ² au seuil α choisi par l'expérimentateur (ex. α =0.05), Règle de décision : Si X² < χ² α [ν] alors on accepte H0 au seuil de confiance de 1 - α Si X² χ² α [ν] alors on rejette H0 au risque α Approximation normale du χ² Lorsque ν est grand (>30 en pratique), l'expression t = 2Y² - (2ν - 1) tend vers une distribution normale standard N(0,1) Ex. pour ν= 100 et (χ² =) Y² =200 z = 2 * 200 - (2 * 100-1) = 5,893 Mario Cannavacciuolo (2002) 3

3. Exemple : Résultats d'un croisement dihybride. On observe N=90 individus. Hypothèse : les phénotypes "sauvage" et "mutant" sont dans un rapport 3:1. Phén. Sauvage fréq. observée fréq. attendue (O) (A) 80 67.5 X² = [(80-67.5)²/67.5] + [(10-22.5)²/22.5] = 9.259 Phén. Mutant 10 22.5 à comparer à un χ² à k-1 = 1 ddl Valeur critique du χ² = 3.84 pour α = 5 %. La valeur observée est donc supérieure à la valeur critique au seuil choisi. Conclusion du test : l'hypothèse nulle (rapport 3:1 des deux phénotypes) est rejetée significativement au seuil de 5 %. Mario Cannavacciuolo (2002) 4

Test du meilleur ajustement (=goodness of fit test) Tests portant sur un seul critère de classification (variable qualitative). Le but de ces tests est de montrer si la distribution de fréquences observée peut être considérée comme compatible avec l'hypothèse énoncée suivant un modèle théorique. L'hypothèse extrinsèque : si les paramètres de la distribution attendue sont extérieurs à la série observée (ex. : un taux d'hybridation dans une population) L'hypothèse intrinsèque : dans le cas où les paramètres de la distribution attendue sont estimés à partir de la série observée Exemple : ajustement d'une loi normale à une distribution de tailles observée; la moyenne et l'écart-type de cette distribution sont nécessaires pour calculer les effectifs attendus suivant une loi normale (hypothèse intrinsèque). Mario Cannavacciuolo (2002) 5

4. Test du Khi-deux Nombre de degrés de liberté (k=nombre de classes) Hypothèse extrinsèque : ddl = k - 1 (l effectif total est fixé) intrinsèque : ddl = k - 1 - nombre de paramètres estimés Exemples : nombre de paramètres nombre de degrés de liberté ν estimés Loi binomiale 0 k 1 Loi de Poisson 1 (µ) k 2 Loi normale 2 (µ et σ) k 3 Limitations Les effectifs attendus (théoriques) ne doivent pas être : -inférieurs à 5 pour plus de 20 % des classes -inférieurs à 1 pour une classe Mario Cannavacciuolo (2002) 6

Test de conformité d une distribution observée à une distribution théorique Distribution d une variable discrète Ex. : répartition spatiale de plantes dans N=256 placettes nombre de plantes par placette Nombre de placettes Fréquences observées (Fo) Fréquences attendues (Fa) 0 1 2 3 4 >=5 Σ Fo 127 92 26 9 2 0 256 11 Fa 127.2 89.0 31.1 7.2 1.3 0.2 256.0 8.7 (Fo - Fa)² Fa 10-4 0.1 0.8 0.6 1.55 0 1 2 3 4 5 variable = nombre de plantes k ( Fo Fa)² X² = = 155. Fa ddl = nb. Classes - 2 = 4-2 = 2 X² < χ² 0.05[2] = 5.99 La différence entre la distribution observée et théorique n est pas significative au seuil de 5%. La distribution des plantes est donc conforme au modèle poissonnien Mario Cannavacciuolo (2002) 7

Distribution d une variable continue Ex. : distribution de longueurs de N=200 feuilles Nombre de feuilles Limites de classes (mm) 9 11 13 15 17 19 21 23 25 Fo 2 18 30 40 70 30 9 1 0 (obs) 1 Fa 3 12.2 33.4 54.5 53.2 30.7 10.5 2.2 0.3 (théor) 2.5 (Fo - Fa)² Fa 0.34 2.7 0.35 3.9 5.4 0.01 0.23 0.86 9 11 13 15 17 19 variable = longueur 21 23 mm k ( Fo Fa)² X² = = 1388. Fa ddl = k - 3 = 8-3 = 5 X² > χ² 0.05[5] = 11.07 La différence entre la distribution observée et théorique est significative au seuil de 5%. La distribution des longueurs des feuilles n est donc pas conforme au modèle normal. Mario Cannavacciuolo (2002) 8

Tests d'indépendance (ou d'association) 2. Principe Analyse de tableaux de contingence L'association entre variables qualitatives constitue l équivalent de la corrélation entre variables quantitatives. On étudie des objets possédant 2 caractères simultanés (ex. couleur et forme des petits pois), chaque variable présentant plusieurs modalités (ex. : couleur jaune / vert et forme ridée/ lisse). Le but du test est de déterminer s'il existe ou non une dépendance (ou association) entre les deux variables dans la population. JAUNE VERT RIDE NRJ NRV NR LISSE NLJ NLV NL NJ NV N

3. Fréquences attendues Les effectifs attendus dans l'hypothèse d'indépendance entre les deux caractères sont obtenus par l'application du principe des probabilités combinées. La probabilité d'avoir des pois à la fois jaunes et ridés : p JR = p J * p R Pour un effectif total de N pois, l'effectif attendu N RJ = N * p JR = N * [(N J /N) * (N R /N)] N RJ = (N J *N R )/N Plus généralement l'effectif attendu d'une case au croisement d'une ligne I et d'une colonne J, N IJ est obtenu par le produit des totaux marginaux, divisé par le grand total. N IJ = N. N I.. J N.. 4. Degrés de liberté Le nombre de ddl est égal au nombre de composantes indépendantes du tableau nécessaires pour estimer les fréquences théoriques. ν= (L - 1) * (C - 1) Mario Cannavacciuolo (2002) 10

5. Cas général : Tableau L x C Exemple de tableau de contingence 2 variables qualitatives : A (C états) et B (L états) K= L x C = nbre de cases N.j et Ni. : totaux marginaux N.. : effectif total Fréquences observées (Oij) Fréquences attendues (Aij) A1 A2 NI. A1 A2 NI. B1 29 11 40 24.6 15.4 40.0 B2 8 12 20 12.3 7.7 20.0 B3 7 5 12 7.4 4.6 12.0 B4 4 2 6 3.7 2.3 6.0 N.J 48 30 78 48.0 30.0 78.0 Chaque fréquence attendue suivant l hypothèse d indépendance est obtenue par la formule : A X IJ 2 = = N. N I.. J N.. 2 L C ( ) = 6069. et ν = (L-1)(C-1) = 3 Oij Aij Aij Cette expression est distribuée approximativement comme un khi² χ² 0.05 [3] = 7.81 > X² La valeur observée ne dépasse donc pas la valeur critique. Conclusion : test non significatif au seuil de 5% L hypothèse d indépendance entre les 2 variables ne peut être rejetée. Mario Cannavacciuolo (2002) 11