Lecture 9. Comment prendre une décision dans un monde aléatoire : modèles inférentiels Prof. Kizungu Vumilia Roger UNIKIN (FACAGRO-BIOLOGIE), UNILU (FACAGRO), UEA (FACAGRO), UCB (FACAGRO), ISS, ISTA (ENVIRONNEMENT), UPN (FACAGRO-MEDVET) ---GII-GIII-DEA--- Release: 27 décembre 2009 Sommaire Sommaire 1 Introduction... 3 Etape 1. Toujours commencer par définir l hypothèse nulle et l hypothèse alternative... 3 Etape 2. Choix du seuil de signification, nécessité de la planification de l'expérimentation... 4 Etape 3. La statistique de test ou de décision, voie de la maîtrise de la puissance du test 6 Etape 4. La valeur critique, la région critique ou la région de rejet de l'hypothèse nulle 6 Etape 5. Règle de décision, sur base des tables ou sur base du p-value... 7 Conclusion... 7 Auto-évaluation... 8 Références Bibliographiques... 9
2 Roger KIZUNGU Vumilia
BIOMÉTRIE ET MODÉLISATION 3 Introduction Quand nous organisons une expérimentation ou une enquête, en Biologie en Agronomie ou en économie, les populations en étude sont dans un environnement aléatoire où nul ne peut être prédit avec certitude. Dans ce contexte, s'il faut généraliser une décision prise sur un échantillon sur une population entière, alors il faut définir une règle objective. C'est l'objet de cette lecture. Vous savez ce qu est une statistique. Dans la suite nous allons l appeler statistique de test. Après cette note introductive, voyons maitenant comment la décision se prend sur base des statistiques de test. Dans la démarche de la biométrie, ou de la statistique appliquée, toute décision se prend schématiquement en 5 étapes. Nous les exposons dans la suite. Etape 1. Toujours commencer par définir l hypothèse nulle et l hypothèse alternative Le chercheur est toujours porté à démontrer un effet ou un impact de quelque chose, d'un facteur en étude. C'est ce qui l'excite et c'est ce qu'il annonce en général dans l'introduction de son travail. L'hypothèse qui consiste à considérer l'absence de l'effet est appelée hypothèse nulle et son symbole est Ho. C'est l'hypothèse à tester et le chercheur doit la définir avant de penser à l'échantillonnage. Supposons que nous voulons tester si le rendement moyen du manioc est de 15 tonnes dans la Province de Bandundu. On écrit: Il est à noter que l'hypothèse nulle est celle qui a le signe d'égalité dans sa formulation. Elle exprime que le paramètre de la population est égal à une valeur spécifiée. Un test statistique est toujours mené avec l'objectif de prouver que n'est pas vraie. Par exemple, un chercheur peut souhaiter trouver une contrée où le rendement moyen de sa variété est supérieur au rendement observé en station. En conduisant son test, son hypothèse à tester est: Il a l'espoir que l'échantillon qu'il va tirer de la population va confirmer une valeur grande que sa moyenne et que cette valeur ne va pas confirmer l'hypothèse nulle. Si le résultat issu de l échantillon ne confirme pas l'hypothèse nulle, alors on doit prendre une autre décision.
4 Roger KIZUNGU Vumilia L'hypothèse qui se prête comme alternative de l'hypothèse nulle, c'est-à-dire l'hypothèse de présence de l'effet est dite hypothèse alternative et son symbole est H 1. C est l hypothèse alternative qui exprime donc les aspirations du chercheur. Sa définition depend donc de la nature du problème. Le chercheur peut souhaiter tester l'hypothèse de supériorité du rendement par rapport au rendement de la station. Un écotoxicologue peut souhaiter tester si la quantité de plomb dans les légumes est inférieure à la norme de l'oms. Etape 2. Choix du seuil de signification, nécessité de la planification de l'expérimentation Dans toute décision prise à parir d'un échantillon il y a toujours d'un côté la décision prise sur base de l'échantillon et d'un autre la réalité de la population. Il faut donc déterminer un critère objectif pour décider. Quand on veut vérifier si la quantité de plomb dans les légumes est inférieure au norme de l'oms, on prélève quelques échantillons de légumes et on les amène au laboratoire. Si la moyenne trouvée sur ces échantillons est de loin inférieur à la norme, alors on décide facilement. Jusqu'à quand on peut accepter que la moyenne est différente de la norme? C'est ici que l'on introduit la notion de probabilité. On dira que si la probabilité d'observer une valeur inférieure à la norme (et non à la moyenne de l'échantillon) est inférieure à une valeur donnée que l'on se fixe d'avance, alors on rejette l'hypothèse d'égalité de la moyenne et la norme. Il apparaît que ce seuil que l'on se fixe est la probabilité que l'on se fixe de rejetter par erreur l'hypothèse nulle. Ce risque de rejertter par erreur l'hypothèse nulle est connu sous le nom de seuil ou niveau de signification et on le note par la lettre grecque (alpha) Considérons toujours un chercheur qui par erreur d'échantillonnage décide faussement que le rendement de maïs est inférieur dans une contrée par rapport au résultat de la station. Après avoir perdu beaucoup d'argent dans la séléction de la variété, il fait aussi passer cette contrée à côté d'une belle opportunité d'affaires. La variété ne sera pas donc adoptée alors qu'en réalité elle est porteuse des revenus. Peut-être l'a-t-il testé systématiquement chez des paysans paresseux ou tout simplement qui ne sont pas préparés au paquet de technologie accompagnant la variété. La technique de prélévement des données ou la planification de l'expérimentation sont très importants dans la coïncidence entre la réalité et la décision prise. Aussi, le choix de la méthode d'analyse de données peut avoir de l'influence comme nous le verrons bientôt. Avant d'argumenter plus, voyons d'abord de combien de facons on peut se tromper que telle est la décision alors que la réalité est une autre. Dans l'enquête qui consiste à prouver si l'eau est impropre à la consommation par rapport au ph, le chercheur prélève un certain nombre d'échantillons qu'il soumet aux analyses. La technique de prélévement de ces échantillons peut influer sur le résultat. Accompagnons la reflexion par un exemple sur le médicament que l on teste sur une population. Rejetter l hypothèse nulle veut dire, attester que le médicament a un effet curratif alors que non. Ceci a des conséquences désastreuses. Ne pas rejetter l hypothèse
Décision Sur base De l'échantillon BIOMÉTRIE ET MODÉLISATION 5 nulle veut dire attester que le médicament n a pas d effet curratif. Quel critère dois-je me fixer pour accepter que le médicament a un effet curratif? Dans ce processus de décision, quatre cas peuvent se présenter. Réalité De la Population Ho H1 H1 Erreur de type I Décision correcte 1 Ho Décision correcte 1 Erreur de type II Premièrement, tu peux décider, à partir des données issues d un échantillon que l hypothèse nulle (Ho) est vraie (que le médicament n a pas d effet curratif) et qu en réalité, au niveau de la population c est toujours l hypothèse nulle (Ho) qui est vraie (qu en réalité, le médicament n a pas d effet curratif). C est une bonne décision. En d autres termes, tu avances qu il n y a pas d effet du facteur étudié alors que cet effet n existe pas en réalité. Deuxièmement, tu peux aussi décider que c est l hypothèse alternative (H1) qui est vraie (que le médicament a un effet curratif) alors qu en réalité, c est toujours elle qui est vraie (qu en réalité le médicament a un effet curratif) : c est encore une décision correcte. En d autres termes, tu réalises une expérience qui révèle un effet d un facteur en étude quand cet effet existe en réalité. C est ce que l'on appelle puissance de l'essai. Troisièmement, dans le cas où tu décides que l hypothèse alternative (H1) est vraie à partir de ton échantillon (que le médicament a un effet curratif) et qu en réalité c est l hypothèse nulle (Ho) qui est vraie (qu en réalité le médicament n a pas d effet curratif), tu auras commis une erreur qui sera appelée erreur de type I. Cette erreur est lourde de conséquence! L expérimentateur se fixe au plus bas le risque de rejettrer de facon erronée l hypothèse nulle. Plus le risque est grand, plus cela coûte cher à l expérimentateur. Traditionnellement, il le fixe à 1% ou 5%. Les biologistes vont jusqu'à 20% dans certaines études à très forte variabilité. On appelle ce risque, le seuil de signification de l expérience. Dans la littérature, ce risque est noté par la lettre grecque. Et donc la chance de ne pas commettre cette erreur est donnée par 1. Quatrièmement, dans le cas où tu décides que l hypothèse nulle (Ho) est vraie à partir de ton échantillon (que le médicament n a pas d effet curratif) et qu en réalité c est l hypothèse alternative (H1) qui est vraie (qu en réalité le médicament a un effet curratif), tu auras commis une erreur qui sera appelée erreur de type II. L expérimentateur ne peut pas se fixer le niveau de cette erreur. Elle dépend du bon choix du modèle à ajuster aux données. Un modèle mal ajusté peut entraîner une telle erreur.
6 Roger KIZUNGU Vumilia Etape 3. La statistique de test ou de décision, voie de la maîtrise de la puissance du test Quelle statistique utiliser pour la décision? Le bon sens nous guiderait en pensant que si nous voulons comparer la moyenne d une variable à une norme, que l on puisse penser à sa valeur centrée et réduite. La statistique de test est celle dont la valeur est la base de la décision du test d'hypothèse. Toujours le bon sens nous suggererait que la statistique pour comparer deux moyennes passerait par la comparaison entre la variabilité intra-groupe et la variabilité intergroupes. A chaque problématique, il existe une statistique bien déteminée dont la distibution permet d aboutir à une décision objective. Etape 4. La valeur critique, la région critique ou la région de rejet de l'hypothèse nulle Dès que la statistique de test est connue, alors tu peux avancer. Supposons que le risque de rejetter par erreur Ho est de 0.05. Ceci signifie que le rejet de hypothèse nulle par erreur a seulement 5% de chance d arriver. La région critique ou la région de rejet est la partie de la courbe de distribution égale au total à qui est supposée ne pas contenir la valeur de la statistique du test si Ho est vraie. Le point limite est dit valeur critique. La valeur critique est la quantille qui correspond à une probabilité si le test est unilatérale ou si le test est bilatéral.
BIOMÉTRIE ET MODÉLISATION 7 Etape 5. Règle de décision, sur base des tables ou sur base du p-value Tu rejeteras l hyopthèse nulle en faveur de l hypothèse alternative si la statistique{ XE "statistique" } de test tombe dans la zone critique si non tu déclareras que l hypothèse nulle n est pas rejettée. Ceci arrive si le p-value est inférieur à. Remarque importante, tu ne diras jamais que tu acceptes l hypothèse nulle. Je rejette l allégation selon laquelle il n y a pas d effet médicament. Je ne saurai jamais attester qu il n y a pas effet médicament. Le fait que je constate qu il n y apas effet médicament peut-être dû à autre chose. Conclusion La statistique{ XE "statistique" } de décision donne un moyen de prendre une décision le plus objectivement possible. Néanmoins, la décision statistique ne doit pas être la décision finale. Elle est parmi tant d autres éléments de décision. La multitude de ces facteurs qui guident une décision dans une circonstance réelle donne du poids à la décision statistique. En effet, cette décision statistique joue le rôle de réduire et de contrôler l incertitude mais ne permet pas d éliminer complètement le doute. Une grande part de responsabilité incombe à la facon dont les données ont été échantillonnées.
8 Roger KIZUNGU Vumilia Auto-évaluation 1.- Si un échantillon a 52 individus, quelle est la chance que la moyenne de l'échantillon tombe à 1.96 écart-type ou plus de la vraie moyenne de la population? 2.- Qu'est ce qu' une erreur de type I? 3.- Qu'est ce qu'une erreur de type II? 4.- Quelle est la pertinence du seuil de signification dans un test statistique? 5.- Qu'est ce qu'une hypothèse alternative? 6.- Pourquoi doit-on connaître la distribution de probabilité de la statistique de test? 7.- Qu'appelle-t-on valeur critique? 8.- Qu'appelle-t-on statistique de test? 9.- Décrire les cinq étapes d'une prise de décision ou d'un test d'hypothèse. 10.- Qu'est ce qu'une hypothèse alternative? 11.- Si l'hypothèse nulle est quelles sont les hypothèses alternatives possibles? 12.- Pour chacun des cas suivants, formuler l'hypothèse nulle et l'hypothèse alternative - La norme de l'oms sur le plomb contenudans l'eau de consommation est 0.05 mg/l. Un écotoxicologue veut tester l'hypothèse que l'eau de Ndjili est au norme - Dans le cadre de l'étude du changement climatique, un chercheur veut tester si la température de l'année précédente est la même que la moyenne des trentes dernières années - Un chercheur veut tester l'impact de la déforestation sur la température - Un chercheur veut comparer les moyennes de quatre variétés - Un chercheur veut montrer qu'il y a une relation entre la biomasse et le rendement de haricot - Un chercheur veut vérifier qu'il y a une relation entre le prix d'un produit et la production, la distance du point d'achat, les taxes. - Un chercheur veut tester l'indépendance de deux facteurs.
BIOMÉTRIE ET MODÉLISATION 9 Références Bibliographiques Sanders, Smidt, Adatia, Larson, 2005, Statistics, A first course, McGraw-Hill Ryerson, Toronto, 635 p.