une décision dans un monde aléatoire : modèles inférentiels



Documents pareils
Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

TESTS D'HYPOTHESES Etude d'un exemple

Introduction à la Statistique Inférentielle

LA RÉGULARISATION DES CHARGES EN FIN D EXERCICE

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Document d orientation sur les allégations issues d essais de non-infériorité

Répartition des coûts du compte de pass-on par catégorie de consommateurs

Application sur le Dispositif en Blocs Complètement Randomisés

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Item 169 : Évaluation thérapeutique et niveau de preuve

Introduction aux Statistiques et à l utilisation du logiciel R

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

Cours de Tests paramétriques

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Les baisses d'impôts annoncées par Nicolas Sarkozy : priorité juste ou mal choisie?

choisir H 1 quand H 0 est vraie - fausse alarme

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

REER, CELI ou prêt hypothécaire : comment faire le bon choix?

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

Code de la publicité écologique

Auchan Consumer Zoom clients pour mesurer et optimiser vos actions marketing. Une offre unique au service des industriels.

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Analyse de la variance Comparaison de plusieurs moyennes

Régime de retraite patronal-syndical (Québec) de l'association internationale des machinistes (A.I.M.)

VI. Tests non paramétriques sur un échantillon

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

A. Protocole de recherche (ainsi que l abrégé en langue française)

CAPTEURS - CHAINES DE MESURES

Pour tester vos connaissances, répondez correctement aux questions suivantes. Bonne chance!

Principe d un test statistique

2.0 Interprétation des cotes d évaluation des risques relatifs aux produits

LES DECIMALES DE π BERNARD EGGER

ESC 1A Parcours Management

Guide de rédaction d un protocole de recherche clinique à. l intention des chercheurs évoluant en recherche fondamentale

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Exercices sur le chapitre «Probabilités»

Anticiper pour avoir une innovation d'avance : le leitmotiv de Pierre Jouniaux, entrepreneur du big data!

INTRODUCTION. 1. L innovation permet de renforcer la compétitivité de l entreprise et influe sur les stratégies mises en oeuvre

LES GENERATEURS DE NOMBRES ALEATOIRES

COMMENTAiRES/ DECISIONS SUITE A DONNER SOURCE. Note du collectif d associations de consommateurs sur le format d affichage

D'UN THÉORÈME NOUVEAU

LE PROBLEME DU PLUS COURT CHEMIN

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Investissement dans la construction de nouveaux bâtiments résidentiels (travaux mis en place) Méthodologie

Une réussite : Les prix de rachat garantis soutiennent les énergies renouvelables en Allemagne

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Durée de conservation. Durée du contrat + 2 ans. Durée du contrat + 10 ans. Durée de conservation

Évaluations aléatoires : Comment tirer au sort?

Une réponse (très) partielle à la deuxième question : Calcul des exposants critiques en champ moyen

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Estimation et tests statistiques, TD 5. Solutions

Unité E Budgets et placements

6. Les différents types de démonstrations

Degré de confiance pour les indicateurs de performance : degré de fiabilité du processus de production et écart significatif 1

Chapitre 4 : les stocks

Evaluation de la variabilité d'un système de mesure

1. Qu'est-ce que SQL? La maintenance des bases de données Les manipulations des bases de données... 5

L'instruction if permet d'exécuter des instructions différentes selon qu'une condition est vraie ou fausse. Sa forme de base est la suivante:

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

NOTATIONS PRÉLIMINAIRES

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

RAPPORT # 2 GUIDE PRATIQUE POUR L'ENVOI DE EN VOLUME SUR INTERNET

Chapitre 2 Le problème de l unicité des solutions

La confiance et l'importance: Concepts clés de la statistique inférentielle

Chapitre 2/ La fonction de consommation et la fonction d épargne

Observation des modalités et performances d'accès à Internet

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Retentissement de la réforme de l'ircantec 2008 sur la retraite des Praticiens Hospitaliers.

Annexe B : Exemples. Avis de vente aux enchères liées Système de plafonnement et d échange de droits d émission de gaz à effet de serre (GES)

Chapitre 3 - L'enquête descriptive simple

CHAPITRE VIII : Les circuits avec résistances ohmiques

Partie 1 : Évaluer le marché

Introduction à la statistique non paramétrique

Comité sectoriel de la Sécurité sociale et de la Santé Section «Sécurité sociale»

CONVENTION POUR LE RACCORDEMENT DES INDUSTRIELS DE SAINT-BRIEUC AU RESEAU D'ASSAINISSEMENT. Mesdames, Messieurs,

Par combien de zéros se termine N!?

La question de recherche

3 Les premiers résultats des plans d'actions

Gestion des cartes ristourne

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Exemples de dynamique sur base modale

données en connaissance et en actions?

Bruno Marien et Jean-Pierre Beaud GUIDE PRATIQUE POUR L'UTILISATION DE LA STATISTIQUE EN RECHERCHE : LE CAS DES PETITS ÉCHANTILLONS

Mesures et incertitudes

Série sur les Principes de Bonnes Pratiques de Laboratoire et Vérification du Respect de ces Principes Numéro 4 (version révisée)

Suivi des émissions de gaz à effet serre causées par l'achat d'électricité

Le WACC est-il le coût du capital?

Couples de variables aléatoires discrètes

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

DÉCISION DU TRIBUNAL DE LA SÉCURITÉ SOCIALE Division générale Assurance-emploi

Transcription:

Lecture 9. Comment prendre une décision dans un monde aléatoire : modèles inférentiels Prof. Kizungu Vumilia Roger UNIKIN (FACAGRO-BIOLOGIE), UNILU (FACAGRO), UEA (FACAGRO), UCB (FACAGRO), ISS, ISTA (ENVIRONNEMENT), UPN (FACAGRO-MEDVET) ---GII-GIII-DEA--- Release: 27 décembre 2009 Sommaire Sommaire 1 Introduction... 3 Etape 1. Toujours commencer par définir l hypothèse nulle et l hypothèse alternative... 3 Etape 2. Choix du seuil de signification, nécessité de la planification de l'expérimentation... 4 Etape 3. La statistique de test ou de décision, voie de la maîtrise de la puissance du test 6 Etape 4. La valeur critique, la région critique ou la région de rejet de l'hypothèse nulle 6 Etape 5. Règle de décision, sur base des tables ou sur base du p-value... 7 Conclusion... 7 Auto-évaluation... 8 Références Bibliographiques... 9

2 Roger KIZUNGU Vumilia

BIOMÉTRIE ET MODÉLISATION 3 Introduction Quand nous organisons une expérimentation ou une enquête, en Biologie en Agronomie ou en économie, les populations en étude sont dans un environnement aléatoire où nul ne peut être prédit avec certitude. Dans ce contexte, s'il faut généraliser une décision prise sur un échantillon sur une population entière, alors il faut définir une règle objective. C'est l'objet de cette lecture. Vous savez ce qu est une statistique. Dans la suite nous allons l appeler statistique de test. Après cette note introductive, voyons maitenant comment la décision se prend sur base des statistiques de test. Dans la démarche de la biométrie, ou de la statistique appliquée, toute décision se prend schématiquement en 5 étapes. Nous les exposons dans la suite. Etape 1. Toujours commencer par définir l hypothèse nulle et l hypothèse alternative Le chercheur est toujours porté à démontrer un effet ou un impact de quelque chose, d'un facteur en étude. C'est ce qui l'excite et c'est ce qu'il annonce en général dans l'introduction de son travail. L'hypothèse qui consiste à considérer l'absence de l'effet est appelée hypothèse nulle et son symbole est Ho. C'est l'hypothèse à tester et le chercheur doit la définir avant de penser à l'échantillonnage. Supposons que nous voulons tester si le rendement moyen du manioc est de 15 tonnes dans la Province de Bandundu. On écrit: Il est à noter que l'hypothèse nulle est celle qui a le signe d'égalité dans sa formulation. Elle exprime que le paramètre de la population est égal à une valeur spécifiée. Un test statistique est toujours mené avec l'objectif de prouver que n'est pas vraie. Par exemple, un chercheur peut souhaiter trouver une contrée où le rendement moyen de sa variété est supérieur au rendement observé en station. En conduisant son test, son hypothèse à tester est: Il a l'espoir que l'échantillon qu'il va tirer de la population va confirmer une valeur grande que sa moyenne et que cette valeur ne va pas confirmer l'hypothèse nulle. Si le résultat issu de l échantillon ne confirme pas l'hypothèse nulle, alors on doit prendre une autre décision.

4 Roger KIZUNGU Vumilia L'hypothèse qui se prête comme alternative de l'hypothèse nulle, c'est-à-dire l'hypothèse de présence de l'effet est dite hypothèse alternative et son symbole est H 1. C est l hypothèse alternative qui exprime donc les aspirations du chercheur. Sa définition depend donc de la nature du problème. Le chercheur peut souhaiter tester l'hypothèse de supériorité du rendement par rapport au rendement de la station. Un écotoxicologue peut souhaiter tester si la quantité de plomb dans les légumes est inférieure à la norme de l'oms. Etape 2. Choix du seuil de signification, nécessité de la planification de l'expérimentation Dans toute décision prise à parir d'un échantillon il y a toujours d'un côté la décision prise sur base de l'échantillon et d'un autre la réalité de la population. Il faut donc déterminer un critère objectif pour décider. Quand on veut vérifier si la quantité de plomb dans les légumes est inférieure au norme de l'oms, on prélève quelques échantillons de légumes et on les amène au laboratoire. Si la moyenne trouvée sur ces échantillons est de loin inférieur à la norme, alors on décide facilement. Jusqu'à quand on peut accepter que la moyenne est différente de la norme? C'est ici que l'on introduit la notion de probabilité. On dira que si la probabilité d'observer une valeur inférieure à la norme (et non à la moyenne de l'échantillon) est inférieure à une valeur donnée que l'on se fixe d'avance, alors on rejette l'hypothèse d'égalité de la moyenne et la norme. Il apparaît que ce seuil que l'on se fixe est la probabilité que l'on se fixe de rejetter par erreur l'hypothèse nulle. Ce risque de rejertter par erreur l'hypothèse nulle est connu sous le nom de seuil ou niveau de signification et on le note par la lettre grecque (alpha) Considérons toujours un chercheur qui par erreur d'échantillonnage décide faussement que le rendement de maïs est inférieur dans une contrée par rapport au résultat de la station. Après avoir perdu beaucoup d'argent dans la séléction de la variété, il fait aussi passer cette contrée à côté d'une belle opportunité d'affaires. La variété ne sera pas donc adoptée alors qu'en réalité elle est porteuse des revenus. Peut-être l'a-t-il testé systématiquement chez des paysans paresseux ou tout simplement qui ne sont pas préparés au paquet de technologie accompagnant la variété. La technique de prélévement des données ou la planification de l'expérimentation sont très importants dans la coïncidence entre la réalité et la décision prise. Aussi, le choix de la méthode d'analyse de données peut avoir de l'influence comme nous le verrons bientôt. Avant d'argumenter plus, voyons d'abord de combien de facons on peut se tromper que telle est la décision alors que la réalité est une autre. Dans l'enquête qui consiste à prouver si l'eau est impropre à la consommation par rapport au ph, le chercheur prélève un certain nombre d'échantillons qu'il soumet aux analyses. La technique de prélévement de ces échantillons peut influer sur le résultat. Accompagnons la reflexion par un exemple sur le médicament que l on teste sur une population. Rejetter l hypothèse nulle veut dire, attester que le médicament a un effet curratif alors que non. Ceci a des conséquences désastreuses. Ne pas rejetter l hypothèse

Décision Sur base De l'échantillon BIOMÉTRIE ET MODÉLISATION 5 nulle veut dire attester que le médicament n a pas d effet curratif. Quel critère dois-je me fixer pour accepter que le médicament a un effet curratif? Dans ce processus de décision, quatre cas peuvent se présenter. Réalité De la Population Ho H1 H1 Erreur de type I Décision correcte 1 Ho Décision correcte 1 Erreur de type II Premièrement, tu peux décider, à partir des données issues d un échantillon que l hypothèse nulle (Ho) est vraie (que le médicament n a pas d effet curratif) et qu en réalité, au niveau de la population c est toujours l hypothèse nulle (Ho) qui est vraie (qu en réalité, le médicament n a pas d effet curratif). C est une bonne décision. En d autres termes, tu avances qu il n y a pas d effet du facteur étudié alors que cet effet n existe pas en réalité. Deuxièmement, tu peux aussi décider que c est l hypothèse alternative (H1) qui est vraie (que le médicament a un effet curratif) alors qu en réalité, c est toujours elle qui est vraie (qu en réalité le médicament a un effet curratif) : c est encore une décision correcte. En d autres termes, tu réalises une expérience qui révèle un effet d un facteur en étude quand cet effet existe en réalité. C est ce que l'on appelle puissance de l'essai. Troisièmement, dans le cas où tu décides que l hypothèse alternative (H1) est vraie à partir de ton échantillon (que le médicament a un effet curratif) et qu en réalité c est l hypothèse nulle (Ho) qui est vraie (qu en réalité le médicament n a pas d effet curratif), tu auras commis une erreur qui sera appelée erreur de type I. Cette erreur est lourde de conséquence! L expérimentateur se fixe au plus bas le risque de rejettrer de facon erronée l hypothèse nulle. Plus le risque est grand, plus cela coûte cher à l expérimentateur. Traditionnellement, il le fixe à 1% ou 5%. Les biologistes vont jusqu'à 20% dans certaines études à très forte variabilité. On appelle ce risque, le seuil de signification de l expérience. Dans la littérature, ce risque est noté par la lettre grecque. Et donc la chance de ne pas commettre cette erreur est donnée par 1. Quatrièmement, dans le cas où tu décides que l hypothèse nulle (Ho) est vraie à partir de ton échantillon (que le médicament n a pas d effet curratif) et qu en réalité c est l hypothèse alternative (H1) qui est vraie (qu en réalité le médicament a un effet curratif), tu auras commis une erreur qui sera appelée erreur de type II. L expérimentateur ne peut pas se fixer le niveau de cette erreur. Elle dépend du bon choix du modèle à ajuster aux données. Un modèle mal ajusté peut entraîner une telle erreur.

6 Roger KIZUNGU Vumilia Etape 3. La statistique de test ou de décision, voie de la maîtrise de la puissance du test Quelle statistique utiliser pour la décision? Le bon sens nous guiderait en pensant que si nous voulons comparer la moyenne d une variable à une norme, que l on puisse penser à sa valeur centrée et réduite. La statistique de test est celle dont la valeur est la base de la décision du test d'hypothèse. Toujours le bon sens nous suggererait que la statistique pour comparer deux moyennes passerait par la comparaison entre la variabilité intra-groupe et la variabilité intergroupes. A chaque problématique, il existe une statistique bien déteminée dont la distibution permet d aboutir à une décision objective. Etape 4. La valeur critique, la région critique ou la région de rejet de l'hypothèse nulle Dès que la statistique de test est connue, alors tu peux avancer. Supposons que le risque de rejetter par erreur Ho est de 0.05. Ceci signifie que le rejet de hypothèse nulle par erreur a seulement 5% de chance d arriver. La région critique ou la région de rejet est la partie de la courbe de distribution égale au total à qui est supposée ne pas contenir la valeur de la statistique du test si Ho est vraie. Le point limite est dit valeur critique. La valeur critique est la quantille qui correspond à une probabilité si le test est unilatérale ou si le test est bilatéral.

BIOMÉTRIE ET MODÉLISATION 7 Etape 5. Règle de décision, sur base des tables ou sur base du p-value Tu rejeteras l hyopthèse nulle en faveur de l hypothèse alternative si la statistique{ XE "statistique" } de test tombe dans la zone critique si non tu déclareras que l hypothèse nulle n est pas rejettée. Ceci arrive si le p-value est inférieur à. Remarque importante, tu ne diras jamais que tu acceptes l hypothèse nulle. Je rejette l allégation selon laquelle il n y a pas d effet médicament. Je ne saurai jamais attester qu il n y a pas effet médicament. Le fait que je constate qu il n y apas effet médicament peut-être dû à autre chose. Conclusion La statistique{ XE "statistique" } de décision donne un moyen de prendre une décision le plus objectivement possible. Néanmoins, la décision statistique ne doit pas être la décision finale. Elle est parmi tant d autres éléments de décision. La multitude de ces facteurs qui guident une décision dans une circonstance réelle donne du poids à la décision statistique. En effet, cette décision statistique joue le rôle de réduire et de contrôler l incertitude mais ne permet pas d éliminer complètement le doute. Une grande part de responsabilité incombe à la facon dont les données ont été échantillonnées.

8 Roger KIZUNGU Vumilia Auto-évaluation 1.- Si un échantillon a 52 individus, quelle est la chance que la moyenne de l'échantillon tombe à 1.96 écart-type ou plus de la vraie moyenne de la population? 2.- Qu'est ce qu' une erreur de type I? 3.- Qu'est ce qu'une erreur de type II? 4.- Quelle est la pertinence du seuil de signification dans un test statistique? 5.- Qu'est ce qu'une hypothèse alternative? 6.- Pourquoi doit-on connaître la distribution de probabilité de la statistique de test? 7.- Qu'appelle-t-on valeur critique? 8.- Qu'appelle-t-on statistique de test? 9.- Décrire les cinq étapes d'une prise de décision ou d'un test d'hypothèse. 10.- Qu'est ce qu'une hypothèse alternative? 11.- Si l'hypothèse nulle est quelles sont les hypothèses alternatives possibles? 12.- Pour chacun des cas suivants, formuler l'hypothèse nulle et l'hypothèse alternative - La norme de l'oms sur le plomb contenudans l'eau de consommation est 0.05 mg/l. Un écotoxicologue veut tester l'hypothèse que l'eau de Ndjili est au norme - Dans le cadre de l'étude du changement climatique, un chercheur veut tester si la température de l'année précédente est la même que la moyenne des trentes dernières années - Un chercheur veut tester l'impact de la déforestation sur la température - Un chercheur veut comparer les moyennes de quatre variétés - Un chercheur veut montrer qu'il y a une relation entre la biomasse et le rendement de haricot - Un chercheur veut vérifier qu'il y a une relation entre le prix d'un produit et la production, la distance du point d'achat, les taxes. - Un chercheur veut tester l'indépendance de deux facteurs.

BIOMÉTRIE ET MODÉLISATION 9 Références Bibliographiques Sanders, Smidt, Adatia, Larson, 2005, Statistics, A first course, McGraw-Hill Ryerson, Toronto, 635 p.