Les barres d erreur dans les histogrammes: pas si simple

Documents pareils
Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Analyse de la variance Comparaison de plusieurs moyennes

Chapitre 3. Les distributions à deux variables

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Cours 9 : Plans à plusieurs facteurs

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Annexe commune aux séries ES, L et S : boîtes et quantiles

FORMULAIRE DE STATISTIQUES

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Rapport. Mesures de champ de très basses fréquences à proximité d antennes de stations de base GSM et UMTS

La pratique du coaching en France. Baromètre 2010

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Lagrange, où λ 1 est pour la contrainte sur µ p ).

Cours de Tests paramétriques

LA MESURE DE PRESSION PRINCIPE DE BASE

aux différences est appelé équation aux différences d ordre n en forme normale.

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Modélisation aléatoire en fiabilité des logiciels

TABLE DES MATIERES. C Exercices complémentaires 42

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit

Projet de Traitement du Signal Segmentation d images SAR

Leçon N 4 : Statistiques à deux variables

Objets Combinatoires élementaires

Probabilités III Introduction à l évaluation d options

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Principe d un test statistique

Le risque Idiosyncrasique

FIMA, 7 juillet 2005

PRIMAVERA RISK ANALYSIS

TSTI 2D CH X : Exemples de lois à densité 1

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

L empreinte carbone des banques françaises. Résultats commentés

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Hedging delta et gamma neutre d un option digitale

Chapitre 2 Les ondes progressives périodiques

Introduction aux Statistiques et à l utilisation du logiciel R

FICHE D IMPACT PROJET DE TEXTE REGLEMENTAIRE

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

La Certification de la Sécurité des Automatismes de METEOR

Chapitre 2 Le problème de l unicité des solutions

PRENOM NOM DE L ENTREPRISE DATE DU STAGE METIER

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Big Data et Marketing : les competences attendues

Attitude des ménages face au risque. M1 - Arnold Chassagnon, Université de Tours, PSE - Automne 2014

1 Complément sur la projection du nuage des individus

EXPRIMEZ-VOUS LORS DU CHOIX DE VOS PNEUS : EXIGEZ DES PNEUS SÛRS, ÉNERGÉTIQUEMENT EFFICACES ET SILENCIEUX!

Comparaison des politiques de remboursement de frais

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Théorie des sondages : cours 5

Infor HCM Anael Risques Professionnels. Infor HCM. Infor HCM Anael Risques Professionnels

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Les principales méthodes d évaluation

Lois de probabilité. Anita Burgun

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

Conception et contrôle des SMA tolérants aux fautes

Une étude de différentes analyses réalisées par le BIT

23. Interprétation clinique des mesures de l effet traitement

L ANALYSE COUT-EFFICACITE

Les débats sur l évolution des

Régression linéaire. Nicolas Turenne INRA

Chapitre 2 Introduction aux objectifs des coûts. Pr. Zoubida SAMLAL-Doctorante en Risk Management MBA, CFA

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Thermodynamique (Échange thermique)

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

TP de risque management Risque Forex

Comparaison des coûts de gestion des Assureurs Santé et de l Assurance Maladie. Annexe méthodologique

Evaluation de la variabilité d'un système de mesure

«Tous les sons sont-ils audibles»

4 Distributions particulières de probabilités

Chapitre 3 : INFERENCE

KM2 W1 EVC1 M3~ Manuel AUTOMSIM API 24V. BP Dcy 1MINI 1MAXI.

NOTIONS DE PROBABILITÉS

Monitoring d un Datacenter du concept à la réalisation

Logiciel XLSTAT version rue Damrémont PARIS

Estimation et tests statistiques, TD 5. Solutions

La classification automatique de données quantitatives

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Pilotage de la masse salariale Déploiement de l outil de budgétisation

La simulation probabiliste avec Excel

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Anticiper. Définir. mesurer. optimiser DE GAMMA - ARCOLE RH DE GAMMA. arcole rh. Gestion de la Paie et des Ressources Humaines

PERSPECTIVES FINANCIERES DES PETITES VILLES

Soutenance de stage Laboratoire des Signaux et Systèmes

Cours d algorithmique pour la classe de 2nde

Polynômes à plusieurs variables. Résultant

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

Travaux dirigés d introduction aux Probabilités

SIMPL'VOX. Notice d'utilisation. Transmetteur téléphonique vocal. Version 1.1

Quelques précisions concernant les commandes de Ticket Restaurant électronique par fichier Excel

Transcription:

Les barres d erreur dans les histogrammes: pas si simple 260 250 240 230 1 2 3 4 27/04/05 Life Science Seminar 1 Les barres d erreurs sont incontournables dans les communications scientifiques. Cependant la rigueur avec laquelle elles sont élaborées, l interprétation que l auteur fait des résultats et les informations qu il communique au lecteur sur la méthode employée pour les tracer laissent à désirer dans de nombreuses publications. Mais effectivement, ce n est pas si simple 1

Deux approches Intervalle de confiance Test d hypothd hypothèse 27/04/05 Life Science Seminar 2 L inférence statistique est un ensemble de techniques qui permet de contrôler le risque d erreur de la généralisation des observations réalisées dans un échantillon à la population dont il est issu. Deux grandes familles de techniques se complètent : l intervalle de confiance et le test d hypothèse. Si l on prend l exemple du client qui se rend dans un garage avec sa voiture en panne, l intervalle de confiance répond à la question : combien la réparation va-t-elle coûter? (Très probablement entre 2.000 et 2.500 euros), ou : combien de kms vais-je pouvoir rouler après cette réparation (Très probablement entre 10.000 et 15.000 Kms). Il s agit donc d une fourchette qui fournit une base de réflexion. Le test d hypothèse est une prise de décision : soit je répare, soit je ne répare pas et j achète une nouvelle voiture. Les barres d erreurs sont essentiellement une représentation graphique de l intervalle de confiance. L utiliser comme «test d hypothèse graphique» est nettement plus périlleux. 2

La variabilité d une séries d observations représente l écart entre des observations réalisr alisées : 1. dans des conditions identiques 2. dans des conditions identiques sur des individus différents 3. dans des conditions différentes Les sources de variabilité 27/04/05 Life Science Seminar 3 Pour utiliser l intervalle de confiance, il faut d abord déterminer quelle est la varibilité que l on veut mettre en évidence. Il y a trois type de variabilité représentant du «bruit» ou de «l information» 1. Bruit : variabilité résiduelle, inexpliquée 2. Bruit : variabilité individuelle, on dira aussi variabilité biologique, dans le domaine du vivant 3. Information : Variabilité factorielle, liée au facteur que l on étudie Variabilité totale = information + bruit, l information étant liée à un modèle. Sur le graphique, aucun modèle ne précise si les impacts sur la cible ont été tirés par le même tireur, avec la même carabine 3

1. Même expérience, dans des conditions identiques: duplicats 2. Autre expérience, dans des conditions identiques: réplicats 3. Autre expérience, dans des conditions différentes: effet d un d facteur Variabilité.- Répétitions 27/04/05 Life Science Seminar 4 un modèle permet d identifier les différents niveaux de variabilité. X(ij)k = µ + ai + B(i)j + E(ij)k Sur ce graphique, les différents éléments du modèles sont représentés schématiquement. Dans la métaphore du tir sur une cible, les duplicats représentent des tirs réalisés par la même personne avec la même carabine, au même moment La distance entre ces impacts représentent la variabilité résiduelle, E(ij)k. Les réplicats représentent des tirs réalisés par différentes personnes avec la même carabine. La distance entre ces impacts représentent la variabilité individuelle B(i)j. Le facteur représentent des tirs réalisés par différentes personnes avec une deux carabines, dont les viseurs est peuvent être réglés différemment. La distance entre ces impacts représentent la variabilité factorielle ai. µ représente le centre de la cible et x(ij)k la coordonnés du tir k réalisé par la personne j avec la carabine i. 4

Modélisation Normale DFR 1 0,8 0,6 0,4 0,2 La variabilité de la moyenne de plusieurs observations se modélise par la variable normale Plus le nombre d observation est grand plus la dispersion est faible 0 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 Moyenne des points sur 16 lancers de dés Variabilité.- Modélisation 27/04/05 Life Science Seminar 5 Le théorème de la limite centrale nous dit que la moyenne d une variable quelconque dans un échantillon de taille n suivra une distribution normale (si n est suffisamment grand), de variance σ 2 /n. Le graphique montre la superposition de la fonction de Gauss-Laplace, en rouge, avec la distribution de fréquence de la moyenne de 16 lancers de dés. La valeur σ s appelle l écart-type et la valeur σ/n 0,5 s appelle l erreur standard 5

106,1 80 90 100 110 120 Mx(n) ------ Mx(obs) ± 2σ/ n F D P Pour une confiance de 95% Si la variance est connue L intervalle de confiance représente approximativement ± 2 erreurs standard ±2 σ n Intervalle de confiance 27/04/05 Life Science Seminar 6 Le modèle Gaussien permet de prédire que dans une population de moyenne µ et de variance σ connue: 95% des observations individuelles se trouvent dans un intervalle approximativement égal à : µ ± 2 σ 95% des moyennes observées sur n observations se trouvent dans un intervalle approximativement égal à : µ ± 2 σ/n 0,5 6

Pour une confiance de 95% Si la variance est connue Les barres égales à ± 2 erreurs standard représentent approximativement l intervalle de confiance de la moyenne Barres d erreur ±2 σ n 27/04/05 Life Science Seminar 7 Les barres d erreurs peuvent classiquement représenter différentes longueurs: s, σ, s/n 0,5, σ/n 0,5, 2s, 2σ, 2s/n 0,5, 2σ/n 0,5 Il n est donc pas exagéré de demander à l auteur de le préciser ;-) Elles représentent un écart-type (σ), résiduel ou individuel suivant qu il est calculé sur des duplicats ou des réplicats), ou une erreur-type (σ/n 0,5 ), la variabilité étant connue (σ) ou estimée (s) Elles représentent approximativement un intervalle de confiance, lorsque l écart-type ou l erreur type est multiplié par deux. Le seul intervalle de la moyenne correct est celui de deux erreurs types, lorsque la variance est connue. (En arrondissant à 2 la valeur de Z 0,975 = 1,96) 7

Pour une confiance de 95% Si les variances sont identiques Test d hypothèse On prend la DECISION de considérer que les moyennes des populations sont différentes lorsque la moyenne de l échantillon est peu probable (moins de 5% ) 27/04/05 Life Science Seminar 8 Le test d hypothèse sur les moyennes est une prise de décision. Le seuil alpha est garanti seulement si les variances sont homogènes (supposées égales dans les différentes populations testées). Toute comparaison de moyennes doit être précédée d un test de comparaison des variances. 8

Simulation: n = 2 RH0 : 4,9 % Test graphique : 46% ± 2 var iances par groupes n i Test «Graphique» Le recouvrement des barres égales à ± 2 erreurs standard Induit une erreur nettement plus élevée que prévu 27/04/05 Life Science Seminar 9 Un «test graphique» est réalisé en considérant que les moyennes sont significativement différentes lorsque les barres d erreur ne se recouvrent pas. Bien que cette pratique ne soit pas recommandée, elle est tellement courante, et publiée, qu il est indispensable d en fixer les limites de validité. Tout d abord, seul l intervalle de deux erreurs standards est comparable à un test d hypothèses bi-directionnel au seuil 5%. Si n est petit et que les variances sont estimées, le test graphique est totalement invalide. Dans la simulation reproduite ci-dessus, le taux d erreur réel est de 46% au lieu des 5% annoncés. 9

Simulation: n = 2 RH0 : 7 % Test graphique : 16% ± 2 var iance globale n Test «Graphique» Egalité des variances Calcul variance globale Le recouvrement des barres égales à ± 2 erreurs standard (variance globale) erreur plus élevée que prévu 27/04/05 Life Science Seminar 10 Si l on calcule une variance globale pour estimer l erreur standard le test est amélioré. Un «test d hypothèse graphique» ne peut pas être réalisé lorsque l on constate que les barres d erreurs n ont pas la même longueur! Toutefois lorsque n est petit, la longueur de l intervalle ne peut pas être estimée par 2 erreurs standards car 2 approxime un Z 0,975 mais pas un t 0,975 (le recours au t de Student est dû à l estimation de la variance). 10

n = 2 RH0 5 % Test graphique 5% Accord 100% ± t 1 α / 2 var iance globale n Ssi: Vérifier égalité des variances Calcul variance globale Recours à la table de Student Test «Graphique» 27/04/05 Life Science Seminar 11 Enfin, si l homogénéité des variances est testée, si une variance globale (CMR, d.l. = Nombre d observations moins nombre de groupes) est estimée et si la longueur de l intervalle est t d.l. 1-a/2 alors l accord entre le test d hypothèse graphique et le test d égalité des moyennes est quasi parfait. Notons cependant qu en cas de comparaison multiples 1 vs 2, 1 vs 3, 2 vs 3 etc le seuil alpha n est plus garanti et que la seule voie possible est celle des contrastes (par exemple contrastes de Scheffé). En conclusion, la plus grande prudence est recommandée pour interpréter les barres d erreur comme un test d hypothèse! 11