Les statistiques en biologie expérimentale

Documents pareils
Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

TABLE DES MATIERES. C Exercices complémentaires 42

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Biostatistiques : Petits effectifs

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Principe d un test statistique

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Lire ; Compter ; Tester... avec R

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Analyse de la variance Comparaison de plusieurs moyennes

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Le risque Idiosyncrasique

Introduction aux Statistiques et à l utilisation du logiciel R

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Introduction à la statistique non paramétrique

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

STATISTIQUES. UE Modélisation pour la biologie

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

1 Définition de la non stationnarité

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction à l approche bootstrap

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Aide-mémoire de statistique appliquée à la biologie

Estimation et tests statistiques, TD 5. Solutions

Evaluation des modèles non-linéaires à effets mixtes

L'évaluation par les pairs dans un MOOC. Quelle fiabilité et quelle légitimité? Rémi Bachelet Ecole Centrale de Lille 24 novembre 2014, Université

Un exemple de régression logistique sous

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Représentation d une distribution

BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année

Lois de probabilité. Anita Burgun

T de Student Khi-deux Corrélation

INF6304 Interfaces Intelligentes

Cours de Tests paramétriques

Modèles et simulations informatiques des problèmes de coopération entre agents

Régression linéaire. Nicolas Turenne INRA

Package TestsFaciles

4. Résultats et discussion

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Logiciel XLSTAT version rue Damrémont PARIS

Examen de Logiciels Statistiques

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Le contenu en CO2 du kwh électrique : Avantages comparés du contenu marginal et du contenu par usages sur la base de l historique.

Comparaison de populations

données en connaissance et en actions?

Arbres binaires de décision

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

CAPTEURS - CHAINES DE MESURES

quelques Repères pour Doctorants

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Apprentissage par renforcement (1a/3)

Unity Real Time 2.0 Service Pack 2 update

Introduction à la Statistique Inférentielle

PROGRAMME (Susceptible de modifications)

Chapitre 2/ La fonction de consommation et la fonction d épargne

Docteur José LABARERE

23. Interprétation clinique des mesures de l effet traitement

Nesrine NEDJAM. Revue de presse marketing semaine 49. «Le M-Marketing»

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Équivalence et Non-infériorité

Données longitudinales et modèles de survie

FORMULAIRE DE STATISTIQUES

Travail de projet sur VBA

Utiliser Access ou Excel pour gérer vos données

Statistique Descriptive Élémentaire

Glossaire de termes relatifs à l assurance de la qualité et aux bonnes pratiques de laboratoire

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Application sur le Dispositif en Blocs Complètement Randomisés

1. Utilisation conforme à l usage prévu. 2. Propriétés. 3. Montage. Capteur de CO 2 AMUN

DIAPOSITIVE 2 Cette présentation est axée sur les mesures réglementaires, les rappels et les rapports d écarts des produits.

Relation entre deux variables : estimation de la corrélation linéaire

Statistique inférentielle TD 1 : Estimation

L assurance de la qualité à votre service

Analyse des durées de vie avec le logiciel R

Un logiciel de statistiques complet

Étude des flux d individus et des modalités de recrutement chez Formica rufa

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Valeur verte des logements d après les bases Notariales BIEN et PERVAL Synthèse

Un code-barre sur la tête?

VI. Tests non paramétriques sur un échantillon

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

TP de Statistiques: Utilisation du logiciel R

Arrondissage des résultats de mesure. Nombre de chiffres significatifs

Transcription:

Les statistiques en biologie expérimentale

Qualités attendues d une méthode de quantification : Le résultat numérique de la mesure permet d estimer avec précision la grandeur mesurée (ex. : il lui est proportionnel).

Qualités attendues d une méthode de quantification : Le résultat numérique de la mesure permet d estimer avec précision la grandeur mesurée (ex. : il lui est proportionnel). La mesure est reproductible.

Erreurs de mesure (imprécision du pipetage,...).

Erreurs de mesure (imprécision du pipetage,...). Différences intrinsèques (de cellule à cellule, d individu à individu,...) qui ne sont pas dues au phénomène étudié.

Erreurs de mesure (imprécision du pipetage,...). Différences intrinsèques (de cellule à cellule, d individu à individu,...) qui ne sont pas dues au phénomène étudié.

Toujours indiquer ce que représentent les barres d erreur!

Toujours indiquer ce que représentent les barres d erreur! Écart-type (standard deviation) : racine carrée de la moyenne des carrés des écarts à la moyenne ; erreur-type (standard error (of the mean)) : écart-type des moyennes mesurées sur différents échantillons de la population ; plage des valeurs mesurées ; intervalle de confiance ;... (au choix de l auteur).

La p-value : probabilité que les moyennes des deux populations échantillonnées soient égales.

La p-value : probabilité que les moyennes des deux populations échantillonnées soient égales. Nombre d observations 50 40 30 20 10 jeu de données 1 0 0 5 10 15 20 25 30 Intervalle

La p-value : probabilité que les moyennes des deux populations échantillonnées soient égales. Nombre d observations 50 40 30 20 10 jeu de données 1 0 0 5 10 15 20 25 30 Intervalle Nombre d observations 50 40 30 20 10 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle

La p-value : probabilité que les moyennes des deux populations échantillonnées soient égales. Nombre d observations 50 40 30 20 10 jeu de données 1 0 0 5 10 15 20 25 30 Intervalle Nombre d observations 50 40 30 20 10 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74 0 0 5 10 15 20 25 30 Intervalle p 6, 9.10 8

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74 0 0 5 10 15 20 25 30 Intervalle p 6, 9.10 8 La valeur de p n est pas déductible de la différence entre les moyennes mesurées (elle dépend également du nombre d observations et de la forme des ).

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74 0 0 5 10 15 20 25 30 Intervalle p 6, 9.10 8 Conditions d application :

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74 0 0 5 10 15 20 25 30 Intervalle p 6, 9.10 8 Conditions d application : Aucun des deux jeux de données ne s écarte vraiment d une loi normale ;

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74 0 0 5 10 15 20 25 30 Intervalle p 6, 9.10 8 Conditions d application : Aucun des deux jeux de données ne s écarte vraiment d une loi normale ; (dans la version initiale) les variances des deux jeux de données doivent être similaires ;

Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 Nombre d observations 50 40 30 20 10 jeu de données 1 jeu de données 2 0 0 5 10 15 20 25 30 Intervalle p 0, 74 0 0 5 10 15 20 25 30 Intervalle p 6, 9.10 8 Conditions d application : Aucun des deux jeux de données ne s écarte vraiment d une loi normale ; (dans la version initiale) les variances des deux jeux de données doivent être similaires ; plus il y a d observations, plus le test sera précis.

Quelques variantes du :

Quelques variantes du : Hétérogénéité des variances (Welch s ) : moins puissant que le original (Student s ), mais plus robuste aux différences de variance.

Quelques variantes du : Hétérogénéité des variances (Welch s ) : moins puissant que le original (Student s ), mais plus robuste aux différences de variance. Données appariées.

Quelques variantes du : Hétérogénéité des variances (Welch s ) : moins puissant que le original (Student s ), mais plus robuste aux différences de variance. Données appariées.

Quelques variantes du : Hétérogénéité des variances (Welch s ) : moins puissant que le original (Student s ), mais plus robuste aux différences de variance. Données appariées. p 0.35

Quelques variantes du : Hétérogénéité des variances (Welch s ) : moins puissant que le original (Student s ), mais plus robuste aux différences de variance. Données appariées. p 0.35 p 0.01

Quelques variantes du : Hétérogénéité des variances (Welch s ) : moins puissant que le original (Student s ), mais plus robuste aux différences de variance. Données appariées. One-tailed (tester si les valeurs d une série sont supérieures à celles de l autre) two-tailed (tester si les valeurs sont différentes ; c est le cas le plus général).

Quelques variantes du : Hétérogénéité des variances (Welch s ) : moins puissant que le original (Student s ), mais plus robuste aux différences de variance. Données appariées. One-tailed (tester si les valeurs d une série sont supérieures à celles de l autre) two-tailed (tester si les valeurs sont différentes ; c est le cas le plus général). N utiliser le one-tailed qu avec une extrême précaution : il divise les p values par deux (fraude scientifique s il est utilisé à mauvais escient).

Une alternative au

Une alternative au Lorsqu au moins un des deux jeux de données ne suit pas une loi normale : utiliser le test de Wilcoxon.

Une alternative au Lorsqu au moins un des deux jeux de données ne suit pas une loi normale : utiliser le test de Wilcoxon. Il utilise les rangs des valeurs, pas les valeurs elles-mêmes plus robuste aux déviations à la normalité.

Les deux séries de valeurs suivent-elles une loi normale? (test de Shapiro-Wilk, voire test de Kolmogorov-Smirnov) oui Les variances sont-elles homogènes? (test de Levene) non test de Wilcoxon oui à variances homogènes non à variances hétérogènes (puis : les données sont-elles appariées? one-tailed ou two-tailed?)

Rejeter l hypothèse nulle si p 0, 05 accepter de la rejeter accidentellement 5 % du temps

Rejeter l hypothèse nulle si p 0, 05 accepter de la rejeter accidentellement 5 % du temps... ce qui se produira donc quelques dizaines de fois sur chaque microarray!

Rejeter l hypothèse nulle si p 0, 05 accepter de la rejeter accidentellement 5 % du temps... ce qui se produira donc quelques dizaines de fois sur chaque microarray! Correction de Bonferroni : diviser le seuil de p value par le nombre d testées (ex. : test de 100 : utiliser un seuil de 0,0005 au lieu de 0,05). Justifiée par la théorie.

Rejeter l hypothèse nulle si p 0, 05 accepter de la rejeter accidentellement 5 % du temps... ce qui se produira donc quelques dizaines de fois sur chaque microarray! Correction de Bonferroni : diviser le seuil de p value par le nombre d testées (ex. : test de 100 : utiliser un seuil de 0,0005 au lieu de 0,05). Justifiée par la théorie. La correction de Bonferroni est trop stringente lorsque le nombre d devient très grand (quelques milliers).

Rejeter l hypothèse nulle si p 0, 05 accepter de la rejeter accidentellement 5 % du temps... ce qui se produira donc quelques dizaines de fois sur chaque microarray! Correction de Bonferroni : diviser le seuil de p value par le nombre d testées (ex. : test de 100 : utiliser un seuil de 0,0005 au lieu de 0,05). Justifiée par la théorie. La correction de Bonferroni est trop stringente lorsque le nombre d devient très grand (quelques milliers). Ajustement itératif du seuil : méthode de la FDR (false discovery rate).

Condition 1 Condition 2 Cellules en G1 500 450 Cellules en phase S 2000 2100 Cellules en G2 200 180 Cellules en mitose 50 60

Condition 1 Condition 2 Cellules en G1 500 450 Cellules en phase S 2000 2100 Cellules en G2 200 180 Cellules en mitose 50 60 Le test du χ 2 de Pearson (ici : p 0, 081). Il tient compte des effectifs (pas seulement des proportions).

Condition 1 Condition 2 Cellules en G1 500 450 Cellules en phase S 2000 2100 Cellules en G2 200 180 Cellules en mitose 50 60 Le test du χ 2 de Pearson (ici : p 0, 081). Il tient compte des effectifs (pas seulement des proportions). Limitation : les effectifs doivent être suffisants (traditionnellement : 5 dans chaque catégorie).

Condition 1 Condition 2 Cellules en G1 500 450 Cellules en phase S 2000 2100 Cellules en G2 200 180 Cellules en mitose 50 60 Le test du χ 2 de Pearson (ici : p 0, 081). Il tient compte des effectifs (pas seulement des proportions). Limitation : les effectifs doivent être suffisants (traditionnellement : 5 dans chaque catégorie). Le test exact de Fisher : calculs plus longs, mais résultat plus précis pour les petits effectifs (ici : p 0, 081 également).

tiré de : http://strangemaps.wordpress.com/2008/12/15/ 348-an-imperial-palimpsest-on-polands-electoral-map/