1/1/216 Cours VETE432-1 Partim «Biostatistique» F. Farnir L. Massart E. Moyse Organisation du cours Cours théorique: Partim I: [ Début χ² ] Séances d'exercices (en amphi): Séances de TP (salle info): 28 h 1 h 1 h Site web du cours http://www.biostat.ulg.ac.be Syllabus du cours 1
1/1/216 Objectifs du cours (Partim I) Statistique descriptive Calculs de probabilités Distributions théoriques Introduction aux tests d hypothèses Le test de χ² Cours VETE432-1 Partim I Démarche scientifique? Statistique? Ensemble de méthodes mathématiques qui, à partir du recueilet de l analyse de données réelles, permettent l élaboration de modèles probabilistes autorisant les prévisions. 2
1/1/216 Ou, dans la démarche scientifique? Biostatistique? La «biostatistique» est l utilisation de la statistique dans le domaine du vivant. Pourquoi chez les vétérinaires? Acteurs du vivant Description de la variabilité importante des phénomènes liés au vivant. Outil d investigation de la complexité liée au vivant. Élaboration et interprétation de tests d hypothèses in vivo Des exemples vétérinaires? Comment s assurer («tester») de l efficacité d un nouveau médicament (par exemple, un nouveau vaccin)? 3
1/1/216 Des exemples vétérinaires? Comment comparer des régimes permettant de combattre l obésité chez le chien? Des exemples vétérinaires? Comment comparer des protocoles d administration de médicaments contre l incontinence urinaire chez le chien? Des exemples vétérinaires? Comment évaluer les meilleurs reproducteurs dans une espèce utilisée pour la production? Des exemples vétérinaires? Comment évaluer les performances chez les chevaux trotteurs? 4
1/1/216 Des exemples vétérinaires? Des exemples vétérinaires? Quels sont les facteurs d environnement qui influent sur les performances de reproduction chez la brebis? Comment évaluer l évolution de la taille de la population d une espèce en danger? Recueil de données et Biostatistique Biostatistique: Ensemble de méthodes mathématiques qui, à partir du recueil et de l analyse de données réelles, permettent l élaboration de modèles probabilistes autorisant les prévisions. Le premier problème est donc celui de la récolte des données Par où commencer? Statistique descriptive Description des données qu on souhaite étudier Type de données Quantité de données Résumé des données Graphiques Paramètres descriptifs (position, dispersion, ) 5
1/1/216 On veut effectuer une série de "mesures" Ex1: Poids des labradors de 3 ans Ex2: Etat sanitaire des individus (Sain Malade) Ex3: Couleur de la robe de bovins Ex4: Production quantitative (kgs lait...) ou qualitative (vitesse de traite...) Ex5: Comptages de lymphocytes... Question: combien de mesures faut-il faire? en général, il n est pas possible de récolter toutes les mesures L ensemble de toutes les données constitue "la population" de mesures Ex: population des poids de labradors de 3 ans L ensemble de toutes les données récoltées constitue "l échantillon". C est (en général) un sous-ensemble de la population. Echantillonnage L échantillon doit être représentatif de la population visée Dans le cas contraire, l échantillon sera «biaisé» Exemple (de biais): comparaison de deux régimes alimentaires chez des moutons. Ech. 1: régime A Différence due au régime? au sexe? aux deux? Ech. 2: régime B 6
1/1/216 Ech. 1: régime A Différence due au régime Ech. 2: régime B Echantillonnage L échantillon doit être représentatif de la population visée Exemples de questions: Les deux sexes sont ils représentés dans l échantillon? L âge des individus sélectionnés couvre-t-il la plage d âge visée dans l expérience? N y a-t-il pas des facteurs extérieurs qui peuvent invalider les conclusions futures de l expérience? Echantillonnage L échantillonnage devrait être planifié Que veut-on voir (objectifs)? Quelle est la «population» visée? Quels sont les biais potentiels, et comment les éviter? On parle alors de design expérimental Planification de l échantillonnage: Exemples de planifications: Échantillonnage aléatoire Échantillonnage stratifié Exemple: Il faut des individus des deux sexes testés avec chaque régime Échantillonnage en grappes Exemple: sélection de fermes, puis de quelques vaches dans ces fermes 7
1/1/216 Echantillonnage planifié: un exemple. 3 poissons, pris au hasard dans la population, doivent être répartis dans 5 groupes qui recevront des traitements différents. On souhaite que les groupes soient homogènes en termes de poids car le poids a une influence potentielle sur le caractère étudié => méthode des chapeaux Méthode des chapeaux Trier les 3 poissons selon leur poids: P 1, P 2,..., P 3. Répartir les 3 poissons dans 3/5 = 6 chapeaux P 1 P 4 P 2 P 5 P 3 P 29 P 27 P 3 P 26 P 28 Méthode des chapeaux (suite) Pour chaque groupe, tirer un poisson de chaque chapeau Exemple: En médecine (vétérinaire) Etudes planifiées Exemple: tests pharmaceutiques Etudes prospectives («cohorts») Exemple: effet d un agent chimique sur l apparition de tumeurs Etudes rétrospectives («case-controls») Exemple: études «cliniques» Etudes transversales («cross-sectional») Exemple: enquêtes 8
1/1/216 Quelles données récolter? Quelles données récolter? Cela dépend des objectifs de l analyse Types de données Discrètes, Nominales (classification) Exemples: Sexe Traitement Race Région d origine... Types de données Discrètes, Ordinales (classement) Exemples: Année de naissance Mois Sévérité de la pathologie (--, -, +, ++) Quelles données récolter? Types de données Continues Exemples: Poids, Taille, Pression artérielle, Taux de lipides, Age Nombre de bactéries Durée de survie Quelles données récolter? Quantité de données Coûts Objectifs de la récolte Taille des effets à mettre en évidence Exemple Le régime X augmente-t-il le poids moyen adulte de 1ou de 5kilo(s) dans cette race de porcs? Voir Chebyshev pour la relation N(effet) 9
1/1/216 Un exemple de récolte Un responsable d'élevage aimerait tester certaines hypothèses sur un élevage de bovins à viande. Le contexte est le suivant: Région: Belgique. Races: BBB, Charolais, Croisés BBB x Ch. Âges: tous âges. Sexe: tous sexes. Un exemple de récolte (suite) Les questions posées sont les suivantes (entre autres questions possibles...): Y a-t-il des différences de croissance entre races? Y a-t-il un effet du sexe sur la conformation? Les croisés ont-ils une croissance intermédiaire entre les deux lignées pures (BBB, Charolais)?... Quelles données récolter? Exemple de récolte On a récolté dans différentes fermes les données relatives à 2 bovins destinés à la production de viande (voir un aperçu des données). Comment représenter les données? Dans chaque «colonne» de données, on a Une mesure de même type (discret, continu), La valeur est variable de ligne en ligne, Les valeurs de chaque ligne ne peuvent pas être prévues de manière exacte (déterministe), mais bien de manière probabiliste: elles sont aléatoires. On représentera dès lors une colonne du tableau par une variable aléatoire, discrète ou continue. 1
1/1/216 Comment représenter les données? Numéro Race Age (Mois) Sexe Taille Poids Confor mation 1 BBB 19 Mâle 133,5 721,8 + 2 Croisé 8 Femelle 148,3 282,6 + 3 BBB 1 Femelle 19,7 32,9 - R A S T P C Comment caractériser les variables aléatoires? 1) Par le type (discretou continu) des valeurs qu elles peuvent prendre: Discrètes: Race, Sexe, Conformation Continues: Taille, Poids, Age On décrit donc cet ensemble de données via 6 variables aléatoires Comment caractériser les variables aléatoires? 2) Par le type (qualitatif ou quantitatif) des valeurs qu elles peuvent prendre Qualitatif: Race, Sexe, Conformation Quantitatif: Taille, Poids, Age Comment caractériser les variables aléatoires? 3) Par le type (nominal ou ordinal) des valeurs qu elles peuvent prendre Nominal: Race, Sexe Ordinal: Conformation, Taille, Poids, Age 11
1/1/216 Comment caractériser les variables aléatoires? Pourquoi caractériser les variables aléatoires? 4) Par l ensemble Ω (finiou infini) des valeurs qu elles peuvent prendre Les procédures à mettre en place pour manipuler les variables aléatoires varient en fonction du type de variable => nécessité d'identifier les variables aléatoires du problème et leur type. Exemple: représentation des «distributions» de variables aléatoires Age: Ω = R + Race: Ω = (BBB, Charolais, Croisé) Sexe: Ω = (Male, Femelle) Conformation: Ω = (- -, -, +, ++) Taille: Ω = R + Poids: Ω = R + (voir dias suivantes) «Distributions»? Une distribution est une description complète des variables aléatoires (cfr plus loin). On donne une description complète d une variable aléatoire en spécifiant une fonction (distribution) qui associe à chacune de ses valeurs dans Ω une (densité de) probabilité (voir plus loin) d: Ω R: X Proba(X) Des exemples de distributions Exemple de distribution Dans la population humaine, il y a environ 5,5 % de femmes pour 49,5 % d hommes Proba(Sexe),5 Sexe 12
1/1/216 Des exemples de distributions Des exemples de distributions Autre exemple de distribution Nombre de cas de dystocies lors de 1 vêlages. Autre exemple de distribution Poids des chiens d une race donnée à un âge fixé,5,4,3,2,1 Probabilité de dystocies 1 2 3 4 5 6 7 8 9 1,3,25,2,15,1,5 P < 8 8 P < 1 1 P < 12 Distribution du poids 12 P < 14 14 P < 16 16 P < 18 18 P < 2 2 P < 22 22 P < 24 24 P < 26 26 P < 28 28 P < 3 3 P < 32 Comment représenter les variables aléatoires (données)? Représentation synthétique Tables de fréquences Représentation graphique Diagrammes de fréquences Paramètres descriptifs Position Dispersion Aplatissement, asymétrie, Qu est-ce qu une table de fréquences? Table à N entrées, dont les cases contiennent les effectifs correspondants. N est le nombre de variables utilisées Exemple: Table de fréquences de la race (table à 1 entrée) BBB Croisé Charolais 56 1 44 13
1/1/216 Comment obtenir la table de fréquences? # # Répertoire de travail # setwd("d:/docsusers/cours/216-217/bmv1/stats") # # Lecture des données # t<-read.table(file="exploitation.txt", head=t,sep="\t",dec=",") names(t) # # Table de fréquences de la race # table(t$race) Exemple: Table de fréquences de la race X sexe (table à 2 entrées) Qu est-ce qu une table de fréquences? BBB Croisé Charolais 25 46 24 31 54 2 56 1 44 95 15 2 BBB Charolais Croisé 56 44 1 Comment obtenir la table de fréquences? # # Table de fréquences de la race X sexe # table(t$race,t$sexe) Femelle Mâle BBB 25 31 Charolais 24 2 Croisé 46 54 Exemple: Table de fréquences de la race X sexe X conformation (table à 3 entrées) -- - + + + -- - + + + Qu est-ce qu une table de fréquences? BBB Croisé Charolais BBB Croisé Charolais 7 26 1 43 14 9 22 3 16 14 52 53 1 16 16 9 1 41 22 48 26 1 96 1 25 46 24 95 14
1/1/216 Qu est-ce qu une table de fréquences cumulées? Exemple: Table de fréquences (simples et cumulées) de la conformation (table à 1 entrée) Simples Cumulées Comment faire une représentation graphique? Exemple: Diagrammes à bâtons de la fréquence des différentes races. -- 1 1-96 97 + + + 1 3 197 2 plot(t$race, main=«races dans l exploitation») 2 Existe-t-il d autres représentations graphiques? Oui, beaucoup d autres (voir notes). Exemples: Diagramme en tarte (Pie chart) pie(table(t$race), main=«races dans l exploitation») Existe-t-il d autres représentations graphiques? Exemples: Diagrammes en tuyaux d orgue Conformation ++ + - -- 1 % 86.5 % 45.5 % 9.5 % 15
1/1/216 Comment procéder avec des variables continues? Discrétisation Exemple I: l âge exprimé en mois est une discrétisation de l âge. Exemple II: création de classes de poids Classe I: Poids entre et 1 kilos Classe II: Poids entre 1 et 2 kilos Classe III: Poids entre 2 et 3 kilos Classe VIII: Poids entre 7 et 8 kilos Comment procéder avec des variables continues? Exemple II(suite): représentation graphique Histogramme hist(exp$poids, main=«poids», xlab=«classes», ylab=«fréquence», col=«lightblue») D autres représentations de variables continues? Exemple III: Polygone des effectifs Fréquences (absolues) 5 4 3 2 1 Polygone des effectifs I II III IV V VI VII VIII Classes de poids D autres représentations de variables continues? Exemple IV : Polygone des effectifs cumulés Fréquences (relatives) 1,8,6,4,2 Polygone des effectifs cumulés I II III IV V VI VII VIII Classes de poids 16
1/1/216 D autres représentations de variables continues? Exemple V : Diagramme «stem-leaves» Stem 1 7 4445558999 Leaves 11123444444455566777778889999 1123 Le même diagramme, avec > stem(t$poids) The decimal point is 2 digit(s) to the right of the 4444444444 77888888899 1 12233334 1 566688888999999 2 1111223334 2 5666778889 3 1112223334444 3 556788899999 4 1111112222333344444 4 5555556666777888888899999 5 1111122223444 5 55566666777899 6 1111122233 6 55667777 7 7 699 8 4 Des représentations avec plusieurs variables continues? Exemple VI: Diagramme de dispersion (scatter plot) Poids (Kg) 1 8 6 4 2 Evolution des poids par race 1 2 3 Age (Mois) Poids BBB Poids BBBxCH Poids CH En résumé Les statistiques servent à interpréter les données récoltées dans une expérience. Les données sont représentées par des variables aléatoires Une description des données débute très souvent par une représentation de l échantillon récolté, sous forme de graphiques ou de tables de fréquences 17