Biostatistiques Thierry THIBAUT
But des statistiques Permet de confirmer ou d infirmer une hypothèse avec une marge d erreur la plus petite possible et/ou prédire un événements à l aide d outils Statistiques descriptives Statistiques inférentielles
La démarche scientifique
Statistiques descriptives Identification des données
Population-cible : ensemble des éléments visés, en principe, par l'échantillonnage. - quelle est la population-cible? Il s'agit là de la population sur laquelle on aimerait bien que les conclusions de l'étude portent. Population statistique : ensemble des éléments effectivement représentés par l'échantillonnage. Les éléments qui la composent se caractérisent par au moins une caractéristique commune et exclusive qui permettent de les distinguer sans ambiguïté. - quelle est la population statistique?il faut mentionner la ou les caractéristiques qui permettent de la distinguer de toute autre population statistique.
Échantillon (sample) : fragment d'un ensemble prélevé pour juger de cet ensemble. Fraction de la population statistique sur laquelle des mesures sont faites pour connaître les propriétés de cette population. - quel est l'échantillon? Quel est son effectif? Échantillonnage aléatoire simple : Prélèvement au hasard, et de façon indépendante, d un certain nombre n d éléments de la population statistique de N éléments. Chaque élément de la population doit avoir la même probabilité d être sélectionné. Échantillon représentatif : Échantillon qui reflète fidèlement la complexité et la composition de la population. L échantillonnage aléatoire ainsi que l inventaire exhaustif (recensement), sont deux façons d obtenir un échantillon représentatif d une population. Aussi: mélange suivi du prélèvement de n individus.
Élément : membre d'une population statistique (spécimen, prélèvement d'eau, individu... -quel est l'élément?il faut le définir de manière à pouvoir le reconnaître sans ambiguïté.
Variable : Toute caractéristique mesurable ou observable sur un élément d'échantillonnage (var. propre) ou sur son environnement (var. associée) = Descripteur, caractère, attribut, observation, trait, profil (en géophysique), item (dans les questionnaires de psychologie), stimulus (en étude du comportement). Variable aléatoire : Variable dont la valeur (ou l état) est le résultat d un processus aléatoire. Pour un élément donné, la valeur précise prise par une variable aléatoire n est pas connue avant qu une observation n ait été faite. Variable contrôlée : Variable dont la valeur est déterminée par le chercheur et connue de façon précise. En expérimentation contrôlée, il s agit des variables dont la valeur est déterminée par l expérimentateur qui connaît ainsi leur valeur précise, à l erreur de manipulation près. Lors d expériences mesurant un phénomène naturel, les régions échantillonnées, par exemple, constituent clairement une variable contrôlée. De même, les stations et les moments d échantillonnage spécifiés dans le plan d échantillonnage sont déterminés à l avance par le chercheur et leur position est connue de façon précise; il s agit donc, au sens strict, de variables contrôlées.
Statistiques descriptives Représentation des données L objectif est de transmettre un message clair au lecteur Le graphique le plus simple est toujours le plus clair Le choix de la méthode de représentation se fait selon: - le type de série statistique (simple ou double) - le type de variable (qualitative, quantitative discrète ou continue)
Variable qualitative (ou variable semi-quantitative comportant un petit nombre de classes) : chaque catégorie d observations forme une classe. On dénombre les éléments de chaque classe. Tableau de fréquences du nombre de souris sylvestres en fonction de leur âge récoltées par Landry (2000) dans des populations insulaires du Lac Duparquet (Abitibi, Québec). âge Juvéniles Adulte 1 Adulte II Adulte III Total Fréquence absolue 12 35 47 28 122 Diagramme en bâtons représentant la distribution de fréquences du nombre de souris sylvestres en fonction de leur âge (n=122) récoltées par Landry (2000) dans des populations insulaires du Lac Duparquet (Abitibi, Québec).
Variable quantitative (ou variable semi-quantitative comportant un grand nombre de classes) : on regroupe les observations en classes. Établir des classes Utiliser les valeurs fixes d une variable discrète (ex.: âge = 1 an, 2 ans, 3 ans, etc.) ou semi-quantitative. Employer une division imposée par la théorie (ex. juvéniles, adultes, immatures, matures Employer une règle algébrique qui produit suffisamment, mais pas trop de classes : 1. Règle de Sturge : Nombre de classes = 1 + (3,322 log10 n) 2. Règle de Yule : Nombre de classes = (Dans les deux cas, on arrondit à l entier le plus proche, car un nombre de classes doit être un entier)
Définir les bornes, les intervalles et les indices des classe Borne inférieure d une classe: la plus petite valeur admise dans la classe (ex.: 15 g). Borne supérieure d une classe: la plus grande valeur admise dans la classe (ex. 15,9999... g) Intervalle de classe (ex. de 15 à 16 g: intervalle = 1 g). L intervalle se calcule approximativement comme suit: Indice de classe : valeur centrale de la classe (ex. 15,5 g). =>Faire coïncider les bornes et les indices de classes avec des nombres comportant peu de décimales, délimiter des classes d égale étendue, les classes ne se chevauchent pas. Dénombrer les éléments appartenant à chaque classe (la fréquence absolue ou l effectif de la classe)
Exemple Longueur totale du crâne (mm) pour un sous-échantillon de 60 souris sylvestres adultes (I, II et III), tiré d un échantillon de 122 souris de Landry (2000).
Combien de classes? Effectif de l échantillon (n) = 60 Selon la règle de Sturge: nb de classe = 1 + (3,3 log1060) = 6,87 7 classes Selon la règle de Yule: nb de classes = 2.5 4 60 = 2.5 2.78 = 6.95 7 classes Quelle sera l'étendue des classes? Étendue de variation de la variable = max - min = 25,74-22,28 = 3,46 Ainsi: 3,46/7 = 0,49 0,5 mm
Bornes, intervalles et indices des classe? Attention nous voulons des valeurs simples avec très peu de décimales! Valeur minimum des données: 22,28 Nous avons 7 classes de 0,5 mm chacune. Une série simple donnerait les indices de classe suivants: 22,5; 23,0; 23,5; 24,0; 24,5; 25,0 et 25,5 Les bornes inférieure et supérieure de la première classe sont 22,25 et 22,75. Les bornes inférieure et supérieure de la dernière classe sont 25,25 et 25,75. Nos classes incluent donc l ensemble des 60 données, ce qui est nécessaire. ATTENTION! Les classes ne se chevauchent jamais: la borne supérieure est généralement exclue de l intervalle de classe. Ex: la classe 1 inclut toutes les valeurs 22,25 x < 22,75
Les différentes fréquences Fréquence absolue = f i = effectif de la classe i ; [0, + ] Fréquence relative = f i rel. = f i /n ; [0, 1] Pourcentage = % i = 100 f i /n ; [0, 100] Fréquence cumulée d une classe = f i cum. ; [0, + ] Fréquence relative cumulée = f i rel. cum. = f i cum./n ; [0, 1] Pourcentage cumulé = % i cum. = 100 f i cum. /n ; [0, 100]
Tableau de fréquences de la longueur totale du crâne de 60 souris sylvestres récoltées par Landry (2000) dans des populations insulaires du Lac Duparquet (Abitibi, Québec).
Histogramme représentant la distribution de fréquences relatives de la longueur totale du crâne de 60 souris récoltées par Landry (2000) dans des populations insulaires du Lac Duparquet (Abitibi, Québec).
Polygone de fréquences représentant la distribution de fréquences relatives de la longueur totale du crâne de 60 souris récoltées par Landry (2000) dans des populations insulaires du Lac Duparquet (Abitibi, Québec).
2 variables qualitatives Tableau de contingence montrant la relation entre la confession et l'obédience politique de 518 citoyens américains en 1976.
2 variables quantitatives Tableau de corrélation de la largeur (mm) et de la longueur totale (mm) du crâne chez 60 souris sylvestres dans des populations insulaires du lac Duparquet (Abitibi, Québec; Landry, 2000).
Diagramme de dispersion de la largeur (mm) et de la longueur totale (mm) du crâne chez 60 souris sylvestres dans des populations insulaires du lac Duparquet (Abitibi, Québec; Landry, 2000).
D autres définitions Population biologique: ensemble des individus d'une même espèce habitant un lieu donné à un moment donné. Notion qui relève davantage de la biologie que de la statistique. quelle est la population biologique? Il faut spécifier le temps et le lieu. Communauté: ensemble des individus de diverses espèces retrouvés dans un espace et un temps donnés. Notion qui relève davantage de la biologie que de la statistique. - quelle est la communauté? Il faut spécifier le temps et le lieu.
Plan d'échantillonnage Un plan d échantillonnage a pour but de définir les conditions de prise des données en fonction du but de l'étude, tout en s'assurant de la représentativité de l échantillon Un échantillon représentatif reflète fidèlement la composition et la complexité de la population statistique. Il comporte toujours un élément de hasard (aléatoire). Échantillonnage aléatoire simple Prélèvement au hasard d un nombre n d éléments. Chaque élément a une probabilité égale d être prélevé. Cas particulier: le recensement (échantillonnage exhaustif). Échantillonnage stratifié Subdivision d une population hétérogène en sous-populations homogènes (selon un critère bien défini). Échantillonnage aléatoire simple dans chacune de ces sous-populations Échantillonnage systématique Prélèvement régulier dans le temps ou dans l espace des éléments. Assure une répartition uniforme des éléments. Le pas d'échantillonnage pe est défini selon le rapport entre le nombre d'éléments disponibles dans la population (effectif total) N et le nombre d'éléments à sélectionner dans l'échantillon n. pe est l'entier inférieur le plus proche de N/n. L'emplacement (ou le temps) du premier élément choisi est sélectionné aléatoirement, les valeurs possibles allant de 1 à N. On peut définir des échantillonnages systématiques à pas multiples (combinaison de plusieurs pas).
Statistiques descriptives Paramètres d une distribution Paramètres de position (valeurs centrales autour desquelles se groupent les valeurs observées) Moyenne arithmétique (mean) désigne la moyenne arithmétique de n éléments (n = effectif) tirés d un échantillon. Mêmes unités que x. µx = E(x) = moyenne de la distribution théorique des éléments x d une population
Médiane (median) Me x La médiane est la valeur de la variable qui se situe au centre de la série statistique, classée en ordre croissant. La médiane sépare la série en deux groupes d égale importance. S il y a un nombre impair d observations, Me est une observation de la série. Exemple: pour la série [1, 32, 128, 129, 1000235], Me = 128. S il y a un nombre pair d observations, la médiane est située entre les deux observations centrales de la série. Par convention, on utilise la moyenne de ces deux valeurs. Exemple: pour la série [1, 32, 128, 129, 532, 1000235], Me = 128,5.
Mode Mo Le mode est l indice de la classe comportant le plus de valeurs. Dans une distribution continue c est la "bosse" de la distribution. Il peut y avoir plusieurs modes dans une distribution. Pour être plus précis on peut calculer le Mode corrigé
Mode corrigé
é
Intérêt de chaque paramètre de position
Forme d une distribution en fonction de ses paramètres de position
Paramètres de dispersion (ils renseignent sur l étalement des valeurs observées) Étendue de variation (range) Calcul: valeur maximum valeur minimum Variance (variance) Population statistique d'effectif N: Échantillon aléatoire d'effectif n: Attention
L écart type (standard deviation) σ x pour une population ou une distribution théorique s x pour un échantillon Coefficient de variation (coefficient of variation) Symbole: C.V., CV ou V Le coefficient de variation permet donc de comparer la variation de variables exprimées originellement dans des unités physiques différentes. Lorsque les échantillons sont de petite taille (n<20), on applique une correction à la formule du coefficient de variation:
Coefficient d asymétrie (skewness) Mesure l'asymétrie d'une distribution, c'est-à-dire si elle "penche" d'un côté ou de l'autre. Où est le cube de l'écart type de la distribution distribution tend vers la gauche distribution symétrique distribution tend vers la droite
Coefficient d aplatissement (kurtosis) Mesure l'aplatissement d'une distribution Où est la quatrième puissance de l'écart type de la distribution normale
Paramètre de dispersion d'une série statistique double Covariance s xy La covariance est une généralisation à deux dimensions du concept de variance. Ce paramètre mesure la dispersion conjointe de deux variables. La covariance renseigne sur la forme et l'orientation du nuage de points d'un diagramme de dispersion.