Biostatistiques. Thierry THIBAUT

Documents pareils
Statistiques Descriptives à une dimension

Statistique : Résumé de cours et méthodes

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Séries Statistiques Simples

Logiciel XLSTAT version rue Damrémont PARIS

TSTI 2D CH X : Exemples de lois à densité 1

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

1. Vocabulaire : Introduction au tableau élémentaire

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Lois de probabilité. Anita Burgun

données en connaissance et en actions?

Théorie des sondages : cours 5

Annexe commune aux séries ES, L et S : boîtes et quantiles

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre Student Assessment and Program Evaluation Branch

MATHÉMATIQUES. Mat-4104

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Précision d un résultat et calculs d incertitudes

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Statistiques 0,14 0,11

3. Caractéristiques et fonctions d une v.a.

Evaluation de la variabilité d'un système de mesure

Lire ; Compter ; Tester... avec R

Statistique Descriptive Élémentaire

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Analyse et interprétation des données

CAPTEURS - CHAINES DE MESURES

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Relation entre deux variables : estimation de la corrélation linéaire

Chapitre 3 : INFERENCE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

Introduction aux Statistiques et à l utilisation du logiciel R

FORMULAIRE DE STATISTIQUES

Codage d information. Codage d information : -Définition-

Décrets, arrêtés, circulaires

SERIE 1 Statistique descriptive - Graphiques

Le suivi de la qualité. Méthode MSP : généralités

Feuille d exercices 2 : Espaces probabilisés

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Propriétés des options sur actions

La nouvelle planification de l échantillonnage

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

PROGRAMME INTERNATIONAL POUR LE SUIVI DES ACQUIS DES ÉLÈVES QUESTIONS ET RÉPONSES DE L ÉVALUATION PISA 2012 DE LA CULTURE FINANCIÈRE

Table des matières. I Mise à niveau 11. Préface

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

I- Définitions des signaux.

Leçon 01 Exercices d'entraînement

LES GENERATEURS DE NOMBRES ALEATOIRES

Leçon N 4 : Statistiques à deux variables

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Établissement des taux d actualisation fondés sur la meilleure estimation aux fins des évaluations de provisionnement sur base de continuité

COTE LAVAL. Cette méthode de calcul de la cote Laval est utilisée pour fin d admission depuis la session d automne 2010.

Probabilités III Introduction à l évaluation d options

La rémunération des concepteurs. en théâtre au Québec. de 2004 à 2006

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Chapitre 3. Les distributions à deux variables

Cours de Probabilités et de Statistique

Représentation d une distribution

SYNTHÈSE DOSSIER 1 Introduction à la prospection

STATISTIQUES DESCRIPTIVES

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

Item 169 : Évaluation thérapeutique et niveau de preuve

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Traitement des données avec Microsoft EXCEL 2010

Rédiger et administrer un questionnaire

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Glossaire de termes relatifs à l assurance de la qualité et aux bonnes pratiques de laboratoire

Le parcours professionnel des chômeurs de longue durée en Suisse

Raisonnement par récurrence Suites numériques

Introduction à l approche bootstrap

BMO Société d assurance-vie. Glossaire d aide juin 2009

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Localisation des fonctions

MÉTHODOLOGIE POUR LE CALCUL DE L AMORTISSEMENT ET DE LA VALEUR DU STOCK NET DOMICILIAIRE DIVISION DE L INVESTISSEMENT ET DU STOCK DE CAPITAL

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Table des matières: Guidelines Fonds de Pensions

Principe d un test statistique

Les principales méthodes d évaluation

Fluctuation d une fréquence selon les échantillons - Probabilités

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

Le taux d'actualisation en assurance

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

TESTS D'HYPOTHESES Etude d'un exemple

Cours Fonctions de deux variables

23. Interprétation clinique des mesures de l effet traitement

Parcours FOAD Formation EXCEL 2010

POKER ET PROBABILITÉ

Probabilités sur un univers fini

INDICES DE PRIX EXPÉRIMENTAUX DES SERVICES FINANCIERS

Travaux dirigés d introduction aux Probabilités

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

STATISTIQUES DESCRIPTIVES

4 Distributions particulières de probabilités

Transcription:

Biostatistiques Thierry THIBAUT

But des statistiques Permet de confirmer ou d infirmer une hypothèse avec une marge d erreur la plus petite possible et/ou prédire un événements à l aide d outils Statistiques descriptives Statistiques inférentielles

La démarche scientifique

Statistiques descriptives Identification des données

Population-cible : ensemble des éléments visés, en principe, par l'échantillonnage. - quelle est la population-cible? Il s'agit là de la population sur laquelle on aimerait bien que les conclusions de l'étude portent. Population statistique : ensemble des éléments effectivement représentés par l'échantillonnage. Les éléments qui la composent se caractérisent par au moins une caractéristique commune et exclusive qui permettent de les distinguer sans ambiguïté. - quelle est la population statistique?il faut mentionner la ou les caractéristiques qui permettent de la distinguer de toute autre population statistique.

Échantillon (sample) : fragment d'un ensemble prélevé pour juger de cet ensemble. Fraction de la population statistique sur laquelle des mesures sont faites pour connaître les propriétés de cette population. - quel est l'échantillon? Quel est son effectif? Échantillonnage aléatoire simple : Prélèvement au hasard, et de façon indépendante, d un certain nombre n d éléments de la population statistique de N éléments. Chaque élément de la population doit avoir la même probabilité d être sélectionné. Échantillon représentatif : Échantillon qui reflète fidèlement la complexité et la composition de la population. L échantillonnage aléatoire ainsi que l inventaire exhaustif (recensement), sont deux façons d obtenir un échantillon représentatif d une population. Aussi: mélange suivi du prélèvement de n individus.

Élément : membre d'une population statistique (spécimen, prélèvement d'eau, individu... -quel est l'élément?il faut le définir de manière à pouvoir le reconnaître sans ambiguïté.

Variable : Toute caractéristique mesurable ou observable sur un élément d'échantillonnage (var. propre) ou sur son environnement (var. associée) = Descripteur, caractère, attribut, observation, trait, profil (en géophysique), item (dans les questionnaires de psychologie), stimulus (en étude du comportement). Variable aléatoire : Variable dont la valeur (ou l état) est le résultat d un processus aléatoire. Pour un élément donné, la valeur précise prise par une variable aléatoire n est pas connue avant qu une observation n ait été faite. Variable contrôlée : Variable dont la valeur est déterminée par le chercheur et connue de façon précise. En expérimentation contrôlée, il s agit des variables dont la valeur est déterminée par l expérimentateur qui connaît ainsi leur valeur précise, à l erreur de manipulation près. Lors d expériences mesurant un phénomène naturel, les régions échantillonnées, par exemple, constituent clairement une variable contrôlée. De même, les stations et les moments d échantillonnage spécifiés dans le plan d échantillonnage sont déterminés à l avance par le chercheur et leur position est connue de façon précise; il s agit donc, au sens strict, de variables contrôlées.

Statistiques descriptives Représentation des données L objectif est de transmettre un message clair au lecteur Le graphique le plus simple est toujours le plus clair Le choix de la méthode de représentation se fait selon: - le type de série statistique (simple ou double) - le type de variable (qualitative, quantitative discrète ou continue)

Variable qualitative (ou variable semi-quantitative comportant un petit nombre de classes) : chaque catégorie d observations forme une classe. On dénombre les éléments de chaque classe. Tableau de fréquences du nombre de souris sylvestres en fonction de leur âge récoltées par Landry (2000) dans des populations insulaires du Lac Duparquet (Abitibi, Québec). âge Juvéniles Adulte 1 Adulte II Adulte III Total Fréquence absolue 12 35 47 28 122 Diagramme en bâtons représentant la distribution de fréquences du nombre de souris sylvestres en fonction de leur âge (n=122) récoltées par Landry (2000) dans des populations insulaires du Lac Duparquet (Abitibi, Québec).

Variable quantitative (ou variable semi-quantitative comportant un grand nombre de classes) : on regroupe les observations en classes. Établir des classes Utiliser les valeurs fixes d une variable discrète (ex.: âge = 1 an, 2 ans, 3 ans, etc.) ou semi-quantitative. Employer une division imposée par la théorie (ex. juvéniles, adultes, immatures, matures Employer une règle algébrique qui produit suffisamment, mais pas trop de classes : 1. Règle de Sturge : Nombre de classes = 1 + (3,322 log10 n) 2. Règle de Yule : Nombre de classes = (Dans les deux cas, on arrondit à l entier le plus proche, car un nombre de classes doit être un entier)

Définir les bornes, les intervalles et les indices des classe Borne inférieure d une classe: la plus petite valeur admise dans la classe (ex.: 15 g). Borne supérieure d une classe: la plus grande valeur admise dans la classe (ex. 15,9999... g) Intervalle de classe (ex. de 15 à 16 g: intervalle = 1 g). L intervalle se calcule approximativement comme suit: Indice de classe : valeur centrale de la classe (ex. 15,5 g). =>Faire coïncider les bornes et les indices de classes avec des nombres comportant peu de décimales, délimiter des classes d égale étendue, les classes ne se chevauchent pas. Dénombrer les éléments appartenant à chaque classe (la fréquence absolue ou l effectif de la classe)

Exemple Longueur totale du crâne (mm) pour un sous-échantillon de 60 souris sylvestres adultes (I, II et III), tiré d un échantillon de 122 souris de Landry (2000).

Combien de classes? Effectif de l échantillon (n) = 60 Selon la règle de Sturge: nb de classe = 1 + (3,3 log1060) = 6,87 7 classes Selon la règle de Yule: nb de classes = 2.5 4 60 = 2.5 2.78 = 6.95 7 classes Quelle sera l'étendue des classes? Étendue de variation de la variable = max - min = 25,74-22,28 = 3,46 Ainsi: 3,46/7 = 0,49 0,5 mm

Bornes, intervalles et indices des classe? Attention nous voulons des valeurs simples avec très peu de décimales! Valeur minimum des données: 22,28 Nous avons 7 classes de 0,5 mm chacune. Une série simple donnerait les indices de classe suivants: 22,5; 23,0; 23,5; 24,0; 24,5; 25,0 et 25,5 Les bornes inférieure et supérieure de la première classe sont 22,25 et 22,75. Les bornes inférieure et supérieure de la dernière classe sont 25,25 et 25,75. Nos classes incluent donc l ensemble des 60 données, ce qui est nécessaire. ATTENTION! Les classes ne se chevauchent jamais: la borne supérieure est généralement exclue de l intervalle de classe. Ex: la classe 1 inclut toutes les valeurs 22,25 x < 22,75

Les différentes fréquences Fréquence absolue = f i = effectif de la classe i ; [0, + ] Fréquence relative = f i rel. = f i /n ; [0, 1] Pourcentage = % i = 100 f i /n ; [0, 100] Fréquence cumulée d une classe = f i cum. ; [0, + ] Fréquence relative cumulée = f i rel. cum. = f i cum./n ; [0, 1] Pourcentage cumulé = % i cum. = 100 f i cum. /n ; [0, 100]

Tableau de fréquences de la longueur totale du crâne de 60 souris sylvestres récoltées par Landry (2000) dans des populations insulaires du Lac Duparquet (Abitibi, Québec).

Histogramme représentant la distribution de fréquences relatives de la longueur totale du crâne de 60 souris récoltées par Landry (2000) dans des populations insulaires du Lac Duparquet (Abitibi, Québec).

Polygone de fréquences représentant la distribution de fréquences relatives de la longueur totale du crâne de 60 souris récoltées par Landry (2000) dans des populations insulaires du Lac Duparquet (Abitibi, Québec).

2 variables qualitatives Tableau de contingence montrant la relation entre la confession et l'obédience politique de 518 citoyens américains en 1976.

2 variables quantitatives Tableau de corrélation de la largeur (mm) et de la longueur totale (mm) du crâne chez 60 souris sylvestres dans des populations insulaires du lac Duparquet (Abitibi, Québec; Landry, 2000).

Diagramme de dispersion de la largeur (mm) et de la longueur totale (mm) du crâne chez 60 souris sylvestres dans des populations insulaires du lac Duparquet (Abitibi, Québec; Landry, 2000).

D autres définitions Population biologique: ensemble des individus d'une même espèce habitant un lieu donné à un moment donné. Notion qui relève davantage de la biologie que de la statistique. quelle est la population biologique? Il faut spécifier le temps et le lieu. Communauté: ensemble des individus de diverses espèces retrouvés dans un espace et un temps donnés. Notion qui relève davantage de la biologie que de la statistique. - quelle est la communauté? Il faut spécifier le temps et le lieu.

Plan d'échantillonnage Un plan d échantillonnage a pour but de définir les conditions de prise des données en fonction du but de l'étude, tout en s'assurant de la représentativité de l échantillon Un échantillon représentatif reflète fidèlement la composition et la complexité de la population statistique. Il comporte toujours un élément de hasard (aléatoire). Échantillonnage aléatoire simple Prélèvement au hasard d un nombre n d éléments. Chaque élément a une probabilité égale d être prélevé. Cas particulier: le recensement (échantillonnage exhaustif). Échantillonnage stratifié Subdivision d une population hétérogène en sous-populations homogènes (selon un critère bien défini). Échantillonnage aléatoire simple dans chacune de ces sous-populations Échantillonnage systématique Prélèvement régulier dans le temps ou dans l espace des éléments. Assure une répartition uniforme des éléments. Le pas d'échantillonnage pe est défini selon le rapport entre le nombre d'éléments disponibles dans la population (effectif total) N et le nombre d'éléments à sélectionner dans l'échantillon n. pe est l'entier inférieur le plus proche de N/n. L'emplacement (ou le temps) du premier élément choisi est sélectionné aléatoirement, les valeurs possibles allant de 1 à N. On peut définir des échantillonnages systématiques à pas multiples (combinaison de plusieurs pas).

Statistiques descriptives Paramètres d une distribution Paramètres de position (valeurs centrales autour desquelles se groupent les valeurs observées) Moyenne arithmétique (mean) désigne la moyenne arithmétique de n éléments (n = effectif) tirés d un échantillon. Mêmes unités que x. µx = E(x) = moyenne de la distribution théorique des éléments x d une population

Médiane (median) Me x La médiane est la valeur de la variable qui se situe au centre de la série statistique, classée en ordre croissant. La médiane sépare la série en deux groupes d égale importance. S il y a un nombre impair d observations, Me est une observation de la série. Exemple: pour la série [1, 32, 128, 129, 1000235], Me = 128. S il y a un nombre pair d observations, la médiane est située entre les deux observations centrales de la série. Par convention, on utilise la moyenne de ces deux valeurs. Exemple: pour la série [1, 32, 128, 129, 532, 1000235], Me = 128,5.

Mode Mo Le mode est l indice de la classe comportant le plus de valeurs. Dans une distribution continue c est la "bosse" de la distribution. Il peut y avoir plusieurs modes dans une distribution. Pour être plus précis on peut calculer le Mode corrigé

Mode corrigé

é

Intérêt de chaque paramètre de position

Forme d une distribution en fonction de ses paramètres de position

Paramètres de dispersion (ils renseignent sur l étalement des valeurs observées) Étendue de variation (range) Calcul: valeur maximum valeur minimum Variance (variance) Population statistique d'effectif N: Échantillon aléatoire d'effectif n: Attention

L écart type (standard deviation) σ x pour une population ou une distribution théorique s x pour un échantillon Coefficient de variation (coefficient of variation) Symbole: C.V., CV ou V Le coefficient de variation permet donc de comparer la variation de variables exprimées originellement dans des unités physiques différentes. Lorsque les échantillons sont de petite taille (n<20), on applique une correction à la formule du coefficient de variation:

Coefficient d asymétrie (skewness) Mesure l'asymétrie d'une distribution, c'est-à-dire si elle "penche" d'un côté ou de l'autre. Où est le cube de l'écart type de la distribution distribution tend vers la gauche distribution symétrique distribution tend vers la droite

Coefficient d aplatissement (kurtosis) Mesure l'aplatissement d'une distribution Où est la quatrième puissance de l'écart type de la distribution normale

Paramètre de dispersion d'une série statistique double Covariance s xy La covariance est une généralisation à deux dimensions du concept de variance. Ce paramètre mesure la dispersion conjointe de deux variables. La covariance renseigne sur la forme et l'orientation du nuage de points d'un diagramme de dispersion.