I. LA VARIABILITE AU SEIN DES POPULATIONS



Documents pareils
Séries Statistiques Simples

Relation entre deux variables : estimation de la corrélation linéaire

Chapitre 3. Les distributions à deux variables

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

23. Interprétation clinique des mesures de l effet traitement

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

1. Vocabulaire : Introduction au tableau élémentaire

Statistique Descriptive Élémentaire

Statistiques Descriptives à une dimension

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Précision d un résultat et calculs d incertitudes

Représentation des Nombres

Collecter des informations statistiques

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Correction du baccalauréat STMG Polynésie 17 juin 2014

Aide-mémoire de statistique appliquée à la biologie

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

IV. La ressemblance entre apparentés

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Dérivation : cours. Dérivation dans R

Représentation d une distribution

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Complément d information concernant la fiche de concordance

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

1 Complément sur la projection du nuage des individus

Nombre dérivé et tangente

Principe d un test statistique

Etude du niveau stress ressenti par les salariés de plusieurs entreprises du tertiaire. Un outil de mesure.

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

INF6304 Interfaces Intelligentes

Limites finies en un point

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Mesures et incertitudes

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

FONCTION DE DEMANDE : REVENU ET PRIX

Statistiques à deux variables

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Analyse en Composantes Principales

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

données en connaissance et en actions?

Continuité et dérivabilité d une fonction

Le suivi de la qualité. Méthode MSP : généralités

Fonctions de plusieurs variables

4. Résultats et discussion

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Unités, mesures et précision

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Chapitre 6. Fonction réelle d une variable réelle

Chapitre 1 Régime transitoire dans les systèmes physiques

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Logiciel XLSTAT version rue Damrémont PARIS

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Calculs Computional fluide dynamiques (CFD) des serres à membrane de Van der Heide

TSTI 2D CH X : Exemples de lois à densité 1

Théorème du point fixe - Théorème de l inversion locale

Correction du bac blanc CFE Mercatique

Etude des propriétés empiriques du lasso par simulations

Notion de fonction. Résolution graphique. Fonction affine.

Table des matières. I Mise à niveau 11. Préface

SUIVI CINETIQUE PAR SPECTROPHOTOMETRIE (CORRECTION)

Une étude de différentes analyses réalisées par le BIT

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Cours de Tests paramétriques

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

CAPTEURS - CHAINES DE MESURES

Statistique : Résumé de cours et méthodes

M2 IAD UE MODE Notes de cours (3)

Chapitre 1 : Évolution COURS

BACCALAUREAT GENERAL MATHÉMATIQUES

PHYSIQUE-CHIMIE. Partie I - Spectrophotomètre à réseau

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Bovins viande. Effectifs troupeaux et animaux par région en Total élevages. Nbre de veaux pesés en VA0. Nbre de veaux pesés en VA4

SPHINX Logiciel de dépouillement d enquêtes

Cet article s attache tout d abord

Modèle GARCH Application à la prévision de la volatilité

Infolettre #18 : Les graphiques avec Excel 2010

choisir H 1 quand H 0 est vraie - fausse alarme

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Compte rendu de LA37 B, TP numéro 1. Evolution de la température et du degrée d'hydratation

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Dérivation : Résumé de cours et méthodes

Développements limités, équivalents et calculs de limites

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Demandeurs d'emploi inscrits et offres collectées par Pôle emploi en Guyane en janvier 2015

Loi binomiale Lois normales

Transcription:

I. LA VARIABILITE AU SEIN DES POPULATIONS La notion de population recouvre un concept difficilement réductible à une définition unique. Au sens de la génétique, une population représente une entité de reproduction au sein d une espèce (voir GP et chapitre V). Cette définition est néanmoins vague car elle ne précise ni le type de reproduction, ni le critère permettant d affecter un individu à une entité plutôt qu à une autre. Dans ce chapitre, nous considérons la population comme un ensemble d individus possédant certaines caractéristiques communes : il peut s agir des pieds de maïs d une parcelle, d une colonie d insectes dans une forêt, des habitants de la commune de Marchastel (Lozère, 38 habitants) ou de la République Populaire de Chine (1,25 milliard d habitants), etc. Pour décrire la variabilité au sein d une population, une première solution consiste à fournir le résultat brut de la collecte de données, c est-à-dire la liste des valeurs numériques mesurées sur tous les individus pour les différents caractères observés. Le volume des données peut être extrêmement important et ne permet pas d appréhender correctement la situation générale de la population. Aussi, a-t-on recours aux statistiques, dont un des rôles est de synthétiser l information : le présent chapitre renvoie donc à l enseignement correspondant. A. Description d une population pour un caractère 1. La distribution Une représentation graphique permet de rendre compte de la manière dont les valeurs numériques se répartissent dans la gamme de variation observée : c est la distribution. Il s agit d un graphe où en abscisse se trouvent les valeurs numériques et en ordonnée la fréquence (ou le nombre) des individus que l on trouve avec une valeur donnée ou dans un intervalle donné. La figure 1 représente la distribution de la taille de mille étudiants de l université de Harvard. On voit que l allure de la distribution change selon la précision avec laquelle a été faite la mesure, ou, ce qui revient au même, la largeur des classes que l on constitue pour réaliser le graphe. Si le pas de classe adopté est de 1 cm, les étudiants se répartissent en cinq classes (Figure 1.a). Si l on peut mesurer à 1 cm près, les classes se subdivisent (Figure 1.b). Si l on poursuit le processus, en affinant les mesures et en supposant que l on peut mesurer un très grand nombre d individus, on tend vers une distribution continue (Figure 1.c). - 9 -

15 151 152 153 154 155 156 157 158 159 16 161 162 163 164 165 166 167 168 169 17 171 172 173 174 175 176 177 178 179 18 181 182 183 184 185 186 187 188 189 19 191 192 193 194 195 196 197 198 199 Figure 1. Distribution de la taille de 1 étudiants de sexe masculin de l université de Harvard (Etats-Unis), selon que l on constitue des classes de 1 cm (a) ou de 1 cm (b), et comparaison avec la courbe de la loi normale (c). Source : Castle, 1916 Nombre 6 4 2 a 151-16 161-17 171-18 181-19 191-2 Taille (cm) Nombre 6 4 2 b 2 Taille (cm) c 15 16 17 Taille (cm) 18 19 2-1 -

La figure 1 nous indique également que la distribution de la taille, dans la population observée, se rapproche, dans sa forme, de la courbe «en cloche» caractéristique de la loi normale (voir Stat). Ainsi, comme on l a déjà évoqué dans l introduction, les caractères quantitatifs présentent une variation continue. La figure 2 montre quelques exemples de variation observée pour des caractères d importance agronomique ou zootechnique. Même lorsque le caractère mesuré est par nature discontinu, car représentant la somme d un nombre d objets distincts (on parle dans ce cas de caractères méristiques : nombre de grains sur un épi de maïs, nombre de soies abdominales chez la drosophile, nombre de jeunes dans une portée de truie, etc.), le nombre de classes observées peut être élevé, et l on considère la variation de ce type de caractère comme continue (voir figure 2.d). La distribution normale est une distribution très fréquemment rencontrée pour un grand nombre de caractères dans toutes les espèces (voir figure 2). De ce fait, l analyse statistique des caractères auxquels on s intéresse en génétique quantitative est souvent facilitée. Toutefois, les caractères pour lesquels on ne peut pas admettre la normalité de la distribution nécessitent un traitement approprié. Par exemple, une transformation mathématique des données par des fonctions telles que le logarithme, la racine, etc. permet souvent de normaliser les distributions. 2. La moyenne La distribution reste néanmoins peu facile à manipuler, et ne donne pas immédiatement une valeur représentative du caractère dans la population : si nous demandons à un obstétricien combien pèse un bébé à la naissance en France, il ne nous présentera pas une courbe de distribution, mais nous répondra, «autour de 3,2 kg». La moyenne, ou espérance, est le concept statistique le plus utilisé pour donner un ordre de grandeur d un caractère. Cependant, on peut parfois être amené à donner le mode (valeur la plus fréquemment observée) ou la médiane (valeur autour de laquelle l effectif de la population se répartit équitablement). En cas de distribution normale, ces trois paramètres sont égaux. - 11 -

Figure 2. Quelques distributions observées pour des caractères d importance agronomique ou zootechnique. N = nombre total d individus ayant fait l objet d une mesure a : Teneur en saccharose (%) dans la racine de betterave à sucre. Variété du début du ème siècle. (N = 42 997 ; Source : De Vries, 199). b : Poids de grain (g) dans un épi de blé (N = 79 ; Source : INA P-G, 2). c : Teneur en protéines du lait de vache (g/kg), calculée sur l ensemble de la lactation. Race Montbéliarde, contrôle de performances en ferme en 1988 (N = 251 75 ; Source : FNOCL, 1989). d : Taille de portée (nombre de jeunes nés par portée) chez la truie. Race Large-White, contrôle de performances en ferme de 199 à 2. (N = 724 123 ; Source : ITP-INRA, 2). 2 a 15 b % % 1 1 5 1 12 14 16 18 % 2 2 4 g 6 % c 1 15 % 1 d 5 5 2 25 3 35 4 g/kg 1 4 7 1 13 16 19 22 25 28-12 -

3. La variance Pour décrire l amplitude de la dispersion autour de la moyenne, on utilise le plus souvent la variance, qui est la moyenne des carrés des écarts à la moyenne (voir le mémento statistique en fin de ce chapitre) et s exprime dans le carré de l unité du caractère mesuré. L écart-type, quant à lui, est égal à la racine carrée de la variance et s exprime dans l unité du caractère. A titre d illustration, le tableau 1 donne les paramètres des distributions reportées aux figures 1 et 2. Une propriété intéressante de la loi normale est que l on peut facilement calculer la proportion d individus dont la valeur se situe au-delà (ou en deçà) d un certain seuil par rapport à la moyenne ; des tables donnent ces proportions pour une loi normale centrée réduite, c est-à-dire dont la moyenne est nulle et la variance est égale à 1 (voir Stat). Ainsi, il est bien connu que, dans le cas d une distribution normale, 95 % des valeurs se situent dans un intervalle allant de -1,96 à + 1,96 écarts-types de part et d autre de la moyenne. Si l on préfère, on peut également dire que seulement 2,5 % des valeurs se situent à plus de 1,96 écarts-types au-delà de la moyenne, et réciproquement en deçà de la moyenne. A titre d exemple, la distribution de la teneur en protéines du lait étant rigoureusement ajustée à une distribution normale (figure 2.c), les chiffres du tableau 1 nous indiquent que 95 % des vaches Montbéliardes contrôlées en 1988 ont eu une valeur de taux protéique comprise entre 27,6 et 35,4 g/kg, ce qui représente un bon aperçu du champ de variation du caractère dans la population considérée. Tableau 1. Caractéristiques des échantillons pour lesquels la distribution des valeurs mesurées a été donnée (cf. figures 1 et 2). Caractère Nombre d individus mesurés Moyenne Ecart-type Taille (cm) 1 175 6,3 Teneur en saccharose (%) 42 997 15,2 1,2 Poids de grain par épi (g) 79 2,58,75 Teneur en protéines du lait (g/kg) 251 75 31,5 2, Taille de portée 724 123 12, 3,4-13 -

B. Description d une population pour deux caractères Lorsque l on étudie une population, il est rare que l on ne s intéresse qu à un seul caractère mesurable sur les individus qui la composent. En amélioration des plantes ou des animaux, ce n est quasiment jamais le cas. Il est donc important de disposer d outils permettant, au minimum, de décrire une population de façon bidimensionnelle. 1. La distribution à deux dimensions Pour rendre compte graphiquement d une distribution à deux dimensions, on construit un nuage de points : chaque individu est représenté sur le graphe par un point dont les coordonnées sont égales aux valeurs respectives pour les deux caractères étudiés. La figure 3 montre une construction de ce type, à partir de données recueillies sur une espèce d ongulé sauvage, le bouquetin des Alpes, Capra ibex ibex. La forme du nuage de points suggère une liaison statistique entre les deux caractères mesurés, liaison qu il est possible de quantifier. Figure 3. Relation entre le tour de poitrine (TP) et le poids dans un échantillon de 35 mâles de bouquetin des Alpes (Capra ibex ibex). Source : Toïgo, 1998 6 Poids (kg) 4 2 6 8 TP (cm) 1-14 -

2. La corrélation Le coefficient de corrélation (de Pearson) est le paramètre usuel pour quantifier l association entre deux variables. Ce coefficient se calcule comme étant le rapport de la covariance entre les deux variables au produit de leurs écarts-types respectifs ; la covariance est l espérance du coproduit des deux variables centrées (voir mémento statistique). Le coefficient de corrélation entre deux variables et Y est sans dimension et varie de -1 à +1. Il mesure le degré de liaison linéaire entre les deux variables mais n implique pas toujours une relation de cause à effet. Si la corrélation est positive, les valeurs élevées de Y sont préférentiellement associées à des valeurs élevées de. En cas de corrélation négative, ce sont les valeurs faibles de Y qui sont associées préférentiellement aux valeurs élevées de. Quand le coefficient de corrélation est élevé en valeur absolue, l association est rigoureuse et le nuage de points est resserré autour d une droite. A contrario, une valeur proche de zéro indique que la liaison linéaire est imparfaite, une valeur de zéro signifiant l indépendance linéaire entre les deux variables. Lorsque deux variables suivent conjointement une loi normale, leur coefficient de corrélation est le meilleur indicateur de leur association statistique. A l inverse, deux variables peuvent avoir entre elles une liaison forte mais non linéaire (par exemple sur l ensemble des réels et Y = 2 ) et être en corrélation nulle, car comme indiqué plus haut, la corrélation mesure une liaison qui est de type linéaire. Lorsque l on ne connaît pas a priori le type de liaison entre deux variables, l observation de leur distribution bidimensionnelle est indispensable et se restreindre au seul calcul du coefficient de corrélation pour juger de leur liaison peut conduire à de grossières erreurs. 3. La régression linéaire L existence d une corrélation linéaire entre deux variables permet de prédire la valeur d une variable à partir de la valeur prise par l autre variable. En effet, connaissant, il est possible de prédire Y par $ Y, selon l équation suivante : $Y = a+ b - 15 -

Le coefficient de régression (b) représente la pente de la droite, c est-à-dire la quantité selon laquelle, en moyenne, la variable Y varie lorsque la variable croît d une unité. Quant au coefficient a, il représente simplement l ordonnée de la droite à l origine (c.à.d. le zéro de la variable ). Les coefficients a et b de cette droite de régression sont déterminés de façon à minimiser la variance d erreur entre les valeurs prédites par l équation ci-dessus ( Y $ ) et les valeurs réelles de Y sur l échantillon considéré (méthode des moindres carrés, voir Stat). Plus la corrélation entre les deux variables est élevée, plus la prédiction de l une à partir de l autre est précise (plus Y $ est proche de Y). L intérêt de la technique de régression linéaire est de permettre une prédiction de la valeur d un individu pour un caractère qui nous intéresse alors que la mesure en est difficile ou très coûteuse, voire impossible dans les conditions où l on se trouve. L objectif des mesures faites chez le bouquetin des Alpes et présentées à la figure 3 était justement de fournir un prédicteur simple du poids des animaux afin de permettre le suivi régulier des populations, notamment de la croissance des animaux. On conçoit en effet que, dans l habitat naturel du bouquetin, le transport d une bascule soit quelque peu malaisé. Un mètre-ruban est bien moins encombrant et d un maniement très facile. Les prédictions que l on peut faire du poids des animaux à partir de la simple meure de leur tour de poitrine sont jugées suffisamment fiables pour l objectif que l on s est assigné : les erreurs de prédiction sont de faible ampleur et elles n ont que peu de conséquences pratiques. La régression fait l objet de très nombreuses applications, dans des domaines très variés. Notamment, il sera largement discuté, dans le cadre des enseignements correspondants, de l usage extrêmement courant que l on fait de la régression linéaire en amélioration des plantes et en amélioration des animaux, pour prédire ce que l on ne peut en général pas observer directement, la valeur génétique pour un caractère donné, à partir de ce que l on voit, le phénotype. - 16 -

MEMENTO STATISTIQUE (inspiré de Minvielle, 199) Paramètre Population de taille infinie Estimateur sur un échantillon de taille n Symbole Définition Symbole Formule de calcul Moyenne µ, µ E Variance 2 2 σ, σ Covariance Corrélation Régression V, Var( ) σ Y Cov(, Y) ρ Y r(, Y) β Y / b Y / E b g, $µ 1 n F H Eb g I 2 2 s K, $σ e j b g 2 2 =E E d bg bgi b Yg b g byg b, g E E Y E Y =E E E Cov Y σ b σ Y Cov Y, σ 2 g $ V 1 n 1 s Y 1 n 1 b b r, Y r$, Y b Y/ b$ Y/ g g L 2 2 no NM e j d i QP L 2 2O NM e j nch 1 QP d i d id i 1 = n sy = ssy Y Y n d Yi d id Yi n L F H I N Me j d i OL K QP F H I N Me j d i K 2 2 n Y 2 Y 2 n d i d id i F H I NM e j d i K QP s Y Y n Y = 2 s L 2 2 no O QP Champ de variation -, +, + -, + - 1, + 1 -, + - 17 -

EERCICES Le tableau ci-dessous donne les valeurs numériques ayant servi à l établissement du graphe relatif à la liaison entre le tour de poitrine (TP) et le poids chez 35 mâles de bouquetin des Alpes (Toïgo, 1998 ; cf. figure 3 dans le chapitre I). A partir des éléments partiels de calcul qui sont fournis, calculer : - la moyenne et l écart-type de chacun des caractères. - les coefficient de corrélation entre les deux caractères. - l équation de la droite de régression permettant de prédire le poids en fonction du tour de poitrine. n TP (cm) Poids (kg) n TP (cm) Poids (kg) 1 6,5 12, 19 8, 34, 2 62, 16, 2 78, 34, 3 69, 17,5 21 78, 34, 4 66, 21, 22 89, 36, 5 66, 22, 23 81, 36, 6 8, 23, 24 81, 37, 7 78, 23, 25 86, 37, 8 68, 23,5 26 87, 37, 9 67, 24, 27 82, 42, 1 66,5 24, 28 85, 43, 11 66, 25, 29 82, 44, 12 77, 26, 3 86, 44, 13 78, 28, 31 82, 44, 14 73, 29, 32 88, 46, 15 74, 3, 33 94, 46, 16 75, 31, 34 88,5 48, 17 74, 32, 35 91, 5, 18 7,5 32, TP Poids TP x Poids Somme 27 9, 1 131, - Somme des carrés 212 34, 39 852,5 - Somme des co-produits - - 9 132,5-18 -