Chap2. STATISTIQUE DESCRIPTIVE 2.1 cas univarié 2.2 cas bivarié 1
STATISTIQUE DESCRIPTIVE Synthèse de l information contenue dans les données Tableaux Graphiques Résumés numériques ü qualité des données recueillies ü repérer des valeurs suspectes ü aide au choix de méthodes plus sophistiquées 2
Cas univarié : Graphiques Quelques graphiques. Diagramme en bâtons Diagramme en camembert Histogramme Box plot
4 VARIABLE CONTINUE Poids de porcelets à la naissance (kg) 1.29 1.49 1.07 1.27 1.30 1.23 1.05 1.23 1.08 1.07 0.94 0.99 1.35 1.50 0.83 1.16 0.69 0.97 0.88 0.93 1.40 1.63 1.94 1.44 1.43 1.61 2.18 1.76 2.05 2.15 1.70 1.72 1.83 2.28 1.41 1.17 1.05 1.04 0.89 1.44 1.13 1.22 1.93 0.84 1.93 1.29 1.54 1.59 1.39 0.19 1.57 1.30 1.35 1.89 1.26 1.18 0.29 0.16 0.28 0.56 1.48 1.38 1.12 0.87 1.45 1.42 1.65 1.57 0.75 1.36 0.94 1.63 1.60 0.72 1.16 1.58 1.03 1.19 0.63 0.81 1.32 1.29 1.49 1.07 1.27 1.30 1.23 1.05 1.29 1.49 1.07 1.27 1.30 1.23 1.05 1.23 1.08 1.07 0.94 0.99 1.35 1.50 0.83 1.16 0.69 0.97 0.88 0.93 1.40 1.63 1.94 1.44 1.43 1.61 2.18 1.76 2.05 2.15 1.70 1.72 1.83.. 2.06..1.58. 1.48 1.38 1.12 0.87 1.45 1.42
VARIABLE CONTINUE Découpage en classes, calcul de l effectif et fréquence Borne inférieure Borne supérieure Centre effectif Fréquence Fréquence cumulée 0.020 0.258 0.139 14 0.015 0.015 0.258 0.496 0.377 7 0.007 0.022 0.496 0.734 0.615 22 0.023 0.046 0.734 0.972 0.853 66 0.070 0.115 0.972 1.210 1.091 123 0.130 0.246 1.210 1.448 1.329 216 0.229 0.475 1.448 1.686 1.567 245 0.260 0.734 1.686 1.924 1.805 158 0.167 0.901 1.924 2.162 2.043 76 0.081 0.982 2.162 2.400 2.281 17 0.018 1.000 5
VARIABLE CONTINUE Histogramme 300 250 200 150 100 50 0 0 1 1 2 2 6
Cas univarié : QUELQUES HISTOGRAMMES
VARIABLE QUANTITATIVE DICRETE Nombre de fœtus vivants nombre de fœtus 5 6 7 8 9 10 11 12 13 14 15 16 17 18 22 effectif 1 2 3 6 6 4 3 10 7 10 6 8 4 4 1 8
VARIABLE DISCRETE Nombre de foetus vivants 10 8 effectif 6 4 2 0 5 6 7 8 9 10 11 12 13 14 15 16 17 18 22 nombre de porcelets nombre de fœtus 5 6 7 8 9 10 11 12 13 14 15 16 17 18 22 effectif 1 2 3 6 6 4 3 10 7 10 6 8 4 4 1 9
Variable qualitative variable sexe Total 0 422 1 489 Total 911 sexe ratio des foetus Mâle 53.67 % Femelle 46.33 % 10
Quelques graphiques production vs. température 40 35 30 production(l/j/q) 25 20 15 10 5 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 température ( C)
QUELQUES GRAPHIQUES Ce qu il ne faut pas faire..
Un graphique suggestif!!
Un graphique suggestif!! 14
Un graphique suggestif!!
Cas univarié : Échelle Echelle logarithmique : adaptée pour une gamme étendue de valeurs Espace les petites valeurs et rapproche les grandes valeurs 16
FAIRE UN BON GRAPHIQUE Faire un graphique sans déformer le message ou l information contenue dans les données Faire des graphiques qui soit facile à lire Tracer les points avec l échelle adaptée au problème étudié et qui soit la moins suggestive possible
Cas univarié : INDICES DE POSITION Moyenne arithmétique : x n å i= = 1 n x i ü aucun inconvénient, beaucoup d avantages Moyenne géométrique : x 1 n G = ( x1... x n ) ü le calcul du pourcentage moyen ü le calcul d un PH 1 log x G = (log( x1 ) +... + log( xn )) n ü observations en progression géométrique 18
Cas univarié : INDICES DE POSITION Les 3 quartiles : q1 : 50% des valeurs sont inférieures à q1 q2 : 25% des valeurs sont inférieures à q2 q3 : 75% des valeurs sont inférieures à q3 Dans l exemple du cortisol q1=6.87 q2=13.38 q3=22.30 q1 q2 q3 0 10 20 30 40 concentration (ng/ml) 19
Cas univarié : INDICES DE POSITION `x 20
En quoi la dispersion est importante!!!! poids poids groupe 1 groupe 2 groupe 1 groupe 2
Cas univarié : INDICES DE DISPERSION n Variance : ( ) 2 2 1 s = x i - x n - 1 å i= 1 Ecart-type : sd= 2 s Standard deviation Ces deux indices mesurent la dispersion des valeurs autour de leur moyenne l écart-type est exprimé avec la même échelle que les observations
Cas univarié : INDICES DE DISPERSION coefficient de variation Danseuses : 50.6kg ± 5.2 Sumos : 200.9kg ± 10.8 Y a-t-il une variabilité plus grande chez les sumos?
Cas univarié : INDICES DE DISPERSION Coefficient de variation expression de l écart-type en pourcentage de la moyenne CV = sd x (%) Danseuses : 10.3% Sumos : 5.4%
Cas bivarié : introduction ETUDE DESCRIPTIVE SIMULTANEE DE PLUSIEURS VARIABLES QUI PEUVENT DEPENDRE LES UNES DES AUTRES 25
26 On observe deux caractères sur un même individu X x x x n = é ë ê ê ê ê ê ê ù û ú ú ú ú ú ú 1 2.. Y y y y n = é ë ê ê ê ê ê ê ù û ú ú ú ú ú ú 1 2.. (x i,y i ) est le couple d observations mesurées sur l individu i On suppose que les caractères mesurés sont des variables continues Cas bivarié : Corrélation
EXEMPLE X : taille (cm) Y : poids (kg) n =10 X Y 174.0 70.4 172.1 57.5 159.8 50.0 173.9 69.9 162.9 62.1 174.1 67.3 178.7 78.0 161.6 57.5 180.2 76.9 170.7 63.3 27
EXEMPLE 95.00 90.00 85.00 poids(en kg) 80.00 75.00 70.00 65.00 60.00 55.00 50.00 45.00 155.00 165.00 175.00 185.00 195.00 taille(en cm) 28
Cas bivarié : Corrélation On dit qu il y a corrélation entre deux variables X et Y si il y a dépendance en moyenne à X=x fixé la moyenne des y i est fonction de x 29
Cas bivarié : Corrélation Absence de corrélation y y x x 30
Cas bivarié : Corrélation Corrélation linéaire Corrélation non linéaire y y x x 31
Cas bivarié : Corrélation Le coefficient de corrélation linéaire mesure exclusivement le caractère linéaire du nuage de points. On dit que les deux variables sont corrélées Comment quantifier ce lien linéaire entre deux variables? 32
33 ( )( ) ( ) ( ) 2 1 2 1 1 å å å = = = - - - - = n i i n i i n i i i y y x x y y x x r å( )( ) = - - n i i i y y x x n 1 1 covariance empirique Cas bivarié : Corrélation
Cas bivarié : Corrélation - 1 r 1 si X et Y sont indépendants alors : r = 0 si il existe une corrélation linéaire alors : r» 1 34
Cas bivarié : Corrélation A B B C D A A : 0.882 ; B :- 0.889 A/B : -0.778 A : - 0.713 ; B : - 0.856 C : -0956 ; D : -0.912; A/B/C/D : 0.558 35
Cas bivarié : Corrélation y=.. x.................... r =0.981 r =0.001
Cas bivarié : Corrélation La corrélation n implique pas nécessairement une causalité 37