Formules de statistiques descriptives 1. Mesures de tendance centrale a. Moyenne arithmétique b. Médiane = = = Au moins 50% des données sont inférieures ou égales à la médiane et au moins 50% des données sont supérieures ou égales à la médiane i. : Nombre pair de données : é= ( )+ ( ) Nombre impair de données : ii. : é= ( ) On repère la classe où se trouve la médiane [a M, b M [ puis on interpole en utilisant la formule suivante: é= + ( ) où n M est l'effectif de la classe contenant la médiane et f* est la somme des effectifs des classes qui précèdent celle où se trouve la médiane 1
c. Quartiles Au moins 25% des données sont inférieures ou égales à Q1 et au moins 75% des données sont supérieures ou égales à Q1 : Premier quartile : On repère la classe où se trouve le premier quartile Q 1, [a Q1, b Q1 [ puis on interpole en utilisant la formule suivante: = + où n Q1 est l'effectif de la classe contenant le premier quartile et f* est la somme des effectifs des classes qui précèdent celle où se trouve ce quartile. Dernier quartile : On repère la classe où se trouve le dernier quartile Q 3, [a Q3, b Q3 [ puis on interpole en utilisant la formule suivante: = + où n Q3 est l'effectif de la classe contenant le dernier quartile et f* est la somme des effectifs des classes qui précèdent celle où se trouve ce quartile. d. Mode et classe modale Donnée à laquelle est associée le maximum des effectifs (ou des fréquences). Si les classes sont égales, classe à laquelle est associée le maximum des effectifs (ou des fréquences). Sinon, classe qui "se détache" dans l'histogramme une fois qu'on a réajusté les hauteurs pour que les surfaces des rectangles soient proportionnelles aux effectifs (ou aux fréquences) 2
e. Boîte à moustaches (BoxPlot) Li = max { minimum, Q 1 1,5 (Q 3 - Q 1 ) } Ls = min { maximum, Q 3 + 1,5 (Q 3 - Q 1 ) } Toute donnée qui déborde de [Li, Ls] est considérée extravagante (atypique) 3
2. Mesures de dispersion a. Plage (Range) Plage = maximum - minimum b. Variance Définition = ( )² Formule de calcul = ( ) Définition = ( )² Formule de calcul = ( ) c. Écart-type (standard deviation) = d. Théorème de Tchebycheff La proportion des observations situées à l extérieur de l intervalle défini par ü ± k s est d au plus 1/k² ( k 1) Exemples : si k = 2, il y aura au plus 25% des données en dehors de ü ± 2 s (au moins 75% à l intérieur) si k = 3, il y aura au plus 11% des données en dehors de ü ± 3 s (au moins 89% à l intérieur) si k = 2,5, il y aura au plus 16% des données en dehors de ü ± 2,5 s (au moins 84% à l intérieur) Remarque : On ne doit pas déborder ni du minimum ni du maximum des observations! 4
3. Autres mesures a. Transformation linéaire Si =+ alors =+ et = b. Cote-Z de X = Remarque : si > on concluera que X est une donnée extravagante. Remarque : la cote Z est une transformation linéaire de X où a = -ü/s et b = 1/s Remarque : = et = (découle de la remarque précédente) c. Coefficient de variation = % Critères d homogénéité - pour ce cours: Un phénomène industriel sera considéré homogène si son CV est inférieur à 10% On considérera tout autre phénomène comme homogène si son CV est inférieur à 30% 5
d. Coefficient d'asymétrie (Skewness) = ( ) ( )( ) = ( ) ( )( ) Interprétation - pour ce cours: Si S K < 0 il y a une asymétrie négative (ou un biais à gauche) Si S K 0 il y a une asymétrie positive (ou un biais à droite) Si S K 0,5, l asymétrie est négligeable Si 0,5 < S K 2, l asymétrie est modérée Si S K > 2, l asymétrie est prononcée e. Coefficient d'aplatissement (Kurtosis) é = (+) ( ) ( ) ( )( )( ) ( )( ) = (+) ( ) ( ) ( )( )( ) ( )( ) Interprétation - pour ce cours: On ne peut interpréter ce coefficient que lorsque le biais est négligeable i.e. pour S K 0,5 Si K < 0 la courbe est aplatie (distribution platykurtique) Si K 0 la courbe est étirée (distribution leptokurtique) Si K 0,5 la courbe n est ni trop aplatie, ni trop étirée (distribution mésokurtique) Si 0,5 < K 2, l aplatissement est modéré Si K > 2, l aplatissement est prononcé 6