École de bibliothéconomie et des sciences de l information SCI6060 Méth. de recherche sc. de l'information Statistiques descriptives (partie 2 de 2) Faculté des arts et des sciences 17 mars 2017 Christine Dufour, 2017 1/ 21
SCI6060 2/ 21 Cours 10 Objectifs visés et activités associées Mise en application OG4 Appliquer les méthode de base en sciences de l'information pour analyser des données OS b) Appliquer les méthodes statistiques de base pour analyser des données quantitatives Activités TP3 Devoir 4
SCI6060 3/ 21 Caractérisation d'une distribution [1/2] Distribution Comment les données sont réparties Moyen pour la visualiser? Histogramme!
SCI6060 4/ 21 Caractérisation d'une distribution [2/2] Point de comparaison pour décrire une distribution Distribution normale
SCI6060 5/ 21 Caractérisation d'une distribution Distribution normale COURBE NORMALE Moyenne/Médiane/Mode = 0 Écart-type = 1 68% de l'échantillon entre + ou - 1 écart-type -1 écart-type +1 écart-type -4-3 -2-1 0 Moyenne 1 2 3 4 Médiane Mode
SCI6060 6/ 21 Caractérisation d'une distribution Symétrie Dans Excel =coefficient.asymetrie(plage) Courbe symétrique mode = médiane = moyenne Courbe asymétrique (étalée) à droite, (asymétrie positive) mode < médiane < moyenne Courbe asymétrique (étalée) à gauche, (asymétrie négative) mode > médiane > moyenne
SCI6060 7/ 21 Caractérisation d'une distribution Aplatissement Dans Excel =kurtosis(plage) Courbe régulière Kurtosis nul Aplatissement faible Kurtosis positif Aplatissement élevé Kurtosis négatif
SCI6060 8/ 21 Illustration des mesures de tendance centrale et de dispersion
SCI6060 9/ 21 Tendance centrale et dispersion : deux dimensions pour caractériser des données
Médiane = 25 Équité Mode = 20 Popularité SCI6060 10 / 21 Soit 16 personnes ayant dans leur portefeuille 10$, 20$, $, 40$ ou 50$ : 3 personnes ont 10$, 5 en ont 20$, 10 20 40 50 Différents indicateurs de centralité Moyenne = 26,4 Équilibre
SCI6060 11 / 21 Seule une distribution symétrique aura la même valeur pour sa médiane, son mode et sa moyenne. La distribution symétrique est parfaitement équilibrée! Médiane = Mode = Moyenne 10 20 40 50 Différents indicateurs de centralité
Tendances centrales : Impact des valeurs aux extrémités Médiane = Équité (10) Mode = le plus fréquent (5) 1 1 5 5 5 10 10 25 32 40 0 20 40 60 Moyenne = point d'équilibre (18,67) 40 50 1 Mode = le plus fréquent (5) Médiane = Équité (10) 1 5 5 5 10 10 40 40 50 0 20 Moyenne = point d'équilibre 40 60 (23,08) 50 60
SCI6060 15 / 21 Impact de l'asymétrie sur la moyenne et la médiane
SCI6060 16 / 21 Choix des mesures de tendance centrale
Mesures de dispersion 0 Moyenne = Médiane = Étendue = 60 Mode = aucun Écart-type = 19,5 Moyenne Écart-type 5 10 15 20 25 35 40 45 50 0 20 40 60 Moyenne 55 60 Moyenne = Médiane = Étendue = 60 Mode = Écart-type = 12,2 Écart-type 0 0 20 40 60 60
Cas 1 Moyenne - 1 écart-type Moyenne Moyenne + 1 écart-type Illustration du lien entre la dispersion des données et l écart-type Exemples de distribution des notes pour 2 examens différents dans un cours Cas 2 Moyenne - 1 écart-type Moyenne Moyenne + 1 écart-type Cas 1 (examen fictif) : Moyenne = 82 Nbre étudiants = 79 Presque tous les étudiants entre 80 et 85 Écart-type = 3,26991 Coefficient de variation = 3,99% Cas 2 (final) : Moyenne = 82 Nbre étudiants = 79 Notes sont plus étendues entre 77 et 86 Écart-type = 4,7231 Coefficient de variation = 5,76%
SCI6060 19 / 21 Interprétation de l'écart-type [1/2] Soit les deux indicateurs suivants : A) Somme mensuelle dépensée pour les transports en commun ($) B) Longueur de la repousse des cheveux par mois (cm) 10 personnes vous fournissent leurs données pour ces deux indicateurs et vous calculez leur moyenne ainsi que leur écart-type Transports ($) Cheveux (cm) Moyenne 100 1,13 Écart-type 6,67 0,49 Selon vous, pour lequel de ces indicateurs vos répondants diffèrentils le plus (i.e. que les données sont les plus dispersées)?
SCI6060 20 / 21 Interprétation de l'écart-type [2/2] 0,5 1,0 1,5 2,0 Repousse des cheveux (cm) Rép. Transports ($) Cheveux (cm) 1 90 0,7 2 90 0,8 3 100 0,9 90 100 110 Transport en commun ($) L écart-type ne s interprète pas uniquement sur la grandeur de son chiffre, mais doit s interpréter par rapport à la moyenne et en fonction de son unité de mesure. Ici, il s avère que c est pour la repousse des cheveux que l écarttype est le plus grand! 4 100 1,1 5 100 2,0 6 100 0,9 7 100 1,3 8 100 0,7 9 110 2,0 10 110 0,9 Moyenne 100 1,13 Écart-type 6,67 0,49
SCI6060 21 / 21 Coefficient de variation (COV) Aide à interpréter l écart-type en le ramenant en % COV = écart-type / moyenne Rép. Transports ($) Cheveux (cm) 1 90 0,7 2 90 0,8 3 100 0,9 4 100 1,1 5 100 2,0 6 100 0,9 7 100 1,3 8 100 0,7 9 110 2,0 10 110 0,9 Moyenne 100 1,13 Écart-type 6,67 0,49 COV 6,67% 43,56% Plus le COV est grand, plus l écart-type représente une grande proportion de la moyenne, plus les données sont dispersées autour de la moyenne. Ici, le COV nous permet de facilement voir que c est l indicateur sur la repousse des cheveux qui a la plus grande dispersion des données. Si COV < 15%, les données sont considérées comme homogènes par rapport à l indicateur. Si COV > 15%, les données sont hétérogènes par rapport à l indicateur.