Cours # 2 Variables qualitatives et quantitatives discrètes Département de mathématiques Cégep de Saint-Jean-sur-Richelieu 11 août 2010
Table des matières 1 Variables qualitatives 2
Contexte Variables qualitatives Durant un sondage, on a demandé à 21 personnes leur sexe et leur degré de satisfaction face au gouvernement provincial 1 étant pas satisfait, 2 : peu satisfait, 3 : assez satisfait et 4 très satisfait. Voici les résultats :
No Sexe degré No Sexe degré No Sexe degré 1 M 3 8 F 1 15 F 2 2 M 1 9 M 4 16 F 3 3 F 2 10 M 2 17 F 3 4 M 3 11 F 4 18 F 1 5 F 3 12 F 4 19 M 2 6 F 2 13 F 3 20 F 4 7 M 4 14 F 2 21 F 1 La lecture de ce tableau n est pas très facile.
Tableau de fréquences et fréquences relatives pour la variable "Sexe" TABLE: Tableau de fréquences et de fréquences relatives du sexe des 21 répondants. Sexe Fréquences Fréquences relatives (%) M 7 33.3 F 14 66.7 Total 21 100
Tableau de fréquences et fréquences relatives pour la variable "Degré de satisfaction" TABLE: Tableau de fréquences et de fréquences relatives du degré de satisfaction des 21 répondants. Degré de satisfaction Fréquences Fréquences relatives (%) pas satisfait 4 19.0 peu satisfait 6 28.6 assez satisfait 6 28.6 très satisfait 5 23.8 Total 21 100
Représentations graphiques : diagramme à secteurs Répartition du sexe en pourcentage Répartition du degré de satisfaction en pourcentage (33.3%) (28.6%) F peu pas (19.0%) M assez très (28.6%) (66.7%) (23.8%)
Diagramme à bandes Répartition du degré de satisfaction en pourcentage Répartition du sexe en pourcentage Fréquence relative (%) 70 60 50 40 30 20 10 0 M F Sexe Les bandes ne sont pas collées!! Fréquence relative (%) 30 25 20 15 10 5 0 Pas Peu Assez Très Degré de satisfaction
Mesures de tendance centrale Les mesures de tendance centrale servent à caractériser une série statistique à l aide d une valeur ou d une modalité typique. Il existe trois mesures possibles : 1 Mode : modalité(s) ou valeur(s) de la variable qui correspond (correspondent) à la plus grande fréquence. On le note Mo. 2 Médiane : valeur de la variable telle que le nombre de donnés qui lui sont inférieurs ou égales est égal au nombre de données qui lui sont supérieurs ou égales. On la note Md. 3 Moyenne : valeur obtenue par la sommes de toutes les données et en divisant cette somme par le nombre de données. On la note x s il s agit d un échantillon ou µ s il s agit d une population.
Mesures de tendance centrale pour une variable qualitative Avec une variable qualitative nominale, on peut seulement utiliser le mode. Pourquoi? La médiane demande un ordre, ce qui n est pas le cas pour ce type de variable. La moyenne est une somme de valeurs prises par la variable. Ici, la variable possède des modalités et non des valeurs.
Exemple Variables qualitatives Dans l exemple, pour la variable "Sexe", sont mode est Mo = F. La variable "Degré de satisfaction" possède comme mode Mo = peu et Mo = assez. C est une variable bimodale.
Précision Variables qualitatives Même s il existe un ordre dans une variable qualitative ordinale, la médiane n est pas toujours bien définie. C est pourquoi on n en tiendra pas compte ici.
Présentation dans un tableau de fréquences. D une manière similaire à la présentation des variables qualitatives : TABLE: Répartition de 50 répondants selon le nombre de paquets de cigarettes fumés par semaine. Nombre de paquets de cigarettes fumés par Fréquence Fréquence relative (% ) semaine 0 19 38 1 2 4 2 4 8 3 5 10 4 6 12 5 8 16 6 3 6 7 2 4 8 1 2 Total 50 100
Présentation graphique : diagramme en bâtons Fréquence 18 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 Nombre de cigarettes fumés par
Mesures de tendance centrale : mode Ici, Mo = 0. Pour trouver la médiane, il faut ajouter une colonne au tableau.
Tableau de fréquence cumulée TABLE: Répartition de 50 répondants selon le nombre de paquets de cigarettes fumés par semaine. Nombre de paquets de cigarettes fumés par semaine Fréquence Fréquence relative (% ) Fréquence cumulée 0 19 38 19 1 2 4 21 2 4 8 25 3 5 10 30 4 6 12 36 5 8 16 44 6 3 6 47 7 2 4 49 8 1 2 50 Total 50 100
Mesures de tendance centrale : médiane Tout d abord, il faut trouver le rang de la donnée médiane. Celui-ci est donné par rang de Md = N + 1 2 Dans notre exemple, N = 50 d où le rang est 25.5 QUOI, un rang fractionnaire?? On prend la moyenne des valeurs du rang 25 et 26. Md = rang 25 + rang 26 2 = 2 + 3 2 = 2.5 paquets de cigarettes
Calcul de médiane avec N impair Exemple Soit les données 1, 2, 3, 4, 5 Alors, rang de Md = N + 1 2 = 3 D où, Md est la valeur à la position 3 qui est 3.
Mesures de tendance centrale : moyenne Deux notations pour la moyenne selon si les données représentent une population ou un échantillon. µ = 1 N N i=1 x i x = 1 n n i=1 x i Lorsque les données sont regroupées dans un tableau de fréquence avec K valeurs possibles, alors µ = 1 N K i=1 v i f i x = 1 n K i=1 v i f i, où v i est une valeur de la variable et f i la fréquence de celle-ci.
Exemple Variables qualitatives Dans l exemple sur les paquets de cigarettes, on a un échantillon x = 1 n K i=1 v i f i = 1 (0 19 + 1 2 + 2 4 +... + 8 1) 50 = 2.58
Mode, Médiane ou Moyenne? Exemple!!!
Mesures de dispersion L étendus : différence entre la plus grande valeur et la plus petite. On la note E. Variance : moyenne des carrés des écarts à la moyenne. Notée σ 2 ou s 2 selon s il s agit d une population ou d un échantillon. L écart type racine carrée positive de la variance. Coefficient de variation : rapport entre l écart type et la moyenne. Noté C.V. et exprimé en pourcentage.
Exemple Variables qualitatives TABLE: Répartition de 50 répondants selon le nombre de paquets de cigarettes fumés par semaine. Nombre de paquets de cigarettes fumés par Fréquence Fréquence relative (% ) semaine 0 19 38 1 2 4 2 4 8 3 5 10 4 6 12 5 8 16 6 3 6 7 2 4 8 1 2 Total 50 100
Mesures de dispersion : l étendue E = x max x min = 8 0 = 8
Mesures de dispersion : variance La formule de la variance dépend s il s agit d une population ou d un échantillon. Rappelons que la variance est la moyenne des carrés des écarts à la moyenne. σ 2 = 1 N N i=1 (x i µ) 2 s 2 = 1 n 1 n i=1 (x i x) 2 Lorsque les données sont dans un tableau de fréquence avec K valeurs possibles σ 2 = 1 N K i=1 f i (v i µ) 2 s 2 = 1 n 1 K i=1 f i (v i x) 2
Mesures de dispersion : variance Dans l exemple, σ 2 5.92paquets de cigarettes 2 et s 2 6.04paquets de cigarettes 2. On le fait avec la "pitonneuse".
Mesures de dispersion : l écart type L écart type que l on note σ ou s selon s il s agit d une population ou d un échantillon. σ = σ 2 s = s 2 Dans l exemple, σ 2.43 paquets de cigarettes et s 2.46 paquets de cigarettes.
Mesures de dispersion : coefficient de variation Le coefficient de variation est donné par CV = σ 100% CV = 100% µ s x
À quoi servent-les mesures de dispersion? Les mesures de dispersion servent à quantifier l étalement des données. Les mesures de tendance centrale nous informent sur le centre de la distribution tandis que les mesures de dispersions nous indiquent la manière dont elles sont distribuées.
Remarque 1 L étendue ne révèle pas grand chose sur la distribution. Elle est parfois aberrante. 2 La variance et l écart type sont plus parlant. Plus leur valeur est grande, plus la distribution est étendue et vice-versa. 3 Attention à l échelle de grandeur de la variable. Si σ = 1kg, ça n a pas la même signification si la variable est le poids d un éléphant ou d une souris. 4 Le CV ne possède pas d unité. Il est adimensionnel. Ce qui n entraîne pas les problèmes d échelle de grandeur. 5 Si CV < 15%, on dit que les données sont homogènes, i.e. qu elles se rassemblent autour de la moyenne. Si CV > 15%, les données sont hétérogènes.