Statistiques Jocelyn Donze (donze@unistra.fr) May 5, 2014
Contenu du cours Semestre un. Statistiques univariées : on étudie un seul caractère chez une population. Semestre deux. Statistiques bivariées : on étudie les relations entre deux caractères. Probabilités. Avec quelle vraisemblance certains événements vont-ils se produire?
Plan Rappels Vocabulaire Statistiques descriptives univariées Statistiques descriptives bivariées Tableau de contingence Régression linéaire Dénombrements et probabilités
Rappels
Vocabulaire La statistique : ensemble des méthodes à partir desquelles sont recueillies, présentées, résumées et analysées des données. Les statistiques : résultats obtenus à partir de ces données. exemples : statistiques démographiques, statistiques sur les revenus, etc.
Vocabulaire (2) Population statistique : c'est l'ensemble de référence Exemples : le parc automobile français au 1er décembre 2011. les personnes au chômage en France. les visiteurs du marché de Noël de Strasbourg en 2011. Dénition. Individu (ou unités statistiques) : les individus sont les éléments de la population statistique étudiée.
Vocabulaire (3) Il est généralement impossible, voire inutile, d'eectuer le recueil de données sur l'ensemble de la population. C'est pourquoi on sélectionne une partie de la population - l'échantillon - sur qui va eectivement porter l'enquête. Dénition. Echantillon : sous ensemble de la population.
Vocabulaire (4) Deux méthodes pour constituer l'échantillon (échantilloner) : l'échantillonnage aléatoire simple. Dans ce cas, on tire au sort x% de la population. l'échantillonage par quota. C'est une méthode non aléatoire. On constitue un échantillon identique en terme de propriétés à la population mère (même répartition des âges, sexes, situations géographiques, catégories socio-professionnelles...). Dans tous les cas il faut toujours au moins une cinquantaine d'individus.
Vocabulaire (5) Dénition. Caractère ou variable statistique : c'est ce qui est observé ou mesuré sur les individus d'une population statistique. Exemples : Couleur des yeux (pour un groupe d'individus) Taille (idem). Revenus (idem). Opinion sur un sujet (idem). Durée de vie (pour des ampoules électriques). Taux de chômage (pour un groupe de pays). La statistique univariée étudie les caractères un à un, séparément. La statistique bivariée porte sur l'étude de la relation entre deux caractères.
Vocabulaire (5bis) Dénition. Les modalités d'une variable statistique font référence à l'ensemble des valeurs que peut prendre cette variable. Exemples Si la variable étudiée est la couleur des yeux, ses modalités sont {bleu, vert, marron}. Si la variable étudiées est la note du'un étudiant sur 20, ses modalités sont {0; 0.5; 1; 1.5; 2; 2.5; 3; 3.5; 4;...; 20}.
Vocabulaire (6) Dénition. Variable quantitative. Une variable statistique est quantitative si ses valeurs sont des nombres exprimant une quantité, que l'on peut sommer, multiplier, diviser, etc... Variable quantitative discrète: elle ne peut prendre que des valeurs isolées, généralement entières. Exemple : nombre d'enfants dans une famille : 0, 1, 2, 3, 4... Variable quantitative continue: ses valeurs appartiennent à un intervalle réel. Exemple : taille d'une personne, son revenu, etc.
Vocabulaire (7) Dénition. Variable qualitative : Une variable statistique est qualitative si ses valeurs, ou modalités, s'expriment de façon littérale ou par un codage sur lequel les opérations arithmétiques (somme, multiplication, etc) n'ont pas de sens. Variable qualitative nominale : ses modalités ne sont pas ordonnées. Exemple : couleur des yeux d'une personne. Variable qualitative ordinale : ses modalités sont naturellement ordonnées. Exemple : l'addiction au chocolat. Modalités : pas du tout, un peu, moyennement, beaucoup Exemple : intervalles de revenus. Modalités :[0, 500[, [500, 1000[, etc
Vocabulaire (8) Un ensemble E désigne une collection d'objets (les éléments de l'ensemble). Exemples : Ensemble des jours de la semaine : E = {lundi, mardi, mercredi, jeudi, vendredi, samedi, dimanche}. Ensemble de nombres : E = {1, 2, 3}. Ensemble de boules de billard : E = {R, B} avec R = boule rouge et B = boule bleue Ensemble des entiers naturels : E = N= {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,...} Ensemble des réels : E = R. Noter que l'ensemble{1, 2, 3} et l'ensemble {2, 1, 3}(ou {3, 1, 2}) sont identique (en d'autres termes, l'ordre de la liste n'importe pas dans un ensemble).
Vocabulaire (9) Dénition : soit n est un entier naturel. Un n-uplet est une collection ordonnée de n objets, appelés composantes du n-uplet. Exemple : (1, 2) est un 2-uplet. Attention, le 2-uplet (1, 2) est diérent du 2-uplet (2, 1).
Vocabulaire (10) Le symbole est le symbole somme : n x i = x 1 + x 2 +... + x n i=1 Exercice : calculer 10 i=3 x i 6 i=4 x i.
Rappels (suite)
Statistiques descriptives univariées Considérons une population sur laquelle on a observé une variable. On donne un exemple d'une variable qualitative nominale et de sa représentation. d'une variable qualititative ordinale et de sa représentation. d'une variable quantitative discrète. d'une variable quantitative continue.
Variables qualitatives nominales Exemple : on a observé la couleur des yeux dans les trois promos de TC. On a obtenu les résultats suivants. Modalités Eectifs Fréquences Pourcentages Bleu 60 0.20 20 Noir 160 0.534 53.4 Noisette 40 0.133 13.3 Vert 40 0.133 13.3 Total 300 1 100 Représentation?
Variables qualitatives nominales (2) Avec un diagramme en barres Remarque : on pourrait représenter les pourcentages. Avec un diagramme circulaire ou camembert.
Variables qualitatives ordinales 130 personnes ont été interrogées sur leur addiction au chocolat (êtes vous addict au chocolat?) On a obtenu les résultats suivants. Modalités Eectifs Pas du tout (A) 10 Un peu (B) 25 Moyennement (C) 40 Beaucoup (D) 32 Enormément (E) 23 Ordinal : il y a un ordre. Comment les représenter?
Variables qualitatives ordinales (2) Réponse : avec un diagramme en barre Remarque : on pourrait représenter les pourcentages. On pourrait aussi faire un diagramme circulaire avec les pourcentages.
Variables quantitatives discrètes On interroge 360 ménages sur le nombre de produits nanciers qu'ils possèdent. Produits nanciers: compte courant, livret A, assurance vie, actions, etc... On obtient le résultat suivant : Nombre de produits nanciers Eectif Fréquence Pourcentage 0 103 0.286 28.6 1 115 0.319 31.9 2 95 0.264 26.4 3 35 0.097 9.7 4 10 0.028 2.8 5 2 0.006 0.6 Comment représenter ces données?
Variables quantitatives discrètes (2) Avec un diagramme en bâtons. Ici l'épaisseur des traits n'a pas d'importance, contrairement à un histogramme. On pourrait aussi faire un diagramme circulaire avec les pourcentages.
Variables quantitatives continues (1) On a mesuré le poids (en kg) de quinze personnes. On a constitué quatre classes. Poids en kilos [0,50[ [50,60[ [60,70[ [70,90[ Nombre de personnes 5 2 4 4 Quel est le graphique qui représente le mieux les données?
Variables quantitatives continues (2) L'histogramme 1 est inadapté car il laisse entendre que la majorité des gens pèsent moins de 50 kg! L'histogramme 2 est équitable car on a pondéré la hauteur de chaque bâton en tenant compte de l'amplitude de la classe. Pour construire ce deuxième histogramme, on réalise le tableau ci-dessous. Classe [0,50[ [50,60[ [60,70[ [70,90[ Eectif 5 2 4 4 Amplitude (carreaux) 5 1 1 2 Eectif/Amplitude 1 2 4 2 Remarque : l'amplitude de la plus petite classe (ici c'est 60-50 = 10) est prise égale à 1.
Variables quantitatives continues (3) Dans l'histogramme 1, c'est la hauteur des bâtons qui permet de lire l'eectif. Dans l'histogramme 2, c'est l'aire des bâtons qui permet de lire l'eectif. Dans l'histogramme 2, nous n'avons pas tracé l'axe des ordonnées. Par contre, pour permettre la lecture du graphique, nous avons indiqué en légende la signication de l'unité d'aire. Dans les exercices, quand les classes ont toutes la même amplitude, on fait un histogramme de type 1, quand les classes ont des amplitudes diérentes, on fait un histogramme de type 2.
Variables quantitatives et qualitatives
Remarques sur les graphiques Pour tracer des graphiques il est conseillé de respecter la règle de 2/3 : la hauteur de l'axe des ordonnées doit être approximativement égale à 2/3 de celle de l'axe des abscisses. Eviter les graphiques en 3D : pas sérieux!
Indicateurs de position et de dispersion Les indicateurs de position proposent une valeur "centrale" de la série. A gauche du schéma ci-dessous. Les indicateurs de dispersion indiquent si la série est très regroupée autour de son "centre" ou non. A droite du schéma. Indicateurs classiques de position : moyenne, médiane et mode. (cf TD1). Indicateur classique de dispersion, l'écart type 1 σ x = n n (x i=1 i x) 2
Indicateurs de position et de dispersion (2) Prenons un exemple très simple avec quatre notes d'un examen noté sur vingt : 1, 10, 11, 14 La moyenne est égale à (1 + 10 + 11 + 14) / 4 = 36 / 4 = 9. La médiane est égale à (10 + 11) / 2 = 10,5. Notons que la médiane est moins sensible à la valeur extrême, 1, que la moyenne. Une façon de mesurer l'écart moyen serait de calculer la moyenne des écarts des données à leur moyenne (9). Ecart (en valeur absolu) entre 1 et 9 = 8 Ecart (en valeur absolu) entre 10 et 9 = 1 Ecart (en valeur absolu) entre 11 et 9 = 2 Ecart (en valeur absolu) entre 14 et 9 = 5 Moyenne des écarts = (8 + 1 + 2 + 5) / 4 = 4. Problème : la valeur absolue est compliquée à utiliser dans certains calculs.
Indicateurs de position et de dispersion (3) Pour calculer l'écart type, on procède légèrement diéremment, mais la logique est la même. On calcule les carrés des écart Ecart² entre 1 et 9 = 8² = 64 Ecart² entre 10 et 9 = 1² = 1 Ecart² entre 11 et 9 = 2² = 4 Ecart² entre 14 et 9 = 5² = 25 On calcule la moyenne des écarts² = (64 + 1 + 4 + 25) / 4 = 23.5 Puis on prend la racine carrée : 23.5 = 4.85
Exercice (à faire) On a observé les ventes moyennes mensuelles de 12 vendeurs en k. On a 5 ; 15 ; 2 ; 9 ; 4 ; 12 ; 7 ; 8 ; 6 ; 3 ; 11 ; 8. Calculer la moyenne, la médiane. Calculer l'écart type. Représenter les données.