Statistiques Licence de Psychologie

Documents pareils
Statistiques Descriptives à une dimension

Statistique : Résumé de cours et méthodes

Annexe commune aux séries ES, L et S : boîtes et quantiles

1. Vocabulaire : Introduction au tableau élémentaire

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Introduction à la statistique descriptive

Représentation d une distribution

Statistique Descriptive Élémentaire

Statistiques 0,14 0,11

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

SERIE 1 Statistique descriptive - Graphiques

Séries Statistiques Simples

LES DIFFERENTS TYPES DE MESURE

TSTI 2D CH X : Exemples de lois à densité 1

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Classe de première L

Observatoire Economique et Statistique d Afrique Subsaharienne

Logiciel XLSTAT version rue Damrémont PARIS

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Relation entre deux variables : estimation de la corrélation linéaire

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

Cours d algorithmique pour la classe de 2nde

Leçon N 4 : Statistiques à deux variables

Résolution d équations non linéaires

La classification automatique de données quantitatives

Introduction aux Statistiques et à l utilisation du logiciel R

MATHÉMATIQUES. Mat-4104

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Les devoirs en Première STMG

STATISTIQUES DESCRIPTIVES

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

23. Interprétation clinique des mesures de l effet traitement

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

3. Caractéristiques et fonctions d une v.a.

Probabilités conditionnelles Loi binomiale

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Statistiques à une variable

Statistiques avec la graph 35+

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Chapitre 2 Le problème de l unicité des solutions

Cours de Probabilités et de Statistique

STATISTIQUES DESCRIPTIVES

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

TP 7 : oscillateur de torsion

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Chapitre 3. Les distributions à deux variables

Brock. Rapport supérieur

BACCALAURÉAT PROFESSIONNEL SUJET

L analyse de la gestion de la clientèle

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Lecture graphique. Table des matières

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Feuille d exercices 2 : Espaces probabilisés

Petit lexique de calcul à l usage des élèves de sixième et de cinquième par M. PARCABE, professeur au collège Alain FOURNIER de BORDEAUX, mars 2007

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Cours 9 : Plans à plusieurs facteurs

Qu est-ce qu une probabilité?

Élément 424b Introduction à la statistique descriptive

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Exercices sur le chapitre «Probabilités»

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

6. Les différents types de démonstrations

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Précision d un résultat et calculs d incertitudes

2 Moodle Guide 2c : banque de questions et activité Test. Version du service

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Le calcul du barème d impôt à Genève

DOCM Solutions officielles = n 2 10.

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

CCP PSI Mathématiques 1 : un corrigé

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

- Ressources pour les classes

PROGRAMME INTERNATIONAL POUR LE SUIVI DES ACQUIS DES ÉLÈVES QUESTIONS ET RÉPONSES DE L ÉVALUATION PISA 2012 DE LA CULTURE FINANCIÈRE

Optimisation Discrète

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Logique. Plan du chapitre

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Fluctuation d une fréquence selon les échantillons - Probabilités

Résumé du Cours de Statistique Descriptive. Yves Tillé

Mesures et incertitudes

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

CONNAISSANCE DE SOI APPRENDRE A AVOIR CONFIANCE EN SOI

BACCALAURÉAT PROFESSIONNEL EPREUVE DE TRAVAUX PRATIQUES DE SCIENCES PHYSIQUES SUJET A.1

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

données en connaissance et en actions?

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Transcription:

Statistiques Licence de Psychologie

2

Chapitre 1 Variables Statistiques à une dimension 1.1 Vocabulaire 1.1.1 Introduction La statistique descriptive est un ensemble de méthodes qui permettent de récolter des données, de les synthétiser, de les représenter et de les résumer à l aide de certaines caractéristiques appelées paramètres statistiques. La statistique descriptive a pour objet alors de fournir, à l aide de représentations graphiques ou à l aide d un nombre limité de valeurs, une visualisation ou une description simple et aussi complète que possible d un phénomène. Ces données sont récoltées sur des populations entières ou (c est le cas le plus fréquent en psychologie) sur des échantillons choisis au hasard dans ces populations. La statistique mathématique, inductive ou inférentielle a pour but de nous aider à prendre des décisions concernant les propriétés d un caractère sur une population très grande en se basant sur des observations sur un échantillon tiré dans cette population. Le psychologue pose des hypothèses théoriques concernant un problème donné, par exemple l influence d un stimuli sur les temps de réaction de personnes souffrant d un handicap moteur. Il met en place un protocole dans lequel il tient compte de toutes les conditions expérimentales, il choisit ensuite un ou plusieurs groupes de sujets qu il soumet aux différentes conditions. Il récolte ensuite les données. Ensuite il doit valider ou invalider son hypothèse de départ à l aide de tests statistiques adéquat. C est dans cette dernière étape qu interviennent les statistiques inférentielles. Alors que la statistique descriptive est facile à appréhender la statistique inductive s appuie sur la théorie des probabilités, théorie abstraite sans rapport avec l univers essentiellement fini de l utilisateur. L utilisateur, souvent non mathématicien et encore moins probabiliste, doit alors trouver un compromis entre la théorie et l utilisation concrète. 1.1.2 Définitions Définition 1.1.1. Population. On désigne par le mot population tout ensemble étudié par la statistique ; on le note généralement P. On notera N le nombre d éléments de P, c est-à-dire l effectif total de la population. Les éléments de la population sont appelés individus. La population étudiée doit être bien définie, soit en dressant la liste explicite de tous les individus (ce qui est rare pour de très grandes populations) soit à l aide d une propriété qui permet de décider si un élément appartient ou n appartient pas à la population. 3

4 CHAPITRE 1. VARIABLES STATISTIQUES À UNE DIMENSION Exemples 1.1.2. La population des étudiants de L 1 de psychologie. Un individu est un(e) étudiant(e). L ensemble des pays du monde. Un individu est un pays. L ensemble des personnes ayant un handicap psycho-moteur. Remarque importante Souvent, les populations considérées par le chercheur en psychologie ou dans d autres domaine de recherche sont abstraites ou fictives. Par exemple, un chercheur en pharmacologie affirme qu une nouvelle molécule permettrait de guérir de la migraine. Cette affirmation à été confortée par des méthodes statistiques. La population des personnes qui guériraient de la migraine en absorbant ce médicament n est que fictive, au début de sa recherche. Définition 1.1.3. Échantillon. C est un sous ensemble d une population. Ces échantillons sont en principe choisis au hasard dans la population mère. Les observations seront faites sur l échantillon dans le but d extrapoler les résultats à toute la population. Il peut par exemple être aléatoire et/ou représentatif : Échantillon représentatif : un échantillon qui reflète fidèlement la stratification de la population et sa structure selon un critère donné est dit représentatif. Échantillon aléatoire : si chaque individu de la population a une probabilité non nulle et connue de faire partie de l échantillon, il est dit aléatoire. Ces probabilités d appartenance sont données en fonction d un critère ou règle de sondage. Elles dépendent de la façon dont est structurée la population. Notation l échantillon. On notera généralement par n la taille de l échantillon, c est à dire le nombre d individus de Exemples 1.1.4. Pour la population P désignant l ensemble des appareils photos vendus en France en 2015, on peut considérer comme échantillon les appareils photos vendus par la FNAC de Dijon en octobre 2015. Cet échantillon n est pas aléatoire, et a peu des raisons d être représentatif. Les étudiants du groupe 3 de statistiques en L1 de psycho à l ub peuvent être considérés comme un échantillon de la population Française. Il n est pas aléatoire et n est pas représentatif, notamment en terme termes d âge, et de sexe. Ce même groupe d étudiants peut être considéré comme un échantillon de la population des étudiants en L1 de psychologie à l ub, dont il est nettement plus représentatif. Définition 1.1.5. Soit P une population. Variable statistique : une variable statistique est une quantité ou une qualité définie sur P et qui est susceptible de varier d un individu à l autre. Les différentes valeurs ou aspects de la variable seront appelés modalités. Variable quantitative : lorsque les modalités d une variable statistique sont des quantités mesurables et comparables deux a deux. On les appelle aussi variable ordinale. elle sont de deux types : 1. Variable discrètes : les valeurs possibles de la variable sont isolées. 2. Variables continues : les modalités de la variable peuvent prendre toutes les valeurs comprises dans un intervalle donné, notamment un nombre infini de valeurs. De façon générale, toutes les grandeurs liées à l espace, au temps et à la masse sont par nature des variables quantitatives continues. Variable qualitative : Les modalités d une variable qualitative ne sont pas objectivement comparables. Ce sont souvent des noms ou des étiquettes qui permettent de répartir la population en plusieurs groupes sans aucune hiérarchie entre ces groupes. On les appelle aussi variables nominales. Notation Les variables statistiques sont généralement notées par une lettre majuscule, par exemple X ou Y.

1.1. VOCABULAIRE 5 Exemples 1.1.6. Sur la population P des familles françaises, on désigne par X le nombre d enfants par famille. C est une variable quantitative discrète. Sur la population des bébés de 6 mois, soit Y la variable taille. C est une variable quantitative continue. Les variables sexe et couleur des yeux sont des variables qualitatives. Remarques importantes On utilise souvent et notamment en sciences humaine les notions suivantes : Variables ordinales. Ce sont des variables qualitatives dont les modalités sont ordonnées selon certains critères. Un exemple serait l appréciation d un professeur sur un élève exprimée de la manière suivante : - très faible - faible - médiocre - moyen - assez bien - bien - très bien, ou alors l anxiété d un individu : - très peu anxieux - peu anxieux - anxieux - pas anxieux - pas anxieux du tout. On remarque alors une hiérarchie entre les modalités qui n est pas exprimée en terme de nombres réels. Souvent on associe aux modalités d une variable qualitative des numéros pour les coder, ces numéros sont de simples étiquettes pour distinguer les modalités et n ont aucun rôle hiérarchique entre les modalités. Par exemple attribuer à chaque groupe de TD un numéro de 1 à 10. Variable dépendante, variable indépendante En science humaines, on utilise aussi la terminologie de variable dépendante (VD) et de variable indépendante (VI). En général la variable indépendante a une influence sur la variable dépendante. Par exemple, pour le couple de variables Sexe et Taille, la variable Taille est dépendante parce que l on pense que le Sexe influence partiellement la taille d une personne à l âge adulte. On l appelle indépendante parce que sa valeur n est pas influencée par l autre variable. Par exemple pour le couple de variables Sexe et Taille, la variable Sexe est indépendante parce que le sexe ne change pas en fonction de la taille. Un autre exemple ; on considère un groupe de personnes souffrant de la migraine, un médecin a administré un seul type de calmants parmi cinq possibles à chacun de ces individus. On s intéresse alors au type de calmant administré à chaque individu (variable X) et à la durée nécessaire pour calmer la douleur (variable Y ). Dans cette exemple la VI est la variable X et la VD est la variable Y par ce qu on pense que le type de calmant a une influence sur la durée d attente. La variable Y est la variable réponse de chaque individu, elle n est pas manipulable par le médecin par contre la VI (type de calmant) est manipulable par l expérimentateur (ici le médecin) c est lui qui a décidé quel type de calmant attribué à chaque individu. Un troisième exemple. Supposons qu un enseignant veut contrôler l évolution du niveau des étudiants au cours d un semestre. Il décide alors de proposer des contrôles de connaissance au cours du semestre. On a là aussi deux variables : X désigne le moment du contrôle (début, milieu, fin) du semestre tandis la variable Y est la note note obtenu par l étudiant. La variable manipulable par l enseignant est la variable moment du contrôle (VI), et la variable réponse (VD) est la note obtenu par l étudiant à chaque contrôle. Dans les exemples précédents, la VI est qualitative, ce n est pas toujours le cas. Supposons qu on veuille savoir si le temps (X) hebdomadaires de travail individuel d un étudiant a une influence sur la note (Y ) obtenue à un examen. Dans cette exemple la VI et la VD sont des variables quantitatives continues. Enfin on considère sur la population des familles les deux variables classe socioprofessionnelle (CSP) du père (X) et la branche d étude supérieures choisi par l enfant aîné de la famille. Ce sont deux variables qualitatives, X est la variable indépendante et Y est la variable dépendante puisque pense que la (CSP) des parents ont une influence sur les orientations universitaires des enfants.

6 CHAPITRE 1. VARIABLES STATISTIQUES À UNE DIMENSION 1.2 Présentation des variables statistiques 1.2.1 Variables qualitatives À l issue du dépouillement d une étude, on choisit généralement de présenter les données en un tableau où apparaissent les différentes modalités (ou valeurs) du caractère ainsi que les effectifs de ces modalités. Modalités x 1 x 2... x i... x r effectifs n 1 n 2... n i... n r On a noté r est le nombre de modalités possibles de la variable x étudiée. n i représente le nombre d individus pour lesquels la variable x prend la modalité x i. La somme n 1 + n 2 + + n r = n est l effectif total c est à dire la taille de la population étudiée. Pour simplifier les notations, la définition n = n 1 + n 2 + + n r est généralement notée n = r i=1 n i. Exemple 1.2.1. Lors d une étude sur la mobilité géographique, on a demandé à 250 personnes si elles passaient leurs vacances à l étranger. Les effectifs obtenus sont les suivants : Vacances à l étranger jamais parfois souvent toujours Total Effectifs 22 92 118 18 250 Définition 1.2.2. Fréquences relatives. Soit X une variable statistique de modalité x 1,..., x r d effectifs n 1...,n r et n l effectif total. La fréquence relative de la modalité x i est par définition le rapport f i = n i n. Remarque La somme r i=1 f i = f 1 + f 2 + + f r est égale à un (ou 100%). L intérêt de la notion de fréquence (relative) est d être un élément de comparaison pour un même caractère sur deux populations différentes et surtout si elles n ont pas la même taille. Souvent il plus commode pour l interprétation d exprimer ces fréquences en pourcentage. Les représentations graphiques sont en général associées aux fréquences et rarement aux effectifs. Le principe étant que la surface affectée à une modalité est proportionnelle à sa fréquence. Les principales représentations graphiques pour des variables qualitatives sont les représentations dites en barres (ou tuyaux d orgue) ou en secteurs circulaires (ou camemberts). Dans la représentation en secteurs circulaires, l angle θ i de chaque secteur associé à une modalité est proportionnel à la fréquence de cette modalité : θ i = f i 360 Vacances à l étranger jamais parfois souvent toujours Total Effectifs 22 92 118 18 250 Féquences 0,088 0,368 0,472 0,072 1 Féquences (%) 8,8 36,8 47,2 7,2 100 La figure 1.1 représente ces données sous la forme d un diagramme en tuyaux d orgues et d un diagramme en secteurs circulaires. 1.2.2 Variables quantitatives Série statistique C est la liste complète des scores obtenus par l ensemble des individus (les données brutes). Dans ce cours, on manipulera ces données pour un petit groupe d individus. Par exemple voici les scores d estime de soi sur

1.2. PRÉSENTATION DES VARIABLES STATISTIQUES 7 0.5 Parfois fréquence 0.4 0.3 0.2 0.1 36.8% 8.8% Jamais 7.2% 47.2% Toujours 0 Jamais Parfois Souvent Toujours Souvent Figure 1.1 Tuyaux d orgue et secteurs circulaires une échelle de Coopersmith Self-Esteem Inventory (SEI) obtenu par un groupe de 10 étudiantes de psychologie 2 : x i 26 30 32 37 28 38 40 27 41 36 Regroupement par modalités Quand on travaille avec des grands échantillons, les données brutes recueillies ne parlent pas d elles mêmes. Il faut les organiser de manière lisibles sur un tableau des effectifs. Si la variable est de nature discrète et qu il y a suffisamment peu de modalités, il faut regrouper les effectifs des différentes valeurs comme pour le cas des variables qualitatives, mais en prenant garde à ranger les modalités par ordre croissant. S il y a trop de modalités (par exemple pour des variables continues), on les organise en classes. Les fréquences relatives des différente valeurs se calculent de la même façon que pour les variables qualitatives : f i = n i n. On peut dans le cas des variables quantitatives définir la notion de fréquences cumulées : Définition 1.2.3. La fréquence cumulée F i de la modalité x i est définie par : F i = f 1 + f 2 + + f i = n 1 + n 2 + + n i. n Comme pour les fréquences relatives, on les transforme en pourcentages pour rendre leur interprétation plus commode. Notation importante Dans la suite on désigne par P r [X < t] la fréquence totale des modalités x i telles que x i < t (c est à dire la proportion, au sein de notre échantillon, des observations qui satisfont X < t). On peut définir de même P r [X t] ou P r [X t], et on notera par exemple que pour i > j, F i F j = P r [x j < X x i ]. On notera aussi que sur chaque intervalle [x i,x i+1 [, la fonction P r [X x] vaut F i. Lorsque l on représente graphiquement les fréquence cumulées, on tracera en fait la fonction P r [X x] (voir figure 1.2b ci-après). Définition 1.2.4. La fonction qui à x associe P r [X x] s appelle la fonction de répartition de la variable statistique X.

8 CHAPITRE 1. VARIABLES STATISTIQUES À UNE DIMENSION Exemple 1.2.5. On a demandé à un groupe d adultes dont l âge varie entre 40 et 50 ans de donner une estimation qui exprime leur satisfaction de leur vie quotidienne sur une échelle en 9 points (1 : Extrêmement insatisfait, 9 extrêmement satisfait). Voici les résultats recueillis : 5 7 6 6 7 5 3 7 7 8 7 5 5 8 6 8 7 6 2 7 8 7 7 7 7 4 7 4 8 5 4 7 6 6 4 6 7 7 4 5 7 7 1 4 4 7 5 7 5 5 5 6 7 8 5 8 7 7 5 7 8 5 6 7 3 6 6 7 5 7 5 7 3 8 4 6 7 7 5 3 7 6 6 5 9 6 3 2 7 8 6 8 5 8 6 4 7 6 6 7 4 6 7 7 3 7 7 7 9 5 7 7 7 9 6 5 6 6 7 6 9 4 9 4 6 On a donc dans cette étude 125 individus. On doit alors synthétiser les valeur sur un tableau où on donne les valeurs de 1 à 9 et pour chacune son effectif. On peut donner une première forme de représentation sous forme de feuilles de la façon suivante : 1 22 333333 444444444444 55555555555555555555 6666666666666666666666666 777777777777777777777777777777777777777777 888888888888 99999 Cette représentation nous indique une première idée sur la forme de la distribution statistique des résultats. Toutefois, pour permettre de mieux visualiser cette distribution, on peut représenter le diagramme en bâton de ses fréquences ansi que ses effectifs cumulés représentés en figure 1.2. Valeurs x i 1 2 3 4 5 6 7 8 9 Effectifs : n i 1 2 6 12 20 25 42 12 5 Effectifs Cumulés 1 3 9 21 41 66 108 120 125 Fréquences : f i (%) 0,8 1,6 4,8 9,6 16,0 20,0 33,6 9,6 4,0 Fréquences cumulées F i (%) 0,8 2,4 7,2 16,8 32,8 52,8 86,4 96,0 100,0 Regroupement en classes Si le nombre de modalités est trop élevé, en particulier dans le cas des variables continues, les données brutes sont simplifiées en les groupant en intervalles (classes). Ces intervalle sont par convention semi-ouverts à droite. L amplitude d une classe est la longueur de l intervalle. Il n est pas nécessaire que toutes les classes aient les mêmes amplitudes : le plus souvent les classes situées aux extrêmes de la distribution sont plus larges alors que les autres classes ont toutes la même taille. Il est difficile d établir une règle qui permet de décider du nombre de classes et de leurs amplitudes éventuelles, exception faite de certaines variables dites régulières telles que les lois normales par exemple. Les classes sont notées [a 1 ; a 2 [, [a 2 ; a 3 [, etc. La ième classe est donc notée [a i ; a i+1 [. Il arrivera parfois aussi de la noter [x i,x i+1 [. L effectif de la ième classe est alors noté n i, et on note c i son centre, c est à dire c i = ai+ai+1 2. On définit alors les fréquences et les fréquences cumulées des classes

1.2. PRÉSENTATION DES VARIABLES STATISTIQUES 9 33,6% 100 30% 80 Fréquence 20% 10% 0% 20% 16% 9,6% 9,6% 4,8% 0,8% 1,6% 4% 1 2 3 4 5 6 7 8 9 Estime de soi 60 40 20 0 0 2 4 6 8 10 12 x (a) Diagramme en bâtons (b) Fréquences cumulées (fonction de répartition) Figure 1.2 Représentations graphiques des données de l exemple 1.2.5. Définition 1.2.6. La fréquence cumulée F i de la classe [a i ; a i+1 [ est définie par : F i = f 1 + f 2 + + f i = n 1 + n 2 + + n i. n Exemple 1.2.7. Le tableau suivant représente la distribution statistique (sur un échantillon de 180 enfants de 3 ans) de la variable statistique X qui associe, à chaque enfant, le nombre de mots constituant son langage de base. classes : [a i; a i+1[ 70 90 90 110 110 130 130 150 150 170 170 190 190 210 Σ effectifs : n i 3 8 19 58 55 22 15 180 fréquences : f i 0.01667 0.04444 0.1056 0.3222 0.3056 0.1222 0.08333 1 fréquences cumulées : F i 0.01667 0.06111 0.1667 0.4889 0.7945 0.9167 1.000 Remarque Le regroupement des données en classes se fait généralement pour des variables continues. On voit toutefois ici un exemple ou ce regroupement est fait pour une variable discrète. En effet, la variable nombre de mots n est pas continue, mais les modalités (les entiers de 70 à 210) sont très nombreuses, ce qui imposte un tel regroupement. Histogramme des fréquences Le graphique utilisé pour représenter une variable continue dont les données sont regroupées en classes est l histogramme des fréquences. Au dessus de chaque classe on dessine un rectangle qui illustre la fréquence de la classe qui est représentée par l aire du rectangle associé sur l histogramme et non la hauteur. La hauteur du rectangle est proportionnelle à la fréquence de la classe et inversement proportionnelle à l amplitude de celle-ci. D où la nécessité de préciser une échelle surtout quand les classe n ont pas toutes la même amplitude. On obtient donc la formule suivante h i = f i a i+1 a i A

10 CHAPITRE 1. VARIABLES STATISTIQUES À UNE DIMENSION h i est la hauteur du rectangle. f i est la fréquence de la classe [a i ; a i+1 [. La constante A de proportionnalité doit être choisie pour avoir un dessin présentable, ni trop aplati ni trop gros. On effectue des essais avant de décider de la valeur de la constante A. 1 Fréquence cumulée 0.8 0.6 0.4 0.2 0 70 90 110 130 150 170 190 210 Nombre de mots (a) Histogramme 70 90 110 130 150 170 190 210 Nombre de mots (b) Polygone des fréquences cumulées Figure 1.3 Histogramme des fréquences et polygone des fréquences cumulées pour les données de l exemple 1.2.7. Polygone des fréquences cumulées Le polygone des fréquences cumulées est une approximation de la fonction de répartition, continue et affine par morceaux. Plus précisément si on dispose de r classes [a 1,a 2 [... [a r,a r+1 [ et on désigne par F (a i+1 ) la fréquence cumulée de la classe [a i, a i+1 [ (on convient que F (a 1 ) = 0), alors on a (par interpolation linéaire, comme en annexe 1.5 page 14) : 0 si a a 1 F (ai+1) F (ai) F (a) = F (a i ) + a i+1 a i (a a i ) si a i a a i+1 1 si a a r+1 où F (a i ) = P r [X < a i ] Remarque 1.2.8. Si l on considérait les données brutes (les valeurs de X sur notre échantillon) sans les regrouper par classe, on aurait une fonction de répartition en escalier (comme en figure 1.2b, excepté que les sauts ne seraient pas en général pour des valeurs entières de X). Le polygone des fréquences cumulées est une approximation de cette fonction, où le fait de tracer des segments de droites signifie que l on suppose implicitement que les individus de chaque classe sont répartis uniformément à l intérieur de leur classe. Remarque 1.2.9. Comme on a P r [a X b] = P r [X b] P r [X < a], on considère aussi que F (b) F (a) est une bonne approximation de P r [a X b].

1.3. CARACTÉRISTIQUES D UNE DISTRIBUTION 11 Exemples : Pour les données de l exemple 1.2.7, on a F (150) =0.4889 = 48,89%, F (135) =F (130) + De même calculer F (138), F (176). F (150) F (130) (135 130) = 0,1667 + 0.32220 5 = 0.2472 = 24,72%. 150 130 20 1.3 Caractéristiques d une distribution 1.3.1 Médiane Idée de médiane La médiane est telle qu environ la moitié des valeurs soient plus petites que la médiane, et qu environ la moitié des valeurs soient plus grandes que la médiane. Plus précisément, la médiane est définie, pour une échantillon sur lequel on dispose des données brutes, par : Définition 1.3.1. La médiane des observations de la variable statistique X sur un échantillon de taille n est La n+1 ème 2 valeur (dans l ordre croissant), si n est impair. Le nombre a+b 2, où a est la n ème 2 valeur (dans l ordre croissant) et b est la n+2 ème 2 valeur, dans le cas où n est pair. Remarque 1.3.2. Si l on veut utiliser cette définition pour calculer la médianne de la satisfaction de soi des individus de l exemple 1.2.5, on range d abord les valeurs par ordre croissant (on a alors les valeurs 1, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4,... ), puis on choisit la 63ème (car n = 125). On obtient ainsi que la médiane vaut 6. Heureusement, il y a en fait une façon plus simple de déterminer cette médiane, sans avoir à compter jusqu à la 63ème valeur : Propriété 1.3.3. S il existe une modalité x i dont la fréquence cumulée vaut 0.5, alors la médianne est xi+xi+1 2. Sinon, il existe une modalité x i telle que F i > 0.5 et F i 1 < 0.5 ; dans ce cas la médiane est cette modalité x i. Cas de données regroupées en classes : on détermine une valeur approchée de la médiane en demandant que F (Méd) = 0.5. Proposition 1.3.4. Pour une variable continue, deux cas de figure peuvent se présenter : Si une des valeurs a i (qui délimite les classes [a i 1,a i [ et [a i,a i+1 [) satisfait F (a i ) = 0.5, on la considère comme médiane de notre distribution statistique 1. Sinon, il existe une classe [a i,a i+1 [ telle que F (a i ) < 0.5 et F (a i+1 ) > 0.5. On appelle cette classe la classe médianne, et l interpolation linéaire nous permet d obtenir une valeur approchée de la médiane : Méd a i + a i+1 a i F (a i+1 ) F (a i ) (0,5 F (a i)). Exemple 1.3.5. Reprenons l exemple 1.2.7 du nombre de mots. Comme F (150) = 48.89 < 50% et F (170) = 79.45 > 50%, la classe médiane est [150; 170[. L interpolation linéaire donne donc : 170 150 Méd = 150 + (50 48.89) 150.73 mots. 79.45 48.89 Remarque ; dans l expression ci dessus, on a exprimé F (a i+1 ) et F (a i ) en pourcentage. En conséquence 0,5 est remplacé par 50%. 1. Si jamais il y a plusieurs a i tels que F (x i ) = 0.5, on peut par exemple choisir leur milieu comme médiane.

12 CHAPITRE 1. VARIABLES STATISTIQUES À UNE DIMENSION 1.3.2 Quartiles La notion de quartile est très analogue à celle de médiane : le premier quartile est tel qu environ un quart des valeurs soient plus petites que le premier quartile (et trois quarts soient plus grandes), tandis que le troisième quartile est tel qu environ un trois quarts des valeurs soient plus petites que le troisième quartile (et un quart soient plus grandes). Toutefois la définition précise, dans le cas d un échantillon pour lequel on dispose des données brutes, diffère selon les auteurs. Nous prendrons ici la définition utilisée par les calculatrices les plus répandues : Définition 1.3.6. Si la taille n de l échantillon est paire, le premier quartile Q 1 de la variable statistique X est la médiane des n 2 plus petites valeurs prises par X, tandis que Q 3 est la médiane des n 2 plus grandes. Si la taille n de l échantillon est impaire, on considère les n 1 2 plus grandes (ou plus petites) valeurs, au lieu de n 2 valeurs. L intervalle [Q 1 ; Q 3 ] est appelé intervalle interquartile ; il représente la moitié médiane de la population. Pour les variables continue, on estime les quartiles en résolvant les équations F (Q 1 ) = 0,25 et F (Q 3 ) = 0,75. Exemple 1.3.7. Reprenons l exemple nombre de mots : Comme pour la médiane, on trouve des valeurs approchées de Q 1 et Q 3 en faisant des interpolations linéaires : comme F (130) = 16.67 25% et F (150) = 48.89 > 25%, le premier quartile se trouve entre 130 et 150 : Q 1 = 130 + 150 130 (25 16.67) 135.17 mots. 48.89 16.67 comme F (150) = 48.89 75% et F (170) = 79.45 > 75%, le troisième quartile se trouve entre 150 et 170 : 170 150 Q 3 = 150 + (75 48.89) 167.09 mots. 79.45 48.89 Exemple 1.3.8. Pour un groupe de 17 candidats choisis au hasard, les résultats à une épreuve sont donnés par : x i 7 21 24 14 12 22 17 18 16.5 18 22 21 21 16 15 15 17.5 On a xi 7 12 14 15 15 16 16,5 17 17,5 18 18 21 21 21 22 22 24 rangs 1 2 3 4,5 4,5 6 7 8 9 10,5 10,5 13 13 13 15,5 15,5 17 La médiane correspond au rang 17+1 2 = 9, c est donc M e = 17,5. Le premier quartile est la médiane des 8 premières valeurs, donc elle correspond au rang 8+1 2 = 4,5. Comme les valeurs de rang 4 et 5 sont toutes les deux 15, on a Q 1 = 15. Le troisième quartile est la médiane des 8 dernières valeurs, elle correspond au rang 9 + 8+1 2 = 13,5. Comme les valeurs de rang 13 et 14 sont toutes les deux 21, on a Q 3 = 21. Cette notion de quartile pour variable discrète n a pas beaucoup d intérêt en statistique en sciences humaines. 1.3.3 Moyenne Définition 1.3.9. La moyenne d une variable quantitative X, pour un échantillon de taille n, est donnée par : m(x) = 1 n x i si l on dispose de données brutes (typiquement si l échantillon est de petite taille) n i=1

1.3. CARACTÉRISTIQUES D UNE DISTRIBUTION 13 m(x) = 1 n m(x) = 1 n r n i x i si la variable a r modalités x 1, x 2,..., x r d effectifs respectifs n 1, n 2,..., n r. i=1 i=1 r n i c i si les données sont regroupées en classes de centres respectifs c 1, c 2,..., c r et d effectifs n 1, n 2,..., n r (c i = ai+ai+1 2 désigne ici le centre de la classe [a i ; a i+1 [). Variance et écart-type Définition 1.3.10. La variance d une variable X est la moyenne des carrés des écarts à la moyenne de X : ( Var(X) = m (X m (X)) 2). On peut aussi la calculer avec la formule : Var(X) = m ( X 2) (m(x)) 2. L écart type est la quantité s(x) = Var(X). Remarque 1.3.11. On calcule m(x 2 ) selon les expressions suivantes, analogues à la définition 1.3.9 : m(x 2 ) = 1 n x 2 i si on dispose des données brutes n m(x 2 ) = 1 n m(x 2 ) = 1 n i=1 r n i x 2 i si les données sont regroupées par modalités (avec des effectifs n i ). i=1 r n i c 2 i si les données sont regroupées en classes. i=1 Exemple 1.3.12. Cas d une variable discrète avec un petit échantillon Pour un groupe de 17 candidats choisis au hasard, les résultats à une épreuve sont donnés par : x i 7 21 24 14 12 22 17 18 16.5 18 22 21 21 16 15 15 17.5 On a x i 7 21 24 14 12 22 17 18 16,5 18 22 21 21 16 15 15 17,5 297 x 2 i 49 441 576 196 144 484 289 324 272,25 324 484 441 441 256 225 225 306,25 5477,5 m(x) = 297 17 = 17.4758; V ar(x) = 5477.5 17 17.4758 2 = 16,98443; s(x) = 4,121217. Exemple 1.3.13. Cas d une variable continue classes 70-90 90-110 110-130 130-150 150-170 170-190 190-210 Total effectifs n i 3 8 19 58 55 22 15 180 centres c i 80 100 120 140 160 180 200 980 n i c i 240 800 2280 8120 8800 3960 3000 27200 n i (c 2 i ) 19200 80000 273600 1136800 1408000 712800 600000 4230400 On obtient m(x) = 27200 180 151,111; V (x) = 4230400 180 151,111 2 667,654 s(x) 25,839

14 CHAPITRE 1. VARIABLES STATISTIQUES À UNE DIMENSION 1.4 Calculatrice On trouve dans le commerce de nombreuses calculatrices capables de calculer les moyenne, écart-type, médiane, quartiles, etc. Le Formulaire associé à ce cours décrit la façon de procéder pour des calculettes Casio et TI. Il est toutefois fortement recommandé de lire le manuel de sa calculette et se familiariser avec celle-ci. 1.5 Annexe : Interpolation linéaire On rappelle que l équation de la droite passant par deux points A et B et coordonnées respectives (x 1,y 1 ) et (x 2,y 2 ) : y = y 1 + y 2 y 1 x 2 x 1 (x x 1 ), ou de manière équivalente x = x 1 + x 2 x 1 y 2 y 1 (y y 1 ). Ces formules découlent d un théorème classique de géométrie : le théorème de Thalès (voir figure 1.4). y 2 y y 1 A x 2 x 1 B y 2 y y y 1 1 y y 1 y 2 y 1 = x x 1 x 2 x 1 x x 1 x 1 x x 2 Figure 1.4 Interpolation linéaire et théorème de Thalès Exemples 1.5.1. Une carafe avec 10 cl d eau pèse 500g. La même carafe pèse 900g lorsqu elle contient 50 cl d eau. Combien pèserait-elle avec 35 cl d eau? Combien d eau faut-il mettre pour qu elle pèse 700 g? Si on note x pour le volume d eau et y pour le poids, les données de l énoncé indiquent que x 1 = 10, x 2 = 50, y 1 = 500, et y 2 = 900. La première question correspond à trouver y pour x = 35 : On a y = y 1 + y2 y1 x 2 x 1 (x x 1 ) = 500 + 900 500 50 10 (35 10) = 750. La carafe pèserait donc 750g avec 35cl d eau. La seconde question correspond à trouver x pour y = 700 : On a x = x 1 + x2 x1 y 2 y 1 (y y 1 ) = 10 + 50 10 900 500 (700 500) = 30. Il faut donc mettre 30 cl d eau pour que la carafe pèse 700g.