Statistiques - Alternance HSE



Documents pareils
Statistiques Descriptives à une dimension

Statistique : Résumé de cours et méthodes

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Séries Statistiques Simples

Annexe commune aux séries ES, L et S : boîtes et quantiles

Chapitre 3. Les distributions à deux variables

Statistique Descriptive Élémentaire

Lecture graphique. Table des matières

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Logiciel XLSTAT version rue Damrémont PARIS

Relation entre deux variables : estimation de la corrélation linéaire

1. Vocabulaire : Introduction au tableau élémentaire

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Fonctions de deux variables. Mai 2011

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Fonctions de plusieurs variables

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Notion de fonction. Série 1 : Tableaux de données. Série 2 : Graphiques. Série 3 : Formules. Série 4 : Synthèse

Chapitre 1 : Évolution COURS

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

TSTI 2D CH X : Exemples de lois à densité 1

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Les fonction affines

Notion de fonction. Résolution graphique. Fonction affine.

BACCALAURÉAT PROFESSIONNEL SUJET

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Leçon N 4 : Statistiques à deux variables

Petit lexique de calcul à l usage des élèves de sixième et de cinquième par M. PARCABE, professeur au collège Alain FOURNIER de BORDEAUX, mars 2007

STATISTIQUES DESCRIPTIVES

Bien lire l énoncé 2 fois avant de continuer - Méthodes et/ou Explications Réponses. Antécédents d un nombre par une fonction

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Chapitre 0 Introduction à la cinématique

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

Aide-mémoire de statistique appliquée à la biologie

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Que faire lorsqu on considère plusieurs variables en même temps?

Introduction à la statistique descriptive

Chapitre 2 Le problème de l unicité des solutions

Nombre dérivé et tangente

Université Paris-Dauphine DUMI2E 1ère année, Applications

Représentation d une distribution

Les devoirs en Première STMG

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

DOCM Solutions officielles = n 2 10.

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Chp. 4. Minimisation d une fonction d une variable

La fonction exponentielle

Traitement des données avec Microsoft EXCEL 2010

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Le calcul du barème d impôt à Genève

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

SERIE 1 Statistique descriptive - Graphiques

315 et 495 sont dans la table de 5. 5 est un diviseur commun. Leur PGCD n est pas 1. Il ne sont pas premiers entre eux

Correction du baccalauréat STMG Polynésie 17 juin 2014

Programmes des classes préparatoires aux Grandes Ecoles

LE PROCESSUS ( la machine) la fonction f. ( On lit : «fonction f qui à x associe f (x)» )

Correction du bac blanc CFE Mercatique

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

CHAPITRE 2. Les variables

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

EXERCICES - ANALYSE GÉNÉRALE

3. Caractéristiques et fonctions d une v.a.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Résumé du Cours de Statistique Descriptive. Yves Tillé

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

TP 7 : oscillateur de torsion

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Baccalauréat ES Amérique du Nord 4 juin 2008

Cours d Analyse. Fonctions de plusieurs variables

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

3 Approximation de solutions d équations

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Du Premier au Second Degré

Brock. Rapport supérieur

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

MATHÉMATIQUES FINANCIÈRES

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Collecter des informations statistiques

C f tracée ci- contre est la représentation graphique d une

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

TSTT ACC OUTILS DE GESTION COMMERCIALE FICHE 1 : LES MARGES

Correction du Baccalauréat S Amérique du Nord mai 2007

- Ressources pour les classes

Cours Fonctions de deux variables

Corrigé du baccalauréat S Asie 21 juin 2010

Transcription:

Statistiques - Alternance HSE Anne Fredet, Jean-Marie Gourdon 8 janvier 2006 Table des matières 1 Statistique descriptive 2 1.1 Définitions............................. 2 1.2 Effectif, moyenne, médiane et mode............... 3 1.3 Fréquences............................. 8 1.4 Étendue et quartiles....................... 9 1.5 Écarts et variance......................... 11 1.6 Présentation des résultats.................... 13 1.7 Changement de variable..................... 16 1.8 Série double............................ 18 2 Solutions 21 3 Références 30 1

1 Statistique descriptive 1.1 Définitions Définition 1.1.1 À la base de toute étude statistique, il y a une population, formée d individus sur lesquels on observe des caractères. Pour fixer les idées, il est plus facile de penser en termes de population humaine. Les individus sont des personnes, et les caractères observés peuvent être morphologiques (taille, poids, couleur des yeux), physiologiques (groupe sanguin, numération globulaire, taux de cholestérol) ou psychologiques (réactions à des tests ou réponses à une enquête d opinion). Définition 1.1.2 L effectif d une population est le nombre d individus de cette population. Les caractères observés peuvent être de plusieurs types : Définition 1.1.3 Un caractère est dit qualitatif, quand les valeurs ne peuvent être ni ordonnées ni ajoutées (groupe sanguin, couleur des yeux, vote pour un candidat). ordinal, quand les valeurs peuvent être ordonnées mais pas ajoutées (opinions exprimées sur une échelle de valeurs) quantitatif, quand les valeurs sont numériques (mesures physiques, physiologiques, économiques). Les valeurs que peut prendre un caractère s appellent les modalités. La statistique intervient quand il est impossible ou inutile d observer un caractère sur l ensemble de la population. On l observe alors sur une souspopulation, de taille réduite, en espérant tirer de l observation des conclusions généralisables à toute la population. Définition 1.1.4 Si les données d un caractère quantitatif sont recueillies sur des individus, le résultat est un n-uplet de nombres, entiers ou décimaux, que l on appelle échantillon ou série statistique, de taille n. On réserve plutôt le terme d échantillon au résultat de expériences menées indépendamment les unes des autres, et dans des conditions identiques (lancers de dés, mesure du poids de nouveaux-nés,...). On appellera série statistique le résultat d expériences qui ne sont pas interchangeables. Le cas le 2

plus fréquent est celui où la population est constituée d instants successifs (relevés quotidiens de températures, chiffres mensuels du chômage,...). On parle alors de série chronologique. Définition 1.1.5 On distingue souvent les caractères discrets (ceux qui ne prennent que peu de modalités distinctes) des caractères continus (pour lesquels toutes les valeurs observées sont à priori différentes). La frontière entre continu et discret est beaucoup moins claire en pratique qu en théorie. Tout recueil de données se fait avec une certaine précision, et dans une certaine unité. Si une taille est mesurée avec une précision de l ordre du centimètre, tout chiffre correspondant à une quantité inférieure au centimètre ne contient aucune information et doit être éliminé. Cela signifie que la taille en centimètres est une valeur entière, donc un caractère discret. Différentes techniques statistiques (histogrammes,...) imposent de regrouper les données en classes, ce qui revient à les rendre discrètes, les nouvelles modalités étant les différentes classes. En statistiques, on est en général en présence d un grand nombre de valeurs. Or, si l intégralité de ces valeurs forme l information, il n est pas aisé de manipuler plusieurs centaines voir milliers de chiffres, ni d en tirer des conclusions. Il faut donc calculer quelques valeurs qui vont permettre d analyser les données. 1.2 Effectif, moyenne, médiane et mode Définition 1.2.1 L effectif d une valeur est le nombre de fois où cette valeur apparaît. L effectif cumulé croissant d une valeur est le nombre de fois où une valeur inférieure ou égale à cette valeur apparaît. L effectif cumulé décroissant d une valeur est le nombre de fois où une valeur supérieure ou égale à cette valeur apparaît. Définition 1.2.2 Le mode est la valeur du caractère statistique qui apparait le plus fréquemment. Définition 1.2.3 Soient n valeurs disctinctes ou non de la variable. Si cette variable prend p valeurs distinctes (p n) x 1,, x p d effectifs respectifs 3

n 1,, n p (avec n 1 + + n p = n) alors la moyenne (arithmétique) est donnée par x = 1 p n i x i. n Si la série est continue et si on travaille avec des classes, alors les valeurs x i considérées sont les centres des classes. Définition 1.2.4 La médiane est la valeur qui sépare les données en deux partie égales. C est-à-dire que 50% des valeurs sont inférieures à la médiane et 50% sont supérieures. Exercice 1.2.1 À un partiel, les notes suivantes ont été obtenues : étudiant A B C D E F G H I J K L M N O P Q R S note 11 8 12 12 4 13 5 10 15 12 6 9 17 9 4 8 11 12 7 Calculer l effectif de chaque note, les effectifs cumulés croissants et décroissants, puis la moyenne, la médiane et le mode de cette série. Exercice 1.2.2 Les 50 notes suivantes ont été attribuées par un jury. note 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 effectifs 1 2 2 3 2 3 2 3 4 3 2 3 4 4 3 1 2 1 2 2 1 Calculer les effectifs cumulés croissants et décroissants, puis la moyenne et la médiane de cette épreuve. Exercice 1.2.3 Un jury a attribué 50 notes. Elles sont regroupées dans ce tableau : Notes Effectifs [0; 5[ 10 [5; 8[ 8 [8; 12[ 12 [12; 15[ 11 [15; 20[ 9 Calculer la moyenne et médiane de cette série. 4

Exercice 1.2.4 La répartition des salaires d une entreprise est la suivante : Salaires en francs Répartition employés [4000; 6000[ 20 [6000; 8000[ 96 [8000; 10000[ 52 [10000; 12000[ 17 [18000; 20000[ 2 Calculer le salaire moyen puis le salaire médian de cette entreprise. Refaire ces calculs en négligeant les deux plus gros salaires. Exercice 1.2.5 On dispose d une table de survie relative à un groupe de 1000 personnes nées à la même date (date 0) et suivies à partir de leur naissance. On a le tableau suivant : Calculer époque (exprimées en années) Nombre de personnes du groupe encore vivante à cette époque 0 1000 10 930 20 900 30 850 40 780 50 680 60 560 70 380 80 150 90 20 100 0 1. La durée médiane d existence des 1000 personnes observées 2. La durée moyenne d existence (ou espérance de vie) des 1000 personnes en question 3. L espérance de vie (calculée à partir de l année 0) pour une personne ayant atteint l âge de 70 ans Remarque 1.2.1 La manière dont les valeurs sont regroupées influe sur la moyenne, la médiane et les quartiles. Par exemple, supposons que l on 5

considére les tailles en centimètres de 10 personnes et que l on ait les valeurs suivantes : 162; 173; 185; 170; 178; 175; 178; 180; 168; 183. La moyenne est donc 162 + 173 + 185 + 170 + 178 + 175 + 178 + 180 + 168 + 183 10 = 175, 2 cm Imaginons que l on souhaite regrouper ces valeurs par intervalles. Plusieurs choix se présentent : Quelle largeur d intervalle choisir? Les intervalles seront-ils ouverts à droite et fermés à gauche ou ouverts à gauche et fermé à droite? Considérons plusieurs possibilités et regardons la moyenne dans ces cas : 1. Si l intervalle a une largeur de 5cm et est ouvert à gauche et fermé à droite, on obtient le tableau suivant : La moyenne est donc intervalle effectif centre ]160; 165] 11162, 5 ]165; 170] 2 167, 5 ]170; 175] 2 172, 5 ]175; 180] 3 177, 5 ]180; 185] 2 182, 5 ]185; 190] 0 187, 5 162, 5 1 + 167, 5 2 + 172, 5 2 + 177, 5 3 + 182, 5 2 10 = 174 cm 2. Si l intervalle a une largeur de 5cm et est fermé à gauche et ouvert à droite, on obtient le tableau suivant : intervalle effectif centre [160; 165[ 1 162, 5 [165; 170[ 1 167, 5 [170; 175[ 2 172, 5 [175; 180[ 3 177, 5 [180; 185[ 2 182, 5 [185; 190[ 1 187, 5 6

La moyenne est donc 162, 5 1 + 167, 5 1 + 172, 5 2 + 177, 5 3 + 182, 5 2 + 187, 5 1 10 3. Si l intervalle a une largeur de 5cm et est ouvert à gauche et fermé à droite, on obtient le tableau suivant : = 176 cm La moyenne est donc intervalle effectif centre ]160; 170] 3 165 ]170; 180] 5 175 ]180; 190] 2 185 165 3 + 175 5 + 185 2 10 = 174 cm 4. Si l intervalle a une largeur de 5cm et est fermé à gauche et ouvert à droite, on obtient le tableau suivant : La moyenne est donc intervalle effectif centre [160; 170[ 2 165 [170; 180[ 5 175 [180; 190[ 3 185 165 2 + 175 5 + 185 3 10 = 176 cm On voit donc que ces choix changent la moyenne. De même, la médiane et les quartile sont modifiés. Il existe au moins deux autres moyennes : Définition 1.2.5 Soient a 1,, a n des nombres. La moyenne géométrique de cette série est le nombre (a 1 a 2 a n ) 1/n Exercice 1.2.6 Le prix de l essence a augmenté de 20 % l an dernier et de 10 % cette année. Quelle est la hausse moyenne de l essence? 7

Exercice 1.2.7 Une société a vu son bénéfice augmenter ces trois dernières années : de 10 % la première année, de 21 % la deuxième et de 2% la troisième. Quelle est son augmentation annuelle moyenne? Exercice 1.2.8 Si l inflation d un pays est de 5% la première année et de 15% la suivante, calculer l augmentation moyenne des prix. Définition 1.2.6 Soient a 1,, a n des nombres. La moyenne harmonique de cette série est le nombre n ( 1 a 1 + + 1 a n ) Exercice 1.2.9 Eric fait un aller - retour entre une ville A à une ville B à vélo. À l aller, sa vitesse moyenne est de 20 km/h et au retour, elle est de 26 km/h. Quelle est sa vitesse moyenne? Exercice 1.2.10 Dans une entreprise de fabrication 3 ouvriers produisent des pièces. L ouvrier A met 10 min par pièce, l ouvrier B met 15 min et l apprenti C met 20 min. Quel est le temps moyen de réalisation d une pièce? Exercice 1.2.11 Une petite usine abrite 2 machines. La première machine a produit 500 pièces à la vitesse de 100 pièces par heure. Une seconde machine a produit 300 pièces à la vitesse de 60 pièces par heure. Calculez la vitesse moyenne de production dans l usine. Exercice 1.2.12 Soient x 1 et x 2 deux réels distincts positifs 1. Exprimer les moyennes arithmétique m, géométrique G et harmonique H de ces deux variables 2. Montrer que H < G < m 3. Montrer que G est la moyenne géométrique de H et de m 4. Montrer que H est la moyenne harmonique de H x 1 et H x 2 1.3 Fréquences Pour comparer deux échantillons d effectifs différents, on se ramène à des valeurs comparables. On utilise pour cela la fréquence : 8

Définition 1.3.1 Soient n valeurs disctinctes ou non de la variable. Supposons que cette variable prenne p valeurs distinctes (p n) x 1,, x p d effectifs respectifs n 1,, n p (avec n 1 + + n p = n). On appelle fréquence de la valeur x i le rapport entre n i et n : f i = n i. La fréquence est généralement donné sous la forme d un pourcentage. On appelle fréquences cumulées croissantes les variables fc i fréquences cumulées décroissantes les variables fd i = p j=i f j. n = i j=1 f j et Exercice 1.3.1 À un partiel, les notes suivantes ont été obtenues : étudiant A B C D E F G H I J K L M N O P Q R S T note 11 8 12 12 4 13 5 10 15 12 6 9 17 9 4 8 11 12 7 10 Calculer la fréquence de chaque note. Donner également les fréquences cumulées croissantes et décroissantes. Exercice 1.3.2 La répartition des salaires d une entreprise est la suivante : Salaires en francs Répartition employés [4000; 6000[ 20 [6000; 8000[ 96 [8000; 10000[ 52 [10000; 12000[ 17 Calculer les fréquences cumulées croissantes et décroissantes de chaque tranche salariale. 1.4 Étendue et quartiles La moyenne, la médiane et le mode ne nous donnent pas d information sur la dispersion des valeurs. On utilise alors d autres caractéristiques : Définition 1.4.1 L étendue est la différence entre les valeurs observées les plus élevées et les plus faibles dans un ensemble de données. On ne tient pas compte de beaucoup de renseignements lorsqu on calcule l étendue, puisqu on n examine que les valeurs les plus élevées et les plus faibles. La valeur de l étendue d un ensemble de données est grandement influencée par la présence d une seule valeur inhabituellement élevée ou faible à l intérieur de l échantillon (une valeur aberrante). 9

On peut exprimer l étendue sous la forme d un intervalle comme 4 à 10, dans lequel 4 est la valeur la plus faible et 10, la valeur la plus élevée. On l exprime souvent sous la forme de la longueur d un intervalle. L étendue de 4 à 10, par exemple, est de 6. L étendue est un outil instructif qui sert de supplément à d autres mesures comme la médiane où les quartiles : Définition 1.4.2 La médiane divise les données en deux ensembles égaux. On a parfois besoin de plus d informations : Le quartile inférieur Q1 est la valeur pour laquelle 25 % des valeurs sont inférieures à Q1 et 75 % lui sont supérieures. Le quartile supérieur Q3 est la valeur pour laquelle 75 % des valeurs sont inférieures à Q3 et 25 % lui sont inférieures. Il convient de noter que la médiane prend la notation Q2, c est-à-dire le deuxième quartile. Exercice 1.4.1 Donner les quartiles correspondant à cette série : 6, 47, 49, 15, 43, 41, 7, 39, 43, 41, 36 L écart interquartile est une autre étendue utilisée comme mesure de la dispersion : Définition 1.4.3 La différence entre les quartiles supérieur et inférieur (Q3 - Q1) est appelé écart interquartile Cet écart indique la dispersion d un ensemble de données. L écart interquartile couvre 50 % d un ensemble de données et élimine l influence des valeurs aberrantes, parce qu on soustrait, en effet, le quartile le plus élevé et le quartile le plus faible. Exercice 1.4.2 Gabrielle a commencé à travailler dans une boutique d informatique il y a un an. Son superviseur lui a demandé de tenir un dossier du nombre d ordinateur(s) qu elle a vendu(s) chaque mois. L ensemble de données qui suit indique le nombre d ordinateur(s) qu elle a vendu(s) mensuellement au cours des 12 derniers mois : 34, 47, 1, 15, 57, 24, 20, 11, 19, 50, 28, 37. Utilisez les dossiers des ordinateurs vendus par Gabrielle pour trouver : 1. la médiane 2. l étendue 3. les quartiles supérieur et inférieur 4. l écart interquartile 10

1.5 Écarts et variance Soient n valeurs disctinctes ou non de la variable. Supposons que cette variable prenne p valeurs distinctes (p n) x 1,, x p d effectifs respectifs n 1,, n p (avec n 1 + + n p = n). Après avoir déterminé où se situent les valeurs du caractère statistique en cherchant des critères de position (médiane, quartiles,...), on peut chercher à déterminer la dispersion de ces valeurs. De manière plus générale, il est important de savoir si les valeurs sont groupées ou au contraire dispersées, ce qui indique si la population est uniforme ou pas vis-à-vis du critère testé. Par exemple, après avoir calculé la moyenne, on peut chercher à savoir de quelle façon les valeurs s éloignent de cette moyenne. On utilise alors de nouvelles variable : les écarts : écart moyen Le premier réflexe serait de calculer la moyenne de ces écarts. Mais les propriétés de la moyenne nous assurent que la moyenne des écarts est nulle. En effet, certains de ces écarts sont négatifs et d autres sont positifs, la somme des écarts positifs compensant exactement la somme des écarts négatifs. Il faut donc s abstraire du signe et calculer alors la moyenne de la valeur absolue des écarts. C est ce que l on appelle l écart moyen. 1 p n x i x dans le cas d une série discrète non triée écart moyen = p n i x i x n n i = p f i x i x dans le cas d une série discrète regroupée p n i m i x n n i dans le cas d une série continue où les m i sont les centres des classes L utilisation des valeurs absolues est souvent une impasse en mathématique. S il s agit de rendre positif les écarts, un autre outil est à notre disposition : la moyenne quadratique des écarts. C est ce qu on appelle l écart type, noté σ. 11

écart type 1 p n (x i x) 2 dans le cas d une série discrète non triée écart type = σ = p n i(x i x) 2 n n i = p f i(x i x) 2 dans le cas d une série discrète regroupée p n i(m i x) 2 n n i dans le cas d une série continue où les m i sont les centres des classes Proposition 1.5.1 Propriétés de l écart type : L écart type est toujours positif et est nul si la série statistique est constante. Sensibilité aux valeurs extrêmes : comme la moyenne, l écart type est sensible aux valeurs extrêmes ou aberrantes et il est parfois nécessaire d éliminer ces valeurs avant de faire le calcul de l écart type. Si m est la moyenne, σ l écart-type, alors environ 68 % des données se situent dans l intervalle ]m σ; m + σ[ environ 95 % des données se situent dans l intervalle ]m 2σ; m+2σ[ environ 99 % des données se situent dans l intervalle ]m 3σ; m+3σ[ L écart-type est aussi utile quand on compare la dispersion de deux ensembles de données séparés qui ont approximativement la même moyenne. La dispersion des mesures autour de la moyenne est plus étroite dans le cas d un ensemble de données dont l écart-type est plus petit. Habituellement, un tel ensemble renferme comparativement moins de valeurs élevées ou de valeurs faibles. Un élément sélectionné au hasard à partir d un ensemble de données dont l écart-type est faible peut se rapprocher davantage de la moyenne qu un élément d un ensemble de données dont l écart-type est plus élevé. La formule de l écart type peut se révéler compliquée. On a donc défini la variance. La variance V est le carré de l écart type. Définition 1.5.1 V = 1 n p n i(x i x) 2 12

Exercice 1.5.1 À un partiel, les notes suivantes ont été obtenues : étudiant A B C D E F G H I J K L M N O P Q R S note 11 8 12 12 4 13 5 10 15 12 6 9 17 9 4 8 11 12 7 Calculer la variance et l écart-type Exercice 1.5.2 On dispose d une table de survie relative à un groupe de 1000 personnes nées à la même date (date 0) et suivies à partir de leur naissance. On a le tableau suivant : époque (exprimées en années) Nombre de personnes du groupe encore vivante à cette époque 0 1000 10 930 20 900 30 850 40 780 50 680 60 560 70 380 80 150 90 20 100 0 Calculer la variance et l écart-type 1.6 Présentation des résultats Lorsque l on a observé une série statistique, il est souvent souhaitable de présenter les résultats sous forme graphique. Diagramme en batons Dans un diagramme en batons, les effectifs des différentes classes sont représentés par des rectangles dont les aires sont proportionnelles à chaque effectif. On peut représenter les effectifs de variables nominales aussi bien que numériques. Lorsque la variable est numérique continue, on groupe les observations par 13

classes contiguës. La représentation des observations par des rectangles de hauteurs proportionnelles à chaque effectif s appelle alors histogramme. Généralement on dessine les rectangles sans espace entre eux pour montrer la continuité de la variable (et la contiguïté des classes). On utilise souvent la valeur centrale comme valeur désignant la classe (axe horizontal). Si on considère les employés d une entreprise, on peut représenter leur salaire sous différentes formes. Soit le tableau suivant : Salaires en francs Répartition employés [4000; 6000[ 20 [6000; 8000[ 96 [8000; 10000[ 52 [10000; 12000[ 17 On peut lui associer les diagrammes suivants : 14

On remarque que si les intervalles sont de longueurs différentes, l effectif étant proprtionnel à l aire, le plus haut baton ne correspond pas forcément à l effectif le plus élevé. Polygones On peut se représenter les polygones de fréquence par des lignes brisées qui relient les sommets des rectangles dans un diagramme en baton. Si on reprend l exemple précédent, on obtient le diagramme suivant : La médiane d une série peut s obtenir par lecture graphique : la médiane d une série est l intersection des courbes représentatives des effectifs (ou fréquences) cumulés croissants et des effectifs (ou fréquences) cumulés décroissants. Diagramme en secteurs Dans un diagramme en secteurs (de façon familière, camembert ), les effectifs des différentes classes sont représentés par des secteurs d angle proportionnels aux effectifs. On s en sert généralement pour représenter les effectifs de variables nominales. 15

Si on considère la répartition des salaires suivantes : Salaires en francs Répartition employés fréquences en % [4000; 6000[ 20 10, 81% [6000; 8000[ 96 51, 89% [8000; 10000[ 52 28, 11% [10000; 12000[ 17 9, 19% Total 185 100% on peu avoir une représentation sous forme de camembert : Explications : La découpe s effectue proportionnellement à chacune des parts du total. Total de référence : 360 degrés correspondant à 185 employés. Ainsi les parts des effectifs seront calculées proportionnellement à 360 degrés. Exemple : je lis dans mon tableau que la tranche de salaire [4000 ; 6000[ représente 10,81 % du total Cette tranche de salaire représentera alors 10,81 % de 360 degrés : 10, 81 360/100 = 38, 92 degrés. La portion représentative de la tranche [4000 ; 6000[ aura donc un écartement de 38,92 degrés 1.7 Changement de variable Le changement de variable est important en analyse de données. Il est parfois imposé par la méthode, pour la clarté des données. Des exemples 16

classiques de changement de variables sont les changement d échelle : passer des degrés aux radians, des kilomètres aux miles, des années-lumière aux parsecs, des degrés centigrades aux degrés Farenheit, d une échelle linéaire à une échelle logarithmique,... Définition 1.7.1 Centrer une variable v consiste à en soustraire sa moyenne. Réduire une variable v consiste à la diviser par son écart-type. Une variable centrée-réduite satisfait aux deux propriétés suivantes : sa moyenne est nulle son écart type est égal à un Cela permet d obtenir : 1. des données indépendantes de l échelle choisie 2. des variables ayant même moyenne et même dispersion. Proposition 1.7.1 Influence du changement de variable sur l écart-type et la moyenne : Décalage de la moyenne par translation : la moyenne est translatée si on ajoute ou retranche une constante à la série statistique. Si y i = x i + C alors m y = m x + C. Stabilité de la moyenne par multiplication par une constante : si on multiplie une série par une constante positive, la moyenne est multipliée par la même constante. Si y i = Kx i alors m y = Km x. Invariance de l écart-type par translation : l écart type n est pas modifié si on ajoute ou retranche une constante à la série statistique. Si y i = x i + C alors σ y = σ x. Stabilité de l écart-type par multiplication par une constante : si on multiplie une série par une constante positive, l écart type est multiplié par la même constante. Si y i = Kx i alors σ y = Kσ x. Exercice 1.7.1 On mesure les acteurs d une troupe de théatre. On trouve que leur taille moyenne est m, avec un écart-type σ. 1. Que deviennent la taille et l écart-type si l on s aperçoit que les mesures ont été faites sur une estrade de 2cm? 2. Pour faire les costumes, la longueur de tissu nécessaire est le double de la taille d un comédien plus 10 cm. Quelles est la longueur moyenne de tissu nécessaire? Quelle est l écart-type? 17

1.8 Série double Définition 1.8.1 On considère une population d effectif n, si on étudie deux caractères X et Y de cette population, on dit que l on étudie une série statistique double. Chaque individu de cette population est désigné par un nombre compris entre 1 et n. A chaque individu i (1 i n) correspond un couple (x i ; y i ), où x i est la modalité du caractère X et y i est la modalité du caractère Y associé à l individu i. Ces deux caractère peuvent être qualitatifs, quantitatifs ou quantitatif et qualitatif. Définition 1.8.2 On appelle covariance d une série statistique double (X ; Y) où les caractère X et Y sont quantitatifs le nombre noté cov(x, Y) ou σ xy défini par : cov(x, Y ) = σ xy = 1 n On peut vérifier que n (x i x)(y i y) = 1 n n x i y i xy 1 n n (x i x)(y i y) = 1 n = 1 n = 1 n = 1 n n (x i y i x i y xy i + xy) n x i y i x 1 n y i y 1 n x i + 1 n n n n x i y i xy yx + 1 n n n xy n x i y i xy n xy On remarque que la formule est symétrique et que cov(x, Y ) = cov(y, X). On représente ces valeurs dans un graphique à deux dimensions, où x i est l abscisse et y i est l ordonnée du point M i associé à (x i, y i ). Exercice 1.8.1 On considère la série composer des variables suivantes : (10,40), (20,10), (30,18), (40,20), (50,57) et (60,14). Quelle est la covariance de cette série? 18

Droite de régression Dans certains cas, le nuage de points représentant une série statistique double (X, Y) est tel que ses points sont proche d une certaine droite D. Supposons que cette droite ait pour équation y = ax + b. À chaque point M i (x i ; y i ) de ce nuage de point, on peut faire correspondre un point P i de la droite D ayant la même abscisse que M i, pour avoir une idée des écarts entre les points M i du nuage de point et de la droite D, on peut calculer le nombre E : E = P 1 M 2 1 + P 2 M 2 2 + + P n M 2 n = n [y i (ax i + b)] 2 Le nombre E = P 1 M1 2 + + P n Mn 2 n = [y i (ax i + b)] 2 19

est minimum pour : a = cov(x, Y ) V (X) b = y ax = σ xy σ 2 x La droite d équation y = ax + b est appelée alors droite de régression de Y en X, on dit qu on a obtenu cette équation par la méthode des moindres carrés. Exercice 1.8.2 Déterminer l équation de la droite de régression de Y en X associée à la série (10,30), (20,60), (30,90), (40,120), (50,150) et (60,180). Exercice 1.8.3 Déterminer l équation de la droite de régression de Y en X associée à la série (10,20), (20,50), (30,80), (40,110), (50,140) et (60,170). De la même façon on peut définir une droite d équation de X en Y d équation x = ãy + b, en faisant correspondre à chaque point M i (x i ; y i ) de ce nuage de point un point P i de la droite D ayant la même ordonnée que M i et en minimisant le nombre : Ce nombre est minimum pour : E = P 1 M1 2 + + P n Mn 2 = n [x i (ãy i + b)] 2 ã = cov(y, X) V (Y ) b = x ãy = σ xy σ 2 y Remarques : les deux droites de régression de Y en X et de X en Y passent toutes deux par le point moyen (x, y). Exercice 1.8.4 On considère deux variables x et y indépendantes dont on connait quelques valauers (x i, y i ) : (1, 1), (2, 8), (3, 27), (4, 64), (5, 125), (6, 216) et (7, 343). Quelle est l équation de la droite de régression de Y en fonction de X? 20

2 Solutions Solution 1.2.1 note 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 effectif (nbr d étudiants) 0 0 0 2 1 1 1 2 2 1 2 4 1 0 1 0 1 0 0 0 effectifs cumulés 0 0 0 2 3 4 5 7 9 10 12 16 17 17 18 18 19 0 0 0 croissants effectif cumulés décroissants 19 19 19 19 17 16 15 14 12 10 9 7 3 2 2 1 1 0 0 0 et 11 + 8 + 12 + 12 + 4 + 13 + 5 + 10 + 15 + 12 + 6 + 9 + 17 + 9 + 4 + 8 + 11 + 12 + 7 moyenne = = 9, 74 19 Il y a 19 notes. La médiane est donc la 10ème note : c est 10 (il y a 9 notes au dessous de 10 et 9 notes au dessus). Le mode est 12 (cette note est donnée 4 fois). Solution 1.2.2 note (x i ) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 effectifs(n i ) 1 2 2 3 2 3 2 3 4 3 2 3 4 4 3 1 2 1 2 2 1 effectifs cumulés 1 3 5 8 10 13 15 18 22 25 27 30 34 38 41 42 44 45 47 49 50 croissants effectifs cumulés décroissants 50 49 47 45 42 40 37 35 32 28 25 23 20 16 12 9 8 6 5 3 1 et ni x i moyenne = 50 9, 66 On a donc la répartion suivantes des notes 0; 1; ; 9; 9; 9; 10; 10; ; 19; 19; 20 Il n y a pas de valeur partageant la série statistique en deux groupes de même effectif. Dans ce cas, l intervalle médian est [9, 10] et on prend pour médiane le centre de cet intervalle : 9,5. Solution 1.2.3 Notes Effectifs centre de classe Effectifs cumulés [0; 5[ 10 2, 5 10 [5; 8[ 8 6, 5 18 [8; 12[ 12 10 30 [12; 15[ 11 13, 5 41 [15; 20[ 9 17, 5 50 21

moyenne = 2, 5 10 + 6, 5 8 + 10 12 + 13, 5 11 + 17, 5 9 50 = 10, 06 La médiane est la note correspondant à l effectif cumulé 25. La médiane se trouve donc dans l intervalle [8; 12[. On la détermine par interpolation linéaire : Solution 1.2.4 M 8 25 18 = 12 8 30 18 donc m 10, 33. On a donc moyenne = Salaires en francs Répartition employés milieu de la tranche salariale effectifs cumulés croissants [4000; 6000[ 20 5000 20 [6000; 8000[ 96 7000 116 [8000; 10000[ 52 9000 168 [10000; 12000[ 17 11000 185 [18000; 20000[ 2 19000 187 20 5000 + 96 7000 + 52 9000 + 17 11000 + 19000 2 20 + 96 + 52 + 17 + 2 Le salaire médian correspont au salaire du 94ème employé. Il est compris dans la tranche [6000; 8000[. Plus précisément, m 6000 94 20 = 8000 6000 116 20 Si on néglige les deux plus gros salaires, on a moyenne = donc m 7541, 67 20 5000 + 96 7000 + 52 9000 + 17 11000 20 + 96 + 52 + 17 7713, 52 Le salaire médian correspont au salaire du 93ème employé. Il est compris dans la tranche [6000; 8000[. Plus précisément, 7824, 22 m 6000 93 20 = 8000 6000 116 20 donc m 7520, 83 Solution 1.2.5 1. La durée médiane est l âge auquel la 500ème personne est décédee = 60 + (70 60) 560 500 = 63, 33 ans. 560 380 22

2. durée d existence (en années) x i : Centre de la classe n i : nbr de décès dans la période 0 à 10 5 70 10 à 20 15 30 20 à 30 25 50 30 à 40 35 70 40 à 50 45 100 50 à 60 55 120 60 à 70 65 180 70 à 80 75 230 80 à 90 85 130 90 à 100 95 20 donc la durée moyenne de vie est 5 70 + 15 30 + 25 50 + 35 70 + 45 100 + 55 120 + 65 180 + 75 230 + 85 130 + 95 20 = 57, 5ans 1000 3. durée d existence n Centre de la classe x i nbr de décès au-delà de 70 ans (en années) i dans la période x i n i 0 à 10 5 230 1150 10 à 20 15 130 1950 20 à 30 25 20 500 380 3600 Espérance de vie cherché : 70 + 3600 380 79, 5 ans. Solution 1.2.6 Soit p le prix de l essence. Au bout de la première année, le prix de l essence est de 1, 20 p. Au bout de la deuxième année, son prix est de 1, 10 1, 20 p soit 1, 32 p. Appelons à présent m le pourcentage moyen d augmentation par an. Au bout de la première année, le prix de l essence est de (1 + m)p. Au bout de la deuxième année, son prix est de (1 + m) 2 p. Nous avons donc (1 + m) 2 = 1, 32 soit 1 + m = 1, 32 1, 1489 Le pourcentage d augmentation est donc environ de 14,89 %. Cette moyenne est la moyenne géométrique des augmentations annuelles. 23

Solution 1.2.7 Soit C son chiffre d affaire initial. À l issue de la première année, son chiffre d affaire est C 1, 1. À l issue de la seconde année, son chiffre d affaire est C 1, 1 1, 21. À l issue de la troisième année, son chiffre d affaire est C 1, 1 1, 21 1, 02. Soit m le pourcentage moyen d augmentation annuelle. À l issue de la première année, son chiffre d affaire serait C (1 + m). À l issue de la seconde année, son chiffre d affaire est C (1 + m) (1 + m). À l issue de la troisième année, son chiffre d affaire est C (1 + m) (1 + m) (1 + m). On veut donc que (1 + m) 3 = 1, 1 1, 21 1, 02 ie 1 + m 1, 107. Son augmentation annuelle moyenne est de 10,7 %. Solution 1.2.8 L augmentation moyenne des prix se calcule grâce à la moyenne géométrique des coefficients multiplicateurs 1,05 et 1,15 soit une augmentation moyenne de 1, 05 1, 15 1, 0988 et donc un pourcentage moyen d augmentation annuelle de 9,88%. Solution 1.2.9 Soit d la distance entre la ville A et la ville B, t le temps mis à l aller et T le temps mis au retour. Alors d = 20 t soit t = d pour 20 l aller et et d = 26 T soit T = d pour le retour Durant l aller - retour : la 26 distance parcourue est égale à 2d ; la durée du parcours est égale à t + T ; on note V est la vitesse moyenne parcourue durant l ensemble du trajet. On a alors : 2d = V (t + T ) = V ( d + d ) Soit 2 = V ( 1 + 1 ) en divisant chaque 20 26 20 26 membre de l équation par d On en déduit que V = 2 1 22, 6 km/h. Ce 20 + 1 26 résultat est la moyenne harmonique des vitesses. Solution 1.2.10 En 60mn, l ouvrier A a fait 6 pièces, l ouvrier B en a fait 4 et l ouvrier C en a fait 3 donc au total 13 pièces ont été fabriquées en 180 minutes, soit une moyenne de 13,85 mn par pièce. On pouvait trouver directement ce résultat en utilisant la moyenne harmonique : m = 3 1 + 1 + 1 10 15 20 = 180 13 13, 85 Solution 1.2.11 Vitesse moyenne = nombre total de pièces produites/nombre d heures de production. La première machine a produit 500 pièces en (500/100)=5 heures. La seconde machine a produit 300 pièces en (300/60)=5 heures. On a donc produit 800 pièces en 10 heures. La vitesse moyenne est donnée par : v = 800 500 + 300 100 60 = 800 10 24 = 80 pièces/heure

Solution 1.2.12 1. m = x 1+x 2, G = x 2 1 x 2 et H = 2 1 2. On a = 2x 1x 2 + 1 x x 1 x 1 +x 2 2 (x 1 x 2 ) 2 > 0 car les variables sont distin x 2 1 2x 1 x 2 + x 2 2 > 0 x 2 1 + 2x 1 x 2 + x 2 2 > 4x 1 x 2 (x 1 + x 2 ) 2 > 4x 1 x 2 (x 1 + x 2 ) 2 x 1 x 2 > 4(x 1 x 2 ) 2 (x 1 + x 2 ) x 1 x 2 > 2x 1 x 2 car les variables sont positives De même x 1 x 2 < x 1 + x 2 2 3. H m = 2x 1x 2 x 1 +x 2 x 1+x 2 2 = x 1 x 2 = G 2 x 1 x 2 > 2x 1x 2 x 1 + x 2 G > H x 1 x 2 < (x 1 + x 2 ) 2 car les variables sont positives G < m 4. On veut montrer que H = 2x 1x 2 x 1 +x 2 = 2(H x 1)(H x 2 ) (H x 1 )+(H x 2 ). On a H = 2(H x 1)(H x 2 ) (H x 1 ) + (H x 2 ) 2H 2 Hx 1 Hx 2 = 2H 2 2Hx 1 2Hx 2 + 2x 1 x 2 2x 1 x 2 = H(x 1 + x 2 ) H = 2x 1x 2 x 1 + x 2 La dernière égalité étant vraie, on a le résultat. Solution 1.3.1 4x 1 x 2 < (x 1 + x 2 ) 2 note 4 5 6 7 8 9 10 11 12 13 14 15 16 17 total effectifs (nbr d étudiants) 2 1 1 1 2 2 2 2 4 1 0 1 0 1 20 fréquence (pourcentage) 10% 5% 5% 5% 10% 10% 10% 10% 20% 5% 0 5% 0 5% 100% fréquences cumulées 10% 15% 20% 25% 35% 45% 55% 65% 85% 90% 90% 95% 95% 100% croissantes fréquences cumulées décroissantes 100% 90% 85% 80% 75% 65% 55% 45% 35% 15% 10% 10% 5% 5% 4 25

Solution 1.3.2 Salaires en francs Répartition employés Fréquence effectifs cumulés croissants fréquences cumulées croissantes effectifs cumulés décroissants fréquences cumulées décroissantes [4000; 6000[ 20 10, 81% 20 10, 81% 185 100% [6000; 8000[ 96 51, 89% 116 62, 7% 165 89, 19% [8000; 10000[ 52 28, 11% 168 90, 81% 69 32, 3% [10000; 12000[ 17 9, 19% 185 100% 17 9, 19% total 185 100% Solution 1.4.1 Données ordonnées dans l ordre croissant : 6, 7, 15, 36, 39, 41, 41, 43, 43, 47, 49. Donc Médiane Q2 =41, Quartile supérieur Q3 =43 et Quartile inférieur Q1 =15. Solution 1.4.2 Les valeurs dans l ordre croissant sont : 1, 11, 15, 19, 20, 24, 28, 34, 37, 47, 50, 57. 1. 2. 3. Médiane = 12 + 1 = 6, 5e valeur 2 (6e + 7e observations) = = 2 24 + 28 2 = 26 étendue = différence entre la valeur la plus élevée et la valeur la plus faible = 57 1 = 56 Quartile inférieur Q1 = valeur du milieu de la première moitié des données = la médiane de 1, 11, 15, 19, 20, 24 (3e + 4e observations) = 2 15 + 19 = = 17 2 Quartile supérieur Q3 = valeur du milieu de la seconde moitié des données = la médiane de 28, 34, 37, 47, 50, 57 (3e + 4e observations) = 2 37 + 47 = = 42 2 26

4. écart interquartile = Q3 Q1 = 42 17 = 25. Solution 1.5.1 On a note 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 effectif (nbr d étudiants) 0 0 0 2 1 1 1 2 2 1 2 4 1 0 1 0 1 0 0 0 et 11 + 8 + 12 + 12 + 4 + 13 + 5 + 10 + 15 + 12 + 6 + 9 + 17 + 9 + 4 + 8 + 11 + 12 + 7 moyenne = = 9, 74 19 On en déduit que la variance V est égale à : = 231, 6844 19 et donc 12, 194 V = 1 19 ( 2 (4 9, 74) 2 + (5 9, 74) 2 + (6 9, 74) 2 + (6 9, 74) 2 + (7 9, σ = V 3, 5 On vérifie bien que 68 % des notes (ici 13) sont situées dans l intervalle [9, 74 3, 5; 9, 74 + 3, 5] = [6, 24; 13, 24] et que 95 % des notes (ici 18) sont situés dans l intervalle [9, 74 2 3, 5; 9, 74 + 2 3, 5] = [2, 74; 16, 74] Solution 1.5.2 On a durée d existence (en années) x i : Centre de la classe n i : nbr de décès dans la période 0 à 10 5 70 10 à 20 15 30 20 à 30 25 50 30 à 40 35 70 40 à 50 45 100 50 à 60 55 120 60 à 70 65 180 70 à 80 75 230 80 à 90 85 130 90 à 100 95 20 donc la durée moyenne de vie est 5 70 + 15 30 + 25 50 + 35 70 + 45 100 + 55 120 + 65 180 + 75 230 + 85 130 + 95 20 = 57, 5ans 1000 27

On en déduit que la variance V est égale à 1 ( V = 70 (5 57, 5) 2 + 30 (15 57, 5) 2 + 50 (25 57, 5) 2 + 70 (35 57, 5) 2 + 100 1000 = 558, 75 et donc l écart-type est σ = V 23, 64 Solution 1.7.1 1. La taille de chaque comédien a été surévaluée de 2cm, donc la moyenne aussi. La moyenne est donc m 2cm. L écart-type ne change pas. 2. La longueur moyenne de tissu nécessaire est donc 2m + 10cm. L écarttype est alors 2σ. Solution 1.8.1 On a x = 1 (10 + 20 + 30 + 40 + 50 + 60) = 35 6 y = 1 (40 + 10 + 18 + 20 + 57 + 14) = 26, 5 6 6x i y i = 10 40 + 20 10 + 30 18 + 40 20 + 50 57 + 60 14 = 5630 cov(x, Y ) = 1 6 x i y i xy 10, 833 6 28

Solution 1.8.2 On a x = 1 (10 + 20 + 30 + 40 + 50 + 60) = 35 6 y = 1 (30 + 60 + 90 + 120 + 150 + 180) = 105 6 6 x i y i = 10 30 + 20 60 + 30 90 + 40 120 + 50 150 + 60 180 = 27300 cov(x, Y ) = 1 6 σ 2 x = 1 6 6 x i y i xy = 875 6 (x i x) 2 = 1 6 ((10 35)2 + (20 35) 2 + (30 35) 2 + (40 35) 2 + (50 35) 2 + (60 35) 2 ) = 1 a = cov(x, Y ) = 875 σx 2 1750 = 3 6 b = y ax = 105 35 3 = 0 On voit que l {equation de la droite de régression est y = 3x, ce qui est normal car pour tout i, on voit que y i = 3x i. 29

Solution 1.8.3 On a x = 1 (10 + 20 + 30 + 40 + 50 + 60) = 35 6 y = 1 (20 + 50 + 80 + 110 + 140 + 170) = 95 6 6 x i y i = 10 20 + 20 50 + 30 80 + 40 110 + 50 140 + 60 170 = 25200 cov(x, Y ) = 1 6 σ 2 x = 1 6 6 x i y i xy = 875 6 (x i x) 2 = 1 6 ((10 35)2 + (20 35) 2 + (30 35) 2 + (40 35) 2 + (50 35) 2 + (60 35) 2 ) = 1 a = cov(x, Y ) = 875 σx 2 1750 = 3 6 b = y ax = 95 35 3 = 10 On voit que l {equation de la droite de régression est y = 3x 10, ce qui est normal car pour tout i, on voit que y i = 3x i 10. Solution 1.8.4 on trouve y = 55x 108 commeéquation de droite. 3 Références Statistique et calcul des probabilités, Walder Masiéri, Éditions Dalloz L essentiel des probabilités et statistiques, Francois Aubin et René Signoret, Éditions Ellipses http://www.inrialpes.fr/sel/ http://www.statcan.ca/francais/edu/index_f.htm http://fr.wikipedia.org/wiki/accueil 30