Statistiques en Scilab

Documents pareils
Statistiques Descriptives à une dimension

Statistique : Résumé de cours et méthodes

Séries Statistiques Simples

Chapitre 3. Les distributions à deux variables

Représentation d une distribution

Leçon N 4 : Statistiques à deux variables

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistique Descriptive Élémentaire

Statistiques 0,14 0,11

3. Caractéristiques et fonctions d une v.a.

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Relation entre deux variables : estimation de la corrélation linéaire

1. Vocabulaire : Introduction au tableau élémentaire

Simulation de variables aléatoires

Résumé du Cours de Statistique Descriptive. Yves Tillé


UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Les devoirs en Première STMG

C f tracée ci- contre est la représentation graphique d une

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Séance 0 : Linux + Octave : le compromis idéal

Couples de variables aléatoires discrètes

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Cours 7 : Utilisation de modules sous python

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Statistiques à une variable

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Lire ; Compter ; Tester... avec R

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Moments des variables aléatoires réelles

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Logiciel XLSTAT version rue Damrémont PARIS

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

FORMULAIRE DE STATISTIQUES

Classe de première L

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Statistiques à deux variables

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

M2 IAD UE MODE Notes de cours (3)

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Créer et modifier un fichier d'import des coordonnées approximatives avec Excel

Chapitre 2 Le problème de l unicité des solutions

Optimisation, traitement d image et éclipse de Soleil

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques avec la graph 35+

Guidance de Statistique : Epreuve de préparation à l examen

Calculs de probabilités avec la loi normale

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyse en Composantes Principales

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Statistiques descriptives

Correction du bac blanc CFE Mercatique

Le patrimoine des ménages retraités : résultats actualisés. Secrétariat général du Conseil d orientation des retraites

CAPTEURS - CHAINES DE MESURES

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Marché de l occasion et exigences de rénovation énergétique. Rencontre de l Observatoire 21 mai 2015

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

L analyse boursière avec Scilab

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

VI. Tests non paramétriques sur un échantillon

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

MODE D EMPLOI Boitier de programmation SKY

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Feuille TD n 1 Exercices d algorithmique éléments de correction

Infos. Indicateurs analogiques encastrables pour installation à courants forts. Série M W/P/ LSP BWQ BGQ TP TG WQ /0S WQ /2S FQ /2 W BI BIW DFQ

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

La classification automatique de données quantitatives

STATISTIQUES DESCRIPTIVES

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Introduction aux Statistiques et à l utilisation du logiciel R

IBM SPSS Direct Marketing 21

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

Programmes des classes préparatoires aux Grandes Ecoles

Correction du baccalauréat STMG Polynésie 17 juin 2014

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

COMPTABILITE SAGE LIGNE 30

Programmation linéaire

Traitement bas-niveau

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Ecran : Processeur : OS : Caméra : Communication : Mémoire : Connectique : Audio : Batterie : Autonomie : Dimensions : Poids : DAS :

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Fonctions de plusieurs variables

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Exercice : la frontière des portefeuilles optimaux sans actif certain

Organisme certificateur : 10 rue Galilée Champs sur Marne Tél : +33 (0) Fax : +33 (0)

Travaux dirigés d introduction aux Probabilités

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Transcription:

Statistiques en Scilab Table des matières 1 Vocabulaire des statistiques 2 2 Statistique descriptive univariée 2 2.1 Modalités............................................... 2 2.2 Dénombrement............................................ 3 2.2.1 Effectifs............................................ 3 2.2.2 Fréquences.......................................... 4 2.3 Classes................................................. 6 2.4 Paramètres.............................................. 7 2.4.1 Mode............................................. 7 2.4.2 Moyenne........................................... 7 2.4.3 Médiane............................................ 8 2.4.4 Quartile, décile........................................ 9 2.4.5 Etendue............................................ 9 2.4.6 Variance............................................ 10 2.4.7 Ecart type........................................... 11 3 Statistique descriptive bivariée 11 3.1 Définition............................................... 11 3.2 Covariance et corrélation....................................... 12 3.3 Ajustement linéaire.......................................... 13 3.3.1 Définition........................................... 13 3.3.2 Problème des moindres carrés................................ 13 1

1 Vocabulaire des statistiques Définition 1.1 : Population, individu, effectif L ensemble des éléments Ω = {ω 1, ω 2,..., ω N } dont on étudie les données s appelle population, ses éléments sont appelés individus. Le cardinal N de Ω est l effectif de la population. Définition 1.2 : Echantillon Un échantillon est la portion de population servant à l étude. Exemple 1. Une étude sur la population française en âge de travailler peut s effectuer sur un échantillon de 100 000 français (exemple : enquête emploi INSEE. Définition 1.3 : Variable Une variable (ou caractère est une application X définie sur Ω. Si X est à valeurs réelles, X est une variable quantitative. Sinon X est une variable qualitative. Exemple 2. On a : La taille des habitants d un pays donné ou les notes obtenues à une épreuve de concours par des candidats sont des variables quantitatives. La couleur des yeux des habitants d un pays donné est une variable qualitative. 2 Statistique descriptive univariée 2.1 Modalités Définition 2.1 : Modalités Les valeurs prises par une variable X s appellent les modalités de X. Définition 2.2 : Série statistique La liste des valeurs prises (des modalités par X est une série statistique : [x 1, x 2,..., x N ] avec x i = X(ω i. Remarque 2.3 : Série ordonnée Une série ordonnée est une série statistique telle que [x 1, x 2,..., x N ] avec x 1 x 2 x N. 2

Remarque 2.4 : Série dépouillée Si certaines valeurs d une série ordonnée sont égales, on peut grouper les valeurs égales, notons-les y 1,..., y p avec p N, en indiquant le nombre n i de fois où la valeur y i apparait. On parle alors de série dépouillée. Exemple 3. Une série statistique "brute" La même série ordonnée La même série dépouillée 2.2 Dénombrement 2.2.1 Effectifs Définition 2.5 : Effectif modalités x i 7 2 8 5 2 5 10 5 5 7 4 7 2 8 7 modalités x i 2 2 2 4 5 5 5 5 7 7 7 7 8 8 10 modalités y i 2 4 5 7 8 10 effectifs n i 3 1 4 4 2 1 L effectif de la modalité x i est le nombre n i d individus de cette modalité. Calculer l effectif d une modalité : la fonction tabul Méthode 2.6 : Comment calculer l effectif d une modalité? On utilise la fonction tabul(x qui ordonne la série x dans l ordre décroissant et donne l effectif de chaque modalité de la série. Exemple 4. En reprenant le même exemple : --> m=tabul(x m = 10. 1. 8. 2. 7. 4. 5. 4. 4. 1. 2. 3. --> bar(m(:,1,m(:,2 // on trace le diagramme en bâtons correspondant à la série dépouillée. 3

m(:,1 (la première colonne du vecteur m donne les abscisses, ce sont les valeurs des modalités. m(:,2 (la deuxième colonne du vecteur m donne les ordonnées, ce sont les effectifs. Remarque 2.7 : Classer dans l ordre croissant Par défaut le classement se fait dans l ordre décroissant. On écrit tabul(x, i pour classer la série dans l ordre croissant ( i comme increasing. --> m=tabul(x, i m = 2. 3. 4. 1. 5. 4. 7. 4. 8. 2. 10. 1. Définition 2.8 : Effectif cumulé L effectif cumulé d une modalité est la somme des effectifs des modalités qui lui sont inférieures ou égales. 2.2.2 Fréquences Définition 2.9 : Fréquence La fréquence de x i est le réel p Si X prend p valeurs distinctes, alors f i = 1. f i = n i N 4

Définition 2.10 : Fréquence cumulée La fréquence cumulée d une modalité est la somme des fréquences des modalités qui lui sont inférieures ou égales. Pour une série ordonnée, on peut écrire p i = j i f j. Remarque 2.11 : Important : lien avec les probabilités Les notions suivantes se correspondent en probabilités et en statistiques : X variable aléatoire probabilité P(X = x i fonction de répartition F X X variable statistique fréquence f i fréquence cumulée p i Méthode 2.12 : Comment calculer l effectif cumulé ou la fréquence cumulée? On utilise la fonction sum et cumsum. Exemple 5. On reprend la série précédente. --> m=tabul(x, i // on utilise la fonction tabul pour ordonner la série m = 2. 3. 4. 1. 5. 4. 7. 4. 8. 2. 10. 1. --> effc=cumsum(m(:,2 // on effectue la somme cumulée de la 2e colonne de m pour obtenir l effectif cumulé effc = 3. 4. 8. 12. 14. 15. --> frec=effc/sum(m(:,2 // on divise l effectif cumulée par l effectif de la population totale frec = 0.2 0.2666667 0.5333333 0.8 0.9333333 1. 5

Remarque 2.13 : Rappel! m(:,2 renvoie la deuxième colonne de m. m(:,1 renvoie la première colonne de m. m(1,: renvoie la première ligne de m. m(5,: renvoie la cinquième ligne de m. 2.3 Classes Définition 2.14 : Classes Lorsque le nombre de valeurs prises par X est trop grand, on regroupe les modalités par intervalles, appelés classes de la série. On dit alors que la série est groupée par classes. Remarque 2.15 Scilab permet de choisir les extrémités de chaque classe, ainsi que le nombre de classes. Par exemple, en prenant c 1, c 2,..., c q, c q+1, on considère q classes [c 1, c 2 ], ]c 2, c 3 ],... ]c q, c q+1 ] La première est un intervalle fermé, les autres sont des intervalles ouverts à gauche et fermés à droite. Définition 2.16 : Amplitude d une classe Le réel c i+1 c i est l amplitude de la classe ]c i, c i+1 ]. Exemple 6. On reprend l exemple précédent. On groupe cette série statistique par classes. Grouper une série brute : la fonction dsearch classes [2,4] ]4,6] ]6,8] ]8,10] effectifs 4 4 6 1 Méthode 2.17 : Comment grouper par classes une série brute? On utilise les fonctions linspace et dsearch pour grouper par classes une série brute. La fonction linspace permet de déterminer l amplitude commune de chaque classe et dsearch renvoie le nombre de modalités présentes dans chacune de ces classes. Exemple 7. Reprenons le même exemple. --> c=linspace(2,10,5 // on découpe l intervalle [2,10] en 4 intervalles c = 2. 4. 6. 8. 10. --> histplot(c,x // on trace l histogramme correspondant. 6

--> [ind,occ]=dsearch(x,c occ = 4. 4. 6. 1. ind = 3. 1. 3. 2. 1. 2. 4. 2. 2. 3. 1. 3. 1. 3. 3. occ retourne le nombres d éléments dans chaque classe. ind retourne le numéro de la classe dans laquelle se trouve chaque élément de x. Dans cet exemple, on affecte la valeur 1 aux éléments dans l intervalle [2, 4], la valeur 2 aux éléments dans l intervalle ]4, 6], la valeur 3 aux éléments dans l intervalle ]6, 8]... 2.4 Paramètres 2.4.1 Mode Définition 2.18 : Mode On appelle mode d une série statistique toute valeur de la variable correspondant au plus grand effectif (il peut donc y en avoir plusieurs. Exemple 8. Pour la série, [7 2 8 5 2 5 10 5 5 7 4 7 2 8 7] 5 et 7 sont les modalités aux plus grands effectifs (4 fois chacun. 5 et 7 sont les modes de cette série statistique. 2.4.2 Moyenne Définition 2.19 : Moyenne On appelle X la moyenne de la série statistique (x i 1 i N X = 1 N N x i. 7

Remarque 2.20 : Moyenne d une série dépouillée Si la série est groupée par modalités (y i, n i 1 i p, on a : X = 1 N p n i y i. Méthode 2.21 : Comment calculer la moyenne d une série statistique? On utilise la fonction mean. Exemple 9. La série de notre exemple a pour moyenne : --> m=mean(x m = 5.6 2.4.3 Médiane Définition 2.22 : Médiane On appelle médiane de la série statistique (x i 1 i N la valeur, souvent notée M e, en laquelle la fréquence cumulée est égale à 1 2. Remarque 2.23 La médiane partage la série en deux séries d effectifs égaux. Méthode 2.24 : Comment calculer la médiane d une série statistique? On utilise la fonction median. Exemple 10. La série de notre exemple a pour médiane : --> M=median(x M = 5 8

2.4.4 Quartile, décile Définition 2.25 : Quartile Un quartile est chacune des 3 valeurs qui divisent les données triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l échantillon de population. Le premier quartile, noté q 1, est la plus petite valeur telle qu au moins 25% des termes de la série soient inférieurs ou égaux à q 1. Le deuxième quartile est la médiane de la série. Le troisième quartile, noté q 3, est la plus petite valeur telle qu au moins 75% des termes de la série soient inférieurs ou égaux à q 3. Méthode 2.26 : Comment calculer les quartiles d une série statistique? On peut utiliser la fonction quart, mais il faut faire attention car celui-ci peut donner un calcul erroné. Exemple 11. La série de notre exemple a pour quartiles : --> quart(x ans = 4.25 // Scilab devrait renvoyer 4 mais donne ici un calcul suivant la //définition internationale qui diffère de la définition francaise. 5. 7. Définition 2.27 : Ecart interquartile Le nombre q 3 q 1 est appelé écart interquartile (l idée est de mettre en valeur l écart entre les 2 quarts de la population correspondant aux valeurs extrêmes de la série. Exemple 12. Pour notre série, l écart interquartile est 7-4=3. Définition 2.28 : Décile On appelle k ème décile d une série statistique, le réel correspondant à 10k% des fréquences cumulées (le 5 ème décile est donc la médiane de la série. Exemple 13. Pour notre série, le neuvième décile est 8. 2.4.5 Etendue Définition 2.29 : Etendue On appelle étendue d une série statistique la différence entre la plus grande modalité et la plus petite modalité. 9

Méthode 2.30 : Comment calculer l étendue d une série statistique? On utilise les fonctions max et min. Exemple 14. La série de notre exemple a pour étendue : --> max(x-min(x ans = 8. 2.4.6 Variance Définition 2.31 : Variance On appelle V (X la variance de la série statistique (x i 1 i N le réel V (X = 1 N N ( x i X 2. Remarque 2.32 Si la série est groupée par modalités (y i, n i 1 i p, on a : V (X = 1 N p n i (y i X 2 Méthode 2.33 : Comment calculer la variance d une série statistique? On utilise la fonction variance. Exemple 15. La série de notre exemple a pour variance : --> V=variance(x V = 5.8285714 Attention, la variance calculée avec 1 N ( X 2 x i donne 5.44. Avec la fonction variance, Scilab calcule N 1 N ( X 2 x i qui est la variance empirique, on verra plus tard que c est un estimateur sans biais de N 1 la variance de la population entière. 10

2.4.7 Ecart type Définition 2.34 : Ecart type On appelle σ X l écart type d une série statistique σ X = V (X. Méthode 2.35 : Comment calculer l écart type d une série statistique? On utilise la fonction stdev. Exemple 16. La série de notre exemple a pour écart type : --> ec=stdev(x ec = 2.4142434 Attention, de même que pour la variance, l écart type calculée par Scilab est la racine carrée de variance(x, ce qui diffère de l écart type de l échantillon observé. 3 Statistique descriptive bivariée 3.1 Définition Définition 3.1 : Série statistique double Soient un échantillon Ω = {ω 1, ω 2,..., ω n } et deux séries statistiques X = [x 1, x 2,..., x n ] et Y = [y 1, y 2,..., y n ]. On appelle série statistique double la donnée de la liste [(x 1, y 1, (x 2, y 2,..., (x n, y n ], chaque couple (x i, y i étant associé à un seul individu ω i de la population. Remarque 3.2 : Objectif C est le recueil simultané des modalités de deux variables X et Y chez les mêmes sujets. L intérêt se porte le plus souvent sur la relation entre les deux variables : la recherche de corrélation. Exemple 17. On mesure le poids X et la taille Y de 10 individus. modalités x i 60 64 68 70 72 75 78 85 96 98 modalités y i 155 157 164 170 178 180 173 179 180 189 11

3.2 Covariance et corrélation Définition 3.3 : Covariance empirique On appelle covariance empirique de la série statistique double (x i, y i i [[1,n]] le réel : Cov(X, Y = 1 n ( x i X ( y i Ȳ. Définition 3.4 : Coefficient de corrélation empirique Le coefficient de corrélation empirique de la série (x i, y i i [[1,n]] est le réel : On a ρ X,Y 1. ρ X,Y = Cov(X, Y σ X σ Y. Remarque 3.5 Le coefficient de corrélation empirique mesure la dépendance linéaire entre deux variables. S il est proche de 1 ou 1, alors X et Y sont fortement corrélés. S il est proche de 0, alors X et Y sont faiblement corrélés (voire ne le sont pas. Méthode 3.6 : Comment calculer la covariance empirique et le coefficient de corrélation empirique? On utilise la fonction corr(x,y,1 pour calculer la covariance empirique de X et Y. Afin de calculer le coefficient de corrélation empirique, il suffit de diviser la covariance empirique de X et Y par l écart-type de X et celui de Y. Exemple 18. On reprend la série précédente. modalités x i 60 64 68 70 72 75 78 85 96 98 modalités y i 155 157 164 170 178 180 173 179 180 189 --> x=[60 64 68 70 72 75 78 85 96 98]; --> y=[155 157 164 170 178 180 173 179 180 189]; --> corr(x,y,1 ans = 109.2 --> corr(x,y,1/stdev(x/stdev(y ans = 0.7758334 12

3.3 Ajustement linéaire 3.3.1 Définition Définition 3.7 : Nuage de points On appelle nuage de points d une série statistique double, l ensemble des points M i de coordonnées (x i, y i. Définition 3.8 : Point moyen On appelle point moyen du nuage, le point de coordonnées ( X, Ȳ. Méthode 3.9 : Comment tracer un nuage de points? On construit les vecteurs x et y de même taille, puis on utilise la commande plot2d(x,y,style=z où Z est une des valeurs suivantes : -6-5 -4-3 -2-1 0 1 2 3 4 5 + noir bleu foncé vert bleu clair rouge Exemple 19. Avec la série des exemples précédents, --> x=[60 64 68 70 72 75 78 85 96 98]; --> y=[155 157 164 170 178 180 173 179 180 189]; --> plot2d(x,y,style=-3 --> plot2d(mean(x,mean(y,style=-4 // point moyen du nuage 3.3.2 Problème des moindres carrés Si le nuage de points associé à une série statistique double possède une forme étirée, on peut avoir l idée de chercher quelle droite approcherait au mieux les points de ce nuage. Le problème consiste donc à identifier une droite y = ax + b qui ajuste bien le nuage de points. L erreur que l on commet en utilisant la droite de régression pour prédire y i à partir de x i est y i (ax i + b. 13

erreur commise au point (72,178 Pour déterminer la valeur des coefficients a et b, on utilise le principe des moindres carrés qui consiste à chercher la droite qui minimise la somme des carrés de ces erreurs : (y i ax i b 2. Proposition 3.10 : Droite de régression linéaire L unique droite rendant minimale (y i ax i b 2 est la droite d équation y = a x + b avec a = Cov(X, Y V (X et b = Ȳ a X. Cette droite est appelée droite de régression linéaire de Y en X. On dit que X est la variable explicative et Y la variable expliquée. Démonstration. Le minimum de la fonction F (a, b = (y i ax i b 2 correspond au point où les dérivées partielles s annulent. D après les formules de Huygens, comme Cov(X, Y = 1 x i y i n XȲ et V (X = 1 x 2 i n X 2, alors F n a (a, b = 2 x i (y i ax i b = 2 x i y i 2a x 2 i 2b x i (( = 2n Cov(X, Y + XȲ ( a V (X + X 2 b X F n b (a, b = 2 (y i ax i b = 2n (Ȳ a X b 14

Ainsi le point (a, b où F atteint son minimum vérifie le système suivant 0 = ( Cov(X, Y + XȲ ( a V (X + X 2 b X, 0 = Ȳ a X b. 0 = ( Cov(X, Y + XȲ a ( V (X + X 2 (Ȳ a X X, b = Ȳ a X. { 0 = Cov(X, Y a V (X, a = Cov(X, Y, b = Ȳ V (X a X. b = Ȳ a X. Ainsi y = Cov(X, Y ( x + Ȳ Cov(X, Y X = Cov(X, Y ( x V (X V (X V (X X + Ȳ. Propriété 3.11 : Point moyen et droite de régression linéaire Les droites de régression linéaire passent par le point moyen. Proposition 3.12 : Lien avec le coefficient de corrélation empirique Plus ρ X,Y est proche de 1, plus les points sont proches de l alignement et plus les prévisions données par les droites de régression sont pertinentes. ρ X,Y ne valant 1 que lorsque les points du nuage sont alignés. Démonstration. En effet, on rappelle que F (a, b = (y i ax i b 2 permet de calculer la distance du nuage de points à la droite de régression pour une droite y = ax + b donné, F (a, b = (yi 2 + (ax i 2 + b 2 2ax i y i 2y i b + 2abx i On utilise le fait que Cov(X, Y = 1 x i y i n x 2 i n. F (a, b = ( n V (Y + Ȳ 2 + a 2 (V (X + X 2 + b 2 ( + 2n a Cov(X, Y + XȲ = n ( ( V (Y + Ȳ 2 + a 2 (V (X + X 2 2 + (Ȳ a X + ( 2 a Cov(X, Y + XȲ b Ȳ + a b X (Ȳ a X Ȳ + a ( Ȳ a X X car b = Ȳ a X = n ( V (Y + Ȳ 2 + a 2 (V (X + X 2 + Ȳ 2 + a 2 X2 2Ȳ a X 2a Cov(X, Y 2a XȲ 2Ȳ 2 + 2a XȲ + 2a Ȳ X 2a 2 X2 = n ( a 2 V (X 2a Cov(X, Y + V (Y ( Cov(X, Y 2 = n V (Y V (X ( = nv (Y 1 ρ 2 X,Y car a = Cov(X, Y V (X Plus ρ X,Y est proche de 1, plus F (a, b est petit et donc le nuage de points est proche de la droite de régression. 15

Remarque 3.13 : Sens de variation suivant le coefficient de corrélation empirique Si ρ X,Y > 0 (respectivement ρ X,Y < 0, alors les droites sont de pente positive (resp. négative : X et Y varient dans le même sens (resp. en sens opposé. Méthode 3.14 : Comment tracer la droite de régression linéaire? On trace une droite à l aide de la fonction plot2d. Exemple 20. Avec la série des exemples précédents, --> x=[60 64 68 70 72 75 78 85 96 98]; --> y=[155 157 164 170 178 180 173 179 180 189]; --> plot2d(x,y,style=-3; // on trace le nuage de points --> plot2d(mean(x,mean(y,style=-4 // point moyen du nuage (pas nécessaire --> a=corr(x,y,1/variance(x; b=mean(y-a*mean(x; // coefficients de la droite --> xx=60:0.01:98; // abscisses de la droite --> yy=a*xx+b; // ordonnées de la droite --> plot2d(xx,yy // on trace la droite de régression linéaire 16