Notes de cours LM347 : ANALYSE DE DONNÉES ET RÉGRESSION Arnak Dalalyan Université Paris 6 Résumé : Les séances 4 et 5 sont consacrées à l introduction aux méthodes élémentaires d analyse de données. Nous y décrirons notamment les bases de la statistique descriptive. La particularité de la statistique descriptive est qu elle peut être expliquée sans avoir recours à la notion de probabilité. L objectif de la statistique descriptive est de fournir des outils qui permettent résumer et visualiser les données. 1. Les données. Dans ce cours, on laissera délibérément de côté le problème de production de données et d échantillonnage. On considérera qu on dispose d un jeux de données et notre objectif sera le traitement de ces données. 1.1. Définition des variables. Toute caractériqtique d une personne ou d une chose qui peut être exprimée par un nombre est appelée variable. La valeur de la variable est le nombre réel qui décrit une personne ou une chose particulière. On désigne schématiquement deux types de variables : les variables quantitatives et les variables qualitatives également dites variables de catégories. Une variable quantitaive prend des valeurs numériques pour lesquelles les opérations arithmétiques telles que différences et moyennes ont un sens. Une variable qualitative est exprimée sous forme de catégories désignées ellesmêmes par des nombres. Ces nombres sont utilisés uniquement pour des raisons de facilité informatique (codage d une variable qualitative). Aucune opération arithmétique du type de celles qui sont possibles pour les variables quantitatives n est possible. Les valeurs prises par une variable qualitatives s appellent des catégories ou des modalités. 1.2. Définition des individus. Il faut définir sur qui ou sur quoi les variables seront observées. Les personnes ou les choses sur lesquelles les variables sont observées s appellent individus ou entités. Définir des entités consiste à définir une population de référence. 1
2 DALALYAN, ARNAK Exemple 1. On considère les cours des actions à la clôture de la bourse de Paris, ainsi que le volume journalier des actions échangées. Dans cet exemple, si l on fixe un jour J et on considère les cours des actions et les volumes échangés correspondant à ce jour J, la population de référence est l ensemble des actions cotées sur la bourse de Paris et chaque individu représente une action. Le cours d une action le jour J est une variable quantitative. Par exemple, on peut très bien calculer la moyenne sur tous les individus (les actions) des cours à la clôture. Pour cette population de référence, on peut également s intéresser à la variable secteur d activité. Cette variable dont les valeurs possibles sont secteur bancaire, énergie, services,..., qu on peut coder par des nombres entiers 1,2,3,... On obtient ainsi une variable qualitative. Exemple 2. Soit la population de référence l ensemble de joueurs de football qui evoluent en Ligue 1. Le salaire mensuel d un footballeur, le numéro porté par un footbolleur, la nationalité d un footballeur sont des exemples de variables définies sur cette population. Le salaire mensuel est une variable quantitative, alors que le numéro de maillot et la nationalité sont des variables qualitatives. 2. L analyse d une variable quantitative. On décrira dans cette partie les indicateurs numériques caractéristiques d une variable quantitative, qui représentent la position, la dispersion et la forme de la répartition de la variable étudiée. On donnera aussi la définition de quelques méthodes de visualisation de la répartition d une telle variable. Afin de définir les différentes quantités liées à une variable quantitative, on procède de la façon suivante. Etant donné n valeurs x 1,...,x n d une variable quantitative x, on définit une variable aléatoire Z qui prend chacune des valeurs x i avec une probabilité 1/n. Contrairement aux apparences, cette variable Z n est pas nécessairement une variable discrète de la loi uniforme sur l ensemble E = {x 1,x 2,...,x n }. En effet, la probabilité que Z prend la valeur x i est égale à la multiplicité de x i dans la suite x 1,...,x n divisée par n. Par exemple, si les valeurs observées sont 1 3 2 3 2 3 1 4, (2.1) alors la variable aléatoire Z prend les valeurs 1,2,3,4 avec des probabilités respectives 2 8, 2 8, 3 8 et 1 8.
ANALYSE DES DONNÉES 3 2.1. Indicateurs de position. Les deux indicateurs de position les plus utilisés sont la moyenne x et la médiane M. Elles sont définies comme l espérance et la médiane de la variable aléatoire Z. Par exemple, si l on a observé les valeurs données dans (2.1), alors x = 1 2 8 + 2 2 8 + 3 3 8 + 4 1 8 = 19 8 = 2.375, et n importe quelle valeur comprise entre 2 et 3 peut être considérée comme la médiane. Par convention, lorsque la médiane n est pas uniquement définie, on la définit comme le centre de l intervalle de ses valeurs possibles. Dans l exemple donné ci-dessus, on a donc M = 2.5. Alors que la moyenne a l aventage d être uniqement définie, la médiane constitue un indicateur plus stable par rapport aux observations atypiques que la moyenne. Par exemple, si en saisissant les notes (sur 20 points) de 30 étudiants dans un fichier on se trompe sur une note en tapant 166 au lieu de 16, cela va augmenter la moyenne de 5 points, alors que la médiane rstera quasiment inchangée. 2.2. Indicateurs de dispersion. Les deux indicateurs les plus utilisés sont l écart-type et l écart interquartile. L écart-type, noté s, est défini comme la racine carrée de la variance de la variable Z. Cela équivaut à s 2 = 1 n (x i x) 2 = E[(Z E[Z]) 2 ]. n i=1 On dit alors que s 2 est la variance. Dans certains ouvrages, la division se fait non pas par n, mais par (n 1). Pour les grandes valeurs de n cela affecte peu la valeur de l écart-type. La raison de division par (n 1) vient de la statistique inférentielle et sera donnée plus tard. Soient Q 1 et Q 3 le premier et le troisième quartiles de la variable aléatoire Z. On appelle alors écart interquartile des observations x 1,...,x n la valeur E Q = Q 3 Q 1. Dans le cas où les quartiles ne sont pas uniquement définis, on applique la même règle que pour la médiane : on choisit le centre de l intervalle de toutes les valeurs possibles. Par exemple, pour les observations (2.1), l ensemble de valeurs possibles pour Q 1 est l intervalle [1,2]. On pose donc Q 1 = 1.5. En revanche, le troisième quartile est défini de façon unique : Q 3 = 3. Par conséquent, l écart interquartile est E Q = 3 1.5 = 1.5.
4 DALALYAN, ARNAK 2.3. Indicateurs de forme. Les deux indicateurs de forme les plus fréquemment utilisés sont le coefficient d asymétrie et le coefficient d aplatissement. Le coefficient d asymétrie, noté α, est défini par α = E[(Z E[Z])3 ] s 3 et mesure le degré d asymétrie par rapport à la moyenne de la répartition des observations. Si les observations sont reparties de façon symétrique à droite et à gauche de la moyenne, alors α = 0. Si α > 0, alors on parle d une asymétrie à droite signifiant que les valeurs observées qui sont supérieures à la moyenne pèsent plus lourd que les valeurs qui sont inférieures à la moyenne. Le coefficient d aplatissement, quant à lui, est défini par β = E[(Z E[Z])4 ] s 4 3. Il sert à comparer les queues de la repartition des observations à celles d une loi gaussienne. L idée de base est que si l on observe n réalisations indépendantes d une variable gaussienne, alors β 0 lorsque n tend vers l infini. L utilisation des coefficients d asymétrie et d applatissement n est recommandée que si le nombre d observations est élevé (n 100, par exemple). 2.4. Analyse graphique : histogramme et boîte à moustaches. La boîte à moustaches, appelé également diagramme en boîte, est un moyen rapide de figurer le profil essentiel d une variable quantitative. Elle a été inventée en 1977 par John Tukey, mais peut faire l objet de certains aménagements selon les utilisateurs. La construction de la boîte à moustache est basé sur le calcul de 5 caractéristiques numériques : la médiane M, les quartiles Q 1 et Q 2, ainsi que les deux extrémités des moustaches défini : A = min i:x i Q 1 1.5E Q x i, B = max i:x i Q 3 +1.5E Q x i. Toutes les valeurs x i qui se trouvent à l extérieur de l intervalle [A,B] sont considérées comme des observations atypiques ou aberrantes. Ayant calculé ces 5 quantités, la boîte à moustache prend la forme : A Q 1 M Q 3 B
Dans ce dessin, il n y a pas de valeur atypique. ANALYSE DES DONNÉES 5 L histogramme, quant à lui, est un outil graphique qui donne une information plus complète sur la forme de la repartition de la variable quantitative. Pour le construire, on choisit d abord un nombre de N de classes et on partitionne l intervalle [min i x i,max i x i ] en N intervalles de longueurs égales. On dessine ensuite, sur chaque intervalle de la partition, un rectangle dont la hauteur est égale au pourcentage des observations contenues dans l intervalle en question. On obtient un graphique de la forme : 0.0 0.4 0.8 0.0 0.5 1.0 1.5 2.0 Pour l exemple des observations données en (2.1), on obtient la boîte à moustaches et l histogramme suivants : 0.0 0.4 1.0 1.5 2.0 2.5 3.0 3.5 4.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 3. L analyse d une variable qualitative. Les deux outils graphiques les plus utilisés pour analyser une variable qualitative sont les diagrammes en bâtons et les diagrammes circulaires dits en camembert. Pour les construire, il faut calculé le pourcentage (la fréquance) de chaque modalité. Par exemple, si en choisissant 10 personnes au hazard dans la rue on tombe sur 7 blonds et 3 bruns, alors les deux diagrammes seront : Diagramme en bâton Diagramme circulaire 0 2 4 6 brun blond blond brun
6 DALALYAN, ARNAK 4. L analyse de deux variables. On suppose maintenant qu on dispose de deux séries statistiques x 1,...,x n et y 1,...,y n correspondantes à deux variables X et Y observées sur n individus. Pour analyser des deux variables, on distingera trois cas selon la nature des variables à analyser : deux variables quantitatives, une variable quantitative et une variable qualitative, deux variables qualitatives. On se concentrera exclusivement sur les deux premiers cas. 4.1. Deux variables quantitatives. L outil le plus complet permettant de visualiser les observations de deux variables quantitatives est le nuage de points. Il s agit de dessiner dans un repère orthogonal tous les points P i ayant pour coordonnées x i et y i. Par exemple, pour les données i 1 2 3 4 5 6 7 8 9 10 x 22 22 22 23 23 24 24 25 25 25 y 12.6 12 13.5 12.2 12 13.3 12.6 13.5 13.2 13.4 (4.1) où x i représente l âge et y i le logarithme des revenus d une personne, on otient le nuage de points suivant : 14.5 Nuage de points 14 13.5 13 y 12.5 12 11.5 11 20 21 22 23 24 25 26 27 x Si il y a des points multiples ((x i,y i ) = (x j,y j ) pour i j), on écrit la multiplicité de chaque observation à côté du point représentant cette observation. Dans le cas de deux variables quantitatives, on s intéresse également à la droite de régression de y sur x. C est la droite D qui minimise la somme des carrés des distances verticales entre les points du nuage et la droite D. Autrement dit, les coefficient (a,b) de l équation y = ax + b de la droite de régression de y sur x sont définis par (a,b) = arg min a,b n ( yi (ax i + b) ) 2. i=1
ANALYSE DES DONNÉES 7 On vérifie facilement que cette droite D passe par l isobarycentre des points P i et les coefficients a et b de D sont donnés par où s xy = 1 n x i y i xȳ, n i=1 a = s xy s 2, b = ȳ a x, x s 2 x = 1 n (x i x) 2. n i=1 Il n est pas inutile de souligner que, en général, la droite de régression de y sur x ne coïncide pas avec la droite de régression de x sur y. Afin d éviter toute confusion, on écrira D y x pour la droite de régression de y sur x et D x y pour la droite de régression de x sur y. La droite de régression pour l exemple (4.1) est la suivante : 14.5 14 Nuage de points D x y 13.5 D y x 13 y 12.5 12 11.5 11 20 21 22 23 24 25 26 27 x Le point rouge (l intersection des deux droites) correspond au isobarycentre des points P i. 4.2. Une variable quantitative et une variable qualitative. La façon la plus pratique de visualiser les données d une variable quantitative et d une variable qualitative est de dessiner les boîtes à moustache parallèles. Supposons que la variable X est quantitative alors que Y est qualitative. Soit M 1,..., M k les modalités de Y. On partitionne alors les données x 1,...,x n en k classes dont chacune correspond à une modalité de Y ; si pour un indice i la valeur y i est égale à M 1 alors x i sera dans la première classe, si y i vaut M 2 alors x i sera dans la deuxième classe, etc. Ensuite, on dessine sur le même repère les boîtes à moustaches des x i pour chacune des k classes.
8 DALALYAN, ARNAK Considérons l exemple suivant. Pour 20 étudiants, on a enregistré le sexe et la note obtenue (sur 20 points) à une épreuve écrite. On a obtenu le tableau suivant : i 1 2 3 4 5 6 7 8 9 10 Note 11 12 5 8 15 14 4 18 17 2 Sexe F F M F F F F M M M i 11 12 13 14 15 16 17 18 19 20 Note 7 13 12 11 9 10 16 5 10 9 Sexe M M F F F M M F F M (4.2) Si l on trie ces résultats par sexe, on obtient les deux classes : C F = (11,12,8, 15,14,4,12,11,9,5,10) et C M = (5,18,17,2,7,13,10,16, 9). On obtient donc les boîtes à moustaches suivantes : 2 4 5 6 8 10 12 14 15 16 18 F M On peut en déduire que les notes des garçons sont plus dispersées que celles des filles, la médiane de la note des filles est légèrement supérieure à celle des garçons, ce qui veut dire que les filles ont globalement un peu mieux réussi que les garçons, les meilleures notes sont quand-même obtenues par les garçons, plus de la moitié des filles ont eu une note comprise entre 8 et 12, à peu près 50 pourcent des garçons ont eu une note inférieure à 10. Bibliographie. [1] Michel Jambu. Méthodes de base de l analyse des données. Editions Eyrolles, 1999. [2] Lebart, L., Marineau, A. et Piron, M. Statistique exploratoire multidimensionnelle. Dunod, 2eme édition, 1997.