LM347 : ANALYSE DE DONNÉES ET RÉGRESSION. Arnak Dalalyan. Université Paris 6

Documents pareils
Statistique : Résumé de cours et méthodes

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Statistiques Descriptives à une dimension

Statistique Descriptive Élémentaire

Représentation d une distribution

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Séries Statistiques Simples

Annexe commune aux séries ES, L et S : boîtes et quantiles

Logiciel XLSTAT version rue Damrémont PARIS

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

La classification automatique de données quantitatives

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Les devoirs en Première STMG

1. Vocabulaire : Introduction au tableau élémentaire

Exercices supplémentaires sur l introduction générale à la notion de probabilité

3. Caractéristiques et fonctions d une v.a.

TSTI 2D CH X : Exemples de lois à densité 1

Leçon N 4 : Statistiques à deux variables

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Lire ; Compter ; Tester... avec R

SERIE 1 Statistique descriptive - Graphiques

Traitement des données avec Microsoft EXCEL 2010

données en connaissance et en actions?

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Relation entre deux variables : estimation de la corrélation linéaire

BACCALAURÉAT PROFESSIONNEL SUJET

Résumé du Cours de Statistique Descriptive. Yves Tillé

Statistiques 0,14 0,11

Analyse en Composantes Principales

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Cours de méthodes de scoring

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Complément d information concernant la fiche de concordance

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Classe de première L

Exercices sur le chapitre «Probabilités»

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Statistiques à une variable

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Précision d un résultat et calculs d incertitudes

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Chapitre 3. Les distributions à deux variables

Probabilités sur un univers fini

Les paradoxes des marchés de bureaux et du logement Les prévisions IEIF : l année dangereuse Entre rechute et guérison?

- Ressources pour les classes

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Probabilités sur un univers fini

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Chapitre 1 : Évolution COURS

Chapitre 2 Le problème de l unicité des solutions

glossaire Appellation commerciale Voir nom de marque.

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

EXERCICES - ANALYSE GÉNÉRALE

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Statistiques avec la graph 35+

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Aide-mémoire de statistique appliquée à la biologie

Mr le Depanneur. Le depanneur est un membre de la disposisition de secours financier Mr le Depanneur ayant un compte depanneur actif ou approuvé.

Pour l épreuve d algèbre, les calculatrices sont interdites.

OLYMPIADES ACADÉMIQUES DE MATHÉMATIQUES

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

Feuille d exercices 2 : Espaces probabilisés

Logistique, Transports

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

DUT Techniques de commercialisation Mathématiques et statistiques appliquées

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Introduction aux Statistiques et à l utilisation du logiciel R

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Représentation des Nombres

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Microsoft Excel : tables de données

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Statistiques descriptives

Continuité et dérivabilité d une fonction

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

1 Importer et modifier des données avec R Commander

P1 : Corrigés des exercices

Comprendre le financement des placements par emprunt. Prêts placement

Biostatistiques : Petits effectifs

Qu est-ce qu une probabilité?

Collecter des informations statistiques

Chapitre 10 Arithmétique réelle

Transcription:

Notes de cours LM347 : ANALYSE DE DONNÉES ET RÉGRESSION Arnak Dalalyan Université Paris 6 Résumé : Les séances 4 et 5 sont consacrées à l introduction aux méthodes élémentaires d analyse de données. Nous y décrirons notamment les bases de la statistique descriptive. La particularité de la statistique descriptive est qu elle peut être expliquée sans avoir recours à la notion de probabilité. L objectif de la statistique descriptive est de fournir des outils qui permettent résumer et visualiser les données. 1. Les données. Dans ce cours, on laissera délibérément de côté le problème de production de données et d échantillonnage. On considérera qu on dispose d un jeux de données et notre objectif sera le traitement de ces données. 1.1. Définition des variables. Toute caractériqtique d une personne ou d une chose qui peut être exprimée par un nombre est appelée variable. La valeur de la variable est le nombre réel qui décrit une personne ou une chose particulière. On désigne schématiquement deux types de variables : les variables quantitatives et les variables qualitatives également dites variables de catégories. Une variable quantitaive prend des valeurs numériques pour lesquelles les opérations arithmétiques telles que différences et moyennes ont un sens. Une variable qualitative est exprimée sous forme de catégories désignées ellesmêmes par des nombres. Ces nombres sont utilisés uniquement pour des raisons de facilité informatique (codage d une variable qualitative). Aucune opération arithmétique du type de celles qui sont possibles pour les variables quantitatives n est possible. Les valeurs prises par une variable qualitatives s appellent des catégories ou des modalités. 1.2. Définition des individus. Il faut définir sur qui ou sur quoi les variables seront observées. Les personnes ou les choses sur lesquelles les variables sont observées s appellent individus ou entités. Définir des entités consiste à définir une population de référence. 1

2 DALALYAN, ARNAK Exemple 1. On considère les cours des actions à la clôture de la bourse de Paris, ainsi que le volume journalier des actions échangées. Dans cet exemple, si l on fixe un jour J et on considère les cours des actions et les volumes échangés correspondant à ce jour J, la population de référence est l ensemble des actions cotées sur la bourse de Paris et chaque individu représente une action. Le cours d une action le jour J est une variable quantitative. Par exemple, on peut très bien calculer la moyenne sur tous les individus (les actions) des cours à la clôture. Pour cette population de référence, on peut également s intéresser à la variable secteur d activité. Cette variable dont les valeurs possibles sont secteur bancaire, énergie, services,..., qu on peut coder par des nombres entiers 1,2,3,... On obtient ainsi une variable qualitative. Exemple 2. Soit la population de référence l ensemble de joueurs de football qui evoluent en Ligue 1. Le salaire mensuel d un footballeur, le numéro porté par un footbolleur, la nationalité d un footballeur sont des exemples de variables définies sur cette population. Le salaire mensuel est une variable quantitative, alors que le numéro de maillot et la nationalité sont des variables qualitatives. 2. L analyse d une variable quantitative. On décrira dans cette partie les indicateurs numériques caractéristiques d une variable quantitative, qui représentent la position, la dispersion et la forme de la répartition de la variable étudiée. On donnera aussi la définition de quelques méthodes de visualisation de la répartition d une telle variable. Afin de définir les différentes quantités liées à une variable quantitative, on procède de la façon suivante. Etant donné n valeurs x 1,...,x n d une variable quantitative x, on définit une variable aléatoire Z qui prend chacune des valeurs x i avec une probabilité 1/n. Contrairement aux apparences, cette variable Z n est pas nécessairement une variable discrète de la loi uniforme sur l ensemble E = {x 1,x 2,...,x n }. En effet, la probabilité que Z prend la valeur x i est égale à la multiplicité de x i dans la suite x 1,...,x n divisée par n. Par exemple, si les valeurs observées sont 1 3 2 3 2 3 1 4, (2.1) alors la variable aléatoire Z prend les valeurs 1,2,3,4 avec des probabilités respectives 2 8, 2 8, 3 8 et 1 8.

ANALYSE DES DONNÉES 3 2.1. Indicateurs de position. Les deux indicateurs de position les plus utilisés sont la moyenne x et la médiane M. Elles sont définies comme l espérance et la médiane de la variable aléatoire Z. Par exemple, si l on a observé les valeurs données dans (2.1), alors x = 1 2 8 + 2 2 8 + 3 3 8 + 4 1 8 = 19 8 = 2.375, et n importe quelle valeur comprise entre 2 et 3 peut être considérée comme la médiane. Par convention, lorsque la médiane n est pas uniquement définie, on la définit comme le centre de l intervalle de ses valeurs possibles. Dans l exemple donné ci-dessus, on a donc M = 2.5. Alors que la moyenne a l aventage d être uniqement définie, la médiane constitue un indicateur plus stable par rapport aux observations atypiques que la moyenne. Par exemple, si en saisissant les notes (sur 20 points) de 30 étudiants dans un fichier on se trompe sur une note en tapant 166 au lieu de 16, cela va augmenter la moyenne de 5 points, alors que la médiane rstera quasiment inchangée. 2.2. Indicateurs de dispersion. Les deux indicateurs les plus utilisés sont l écart-type et l écart interquartile. L écart-type, noté s, est défini comme la racine carrée de la variance de la variable Z. Cela équivaut à s 2 = 1 n (x i x) 2 = E[(Z E[Z]) 2 ]. n i=1 On dit alors que s 2 est la variance. Dans certains ouvrages, la division se fait non pas par n, mais par (n 1). Pour les grandes valeurs de n cela affecte peu la valeur de l écart-type. La raison de division par (n 1) vient de la statistique inférentielle et sera donnée plus tard. Soient Q 1 et Q 3 le premier et le troisième quartiles de la variable aléatoire Z. On appelle alors écart interquartile des observations x 1,...,x n la valeur E Q = Q 3 Q 1. Dans le cas où les quartiles ne sont pas uniquement définis, on applique la même règle que pour la médiane : on choisit le centre de l intervalle de toutes les valeurs possibles. Par exemple, pour les observations (2.1), l ensemble de valeurs possibles pour Q 1 est l intervalle [1,2]. On pose donc Q 1 = 1.5. En revanche, le troisième quartile est défini de façon unique : Q 3 = 3. Par conséquent, l écart interquartile est E Q = 3 1.5 = 1.5.

4 DALALYAN, ARNAK 2.3. Indicateurs de forme. Les deux indicateurs de forme les plus fréquemment utilisés sont le coefficient d asymétrie et le coefficient d aplatissement. Le coefficient d asymétrie, noté α, est défini par α = E[(Z E[Z])3 ] s 3 et mesure le degré d asymétrie par rapport à la moyenne de la répartition des observations. Si les observations sont reparties de façon symétrique à droite et à gauche de la moyenne, alors α = 0. Si α > 0, alors on parle d une asymétrie à droite signifiant que les valeurs observées qui sont supérieures à la moyenne pèsent plus lourd que les valeurs qui sont inférieures à la moyenne. Le coefficient d aplatissement, quant à lui, est défini par β = E[(Z E[Z])4 ] s 4 3. Il sert à comparer les queues de la repartition des observations à celles d une loi gaussienne. L idée de base est que si l on observe n réalisations indépendantes d une variable gaussienne, alors β 0 lorsque n tend vers l infini. L utilisation des coefficients d asymétrie et d applatissement n est recommandée que si le nombre d observations est élevé (n 100, par exemple). 2.4. Analyse graphique : histogramme et boîte à moustaches. La boîte à moustaches, appelé également diagramme en boîte, est un moyen rapide de figurer le profil essentiel d une variable quantitative. Elle a été inventée en 1977 par John Tukey, mais peut faire l objet de certains aménagements selon les utilisateurs. La construction de la boîte à moustache est basé sur le calcul de 5 caractéristiques numériques : la médiane M, les quartiles Q 1 et Q 2, ainsi que les deux extrémités des moustaches défini : A = min i:x i Q 1 1.5E Q x i, B = max i:x i Q 3 +1.5E Q x i. Toutes les valeurs x i qui se trouvent à l extérieur de l intervalle [A,B] sont considérées comme des observations atypiques ou aberrantes. Ayant calculé ces 5 quantités, la boîte à moustache prend la forme : A Q 1 M Q 3 B

Dans ce dessin, il n y a pas de valeur atypique. ANALYSE DES DONNÉES 5 L histogramme, quant à lui, est un outil graphique qui donne une information plus complète sur la forme de la repartition de la variable quantitative. Pour le construire, on choisit d abord un nombre de N de classes et on partitionne l intervalle [min i x i,max i x i ] en N intervalles de longueurs égales. On dessine ensuite, sur chaque intervalle de la partition, un rectangle dont la hauteur est égale au pourcentage des observations contenues dans l intervalle en question. On obtient un graphique de la forme : 0.0 0.4 0.8 0.0 0.5 1.0 1.5 2.0 Pour l exemple des observations données en (2.1), on obtient la boîte à moustaches et l histogramme suivants : 0.0 0.4 1.0 1.5 2.0 2.5 3.0 3.5 4.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 3. L analyse d une variable qualitative. Les deux outils graphiques les plus utilisés pour analyser une variable qualitative sont les diagrammes en bâtons et les diagrammes circulaires dits en camembert. Pour les construire, il faut calculé le pourcentage (la fréquance) de chaque modalité. Par exemple, si en choisissant 10 personnes au hazard dans la rue on tombe sur 7 blonds et 3 bruns, alors les deux diagrammes seront : Diagramme en bâton Diagramme circulaire 0 2 4 6 brun blond blond brun

6 DALALYAN, ARNAK 4. L analyse de deux variables. On suppose maintenant qu on dispose de deux séries statistiques x 1,...,x n et y 1,...,y n correspondantes à deux variables X et Y observées sur n individus. Pour analyser des deux variables, on distingera trois cas selon la nature des variables à analyser : deux variables quantitatives, une variable quantitative et une variable qualitative, deux variables qualitatives. On se concentrera exclusivement sur les deux premiers cas. 4.1. Deux variables quantitatives. L outil le plus complet permettant de visualiser les observations de deux variables quantitatives est le nuage de points. Il s agit de dessiner dans un repère orthogonal tous les points P i ayant pour coordonnées x i et y i. Par exemple, pour les données i 1 2 3 4 5 6 7 8 9 10 x 22 22 22 23 23 24 24 25 25 25 y 12.6 12 13.5 12.2 12 13.3 12.6 13.5 13.2 13.4 (4.1) où x i représente l âge et y i le logarithme des revenus d une personne, on otient le nuage de points suivant : 14.5 Nuage de points 14 13.5 13 y 12.5 12 11.5 11 20 21 22 23 24 25 26 27 x Si il y a des points multiples ((x i,y i ) = (x j,y j ) pour i j), on écrit la multiplicité de chaque observation à côté du point représentant cette observation. Dans le cas de deux variables quantitatives, on s intéresse également à la droite de régression de y sur x. C est la droite D qui minimise la somme des carrés des distances verticales entre les points du nuage et la droite D. Autrement dit, les coefficient (a,b) de l équation y = ax + b de la droite de régression de y sur x sont définis par (a,b) = arg min a,b n ( yi (ax i + b) ) 2. i=1

ANALYSE DES DONNÉES 7 On vérifie facilement que cette droite D passe par l isobarycentre des points P i et les coefficients a et b de D sont donnés par où s xy = 1 n x i y i xȳ, n i=1 a = s xy s 2, b = ȳ a x, x s 2 x = 1 n (x i x) 2. n i=1 Il n est pas inutile de souligner que, en général, la droite de régression de y sur x ne coïncide pas avec la droite de régression de x sur y. Afin d éviter toute confusion, on écrira D y x pour la droite de régression de y sur x et D x y pour la droite de régression de x sur y. La droite de régression pour l exemple (4.1) est la suivante : 14.5 14 Nuage de points D x y 13.5 D y x 13 y 12.5 12 11.5 11 20 21 22 23 24 25 26 27 x Le point rouge (l intersection des deux droites) correspond au isobarycentre des points P i. 4.2. Une variable quantitative et une variable qualitative. La façon la plus pratique de visualiser les données d une variable quantitative et d une variable qualitative est de dessiner les boîtes à moustache parallèles. Supposons que la variable X est quantitative alors que Y est qualitative. Soit M 1,..., M k les modalités de Y. On partitionne alors les données x 1,...,x n en k classes dont chacune correspond à une modalité de Y ; si pour un indice i la valeur y i est égale à M 1 alors x i sera dans la première classe, si y i vaut M 2 alors x i sera dans la deuxième classe, etc. Ensuite, on dessine sur le même repère les boîtes à moustaches des x i pour chacune des k classes.

8 DALALYAN, ARNAK Considérons l exemple suivant. Pour 20 étudiants, on a enregistré le sexe et la note obtenue (sur 20 points) à une épreuve écrite. On a obtenu le tableau suivant : i 1 2 3 4 5 6 7 8 9 10 Note 11 12 5 8 15 14 4 18 17 2 Sexe F F M F F F F M M M i 11 12 13 14 15 16 17 18 19 20 Note 7 13 12 11 9 10 16 5 10 9 Sexe M M F F F M M F F M (4.2) Si l on trie ces résultats par sexe, on obtient les deux classes : C F = (11,12,8, 15,14,4,12,11,9,5,10) et C M = (5,18,17,2,7,13,10,16, 9). On obtient donc les boîtes à moustaches suivantes : 2 4 5 6 8 10 12 14 15 16 18 F M On peut en déduire que les notes des garçons sont plus dispersées que celles des filles, la médiane de la note des filles est légèrement supérieure à celle des garçons, ce qui veut dire que les filles ont globalement un peu mieux réussi que les garçons, les meilleures notes sont quand-même obtenues par les garçons, plus de la moitié des filles ont eu une note comprise entre 8 et 12, à peu près 50 pourcent des garçons ont eu une note inférieure à 10. Bibliographie. [1] Michel Jambu. Méthodes de base de l analyse des données. Editions Eyrolles, 1999. [2] Lebart, L., Marineau, A. et Piron, M. Statistique exploratoire multidimensionnelle. Dunod, 2eme édition, 1997.