Statistiques Descriptives



Documents pareils
Statistiques Descriptives à une dimension

Séries Statistiques Simples

Chapitre 3. Les distributions à deux variables

Statistique Descriptive Élémentaire

Statistique : Résumé de cours et méthodes

Annexe commune aux séries ES, L et S : boîtes et quantiles

Logiciel XLSTAT version rue Damrémont PARIS

1. Vocabulaire : Introduction au tableau élémentaire

Traitement des données avec Microsoft EXCEL 2010

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Représentation d une distribution

Statistiques descriptives

Lire ; Compter ; Tester... avec R

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

données en connaissance et en actions?

Résumé du Cours de Statistique Descriptive. Yves Tillé

La classification automatique de données quantitatives

Classe de première L

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

SERIE 1 Statistique descriptive - Graphiques

Introduction aux Statistiques et à l utilisation du logiciel R

Que faire lorsqu on considère plusieurs variables en même temps?

3. Caractéristiques et fonctions d une v.a.

1 Importer et modifier des données avec R Commander

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Introduction à l approche bootstrap

MATHÉMATIQUES. Mat-4104

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

IBM SPSS Statistics Base 20

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Leçon N 4 : Statistiques à deux variables

Introduction à la statistique descriptive

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Relation entre deux variables : estimation de la corrélation linéaire

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

TSTI 2D CH X : Exemples de lois à densité 1

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Lecture graphique. Table des matières

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Correction du baccalauréat STMG Polynésie 17 juin 2014

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

CAPTEURS - CHAINES DE MESURES

BACCALAURÉAT PROFESSIONNEL SUJET

Aide-mémoire de statistique appliquée à la biologie

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Programmation linéaire

Arbres binaires de décision

Théorie des sondages : cours 5

L analyse de la gestion de la clientèle

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

1 Modélisation d être mauvais payeur

Observatoire Economique et Statistique d Afrique Subsaharienne

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Statistiques 0,14 0,11

Évaluation de la régression bornée

23. Interprétation clinique des mesures de l effet traitement

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

INF6304 Interfaces Intelligentes

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Corefris RAPPORT ANNUEL Annexe 3 : La hausse des prix de l immobilier est-elle associée à une «bulle» de crédit en France?

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Optimiser ses graphiques avec R

Correction du bac blanc CFE Mercatique

Élément 424b Introduction à la statistique descriptive

TD1 Signaux, énergie et puissance, signaux aléatoires

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Collecter des informations statistiques

Définitions. Définitions sur le logement

FORMULAIRE DE STATISTIQUES

4. Résultats et discussion

IBM SPSS Direct Marketing 21

Les devoirs en Première STMG

Extraction d informations stratégiques par Analyse en Composantes Principales

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

Chapitre 3 : INFERENCE

SPHINX Logiciel de dépouillement d enquêtes

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Séance 0 : Linux + Octave : le compromis idéal

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

TSTT ACC OUTILS DE GESTION COMMERCIALE FICHE 1 : LES MARGES

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

- Ressources pour les classes

Transcription:

Statistiques Descriptives Serge Iovleff 5 avril 2007 Table des matières 1 Introduction 2 11 Qu est ce que les statistiques? 2 12 Recueil des données statistiques 2 121 Le recensement 2 122 Le plan d expérience 3 123 L exploitation des bases de données 3 13 Définitions 4 2 Statistiques descriptives univariés 5 21 Étude statistique d une variable qualitative 5 211 Distributions d effectifs et de fréquences 5 212 Représentations de la distribution 6 22 Étude statistique d une variable quantitative 7 221 Représentation de la distribution 7 222 Résumés statistiques de position : La moyenne et la médiane 9 223 Résumés statistiques de dispersion 12 3 Statistiques descriptives bivariés 13 31 Introduction 13 32 Étude statistique de deux variables qualitatives 14 321 Distributions marginales et conditionnelles 15 322 Indépendances de deux variables 15 33 Étude statistique d une variable qualitative et d une variable quantitative 16 34 Étude statistique de deux variables quantitatives 17 4 La régression linéaire 19 A Liste des variables pour les clientes d une société de VPC 22 B Programmes R 24 B1 Traitements univariés : Étude d une variable qualitative 24 B2 Traitements univariés : Étude d une variable quantitative 25 C Traitements bivariés 28 C1 Analyse de la variance 28 C2 Régression 29 1

1 Introduction 11 Qu est ce que les statistiques? Definition 1 On appelle Statistique Descriptive l ensemble des méthodes et techniques mathématiques permettant de présenter, décrire et résumer un ensemble de données Les méthodes utilisées en Statistique descriptive sont très vite limitées Definition 2 La Statistique Inférentielle est l ensemble des techniques visant à modéliser un ensemble de données en vue d une extrapolation éventuelle à un ensemble plus vaste La statistique inférentielle utilise de manière importante les probabilités Elle atteint ses limites lorsque l on est en présence d un trop grand nombre de données, ou en présence de données hétérogènes Definition 3 L apprentissage statistique est l ensemble des techniques visant à modéliser et à extraire automatiquement une connaissance d une grande base de données On atteint la frontière avec les méthodes utilisées en Intelligence Artificielle 12 Recueil des données statistiques 121 Le recensement Exemple 4 Pour étudier la répartition des terres agricoles d une région, on réalise le recensement des exploitations agricoles (soit n leur nombre) et on note pour chacune d elles un certains nombre de caractéristiques comme : leurs tailles, le type de cultures, l âge de l exploitant, Les résultats obtenus sont consignés dans un tableau : N Taille(ha) Âge (années) Culture Nbre d employés 1 50 50 blé 2 2 50,5 45 vigne 4 3 35 38 orge 3 630 10 57 vigne 1 Tab 1 Résultat du recensement des exploitations agricoles de la région A partir de cette table on pourra réaliser différentes études statistiques 2

122 Le plan d expérience Exemple 5 Pour étudier l effet d un antidépresseur, on administre en double aveugle un placebo et un principe actif On mesure à intervalle régulier l évolution de la maladie On cherche ensuite à en tirer des conclusions sur l efficacité du traitement Pour mesurer l efficacité du produit on demande aux patients de répondre à un questionnaire de ce type tous les mois pendant un an : 1 I say how bad or useless I am, for example, that I am a burden on others 2 I laugh or cry suddenly 3 I often moan and groan in pain or discomfort 4 I act nervous or restless 5 I keep rubbing or holding areas of my body that hurt or are uncomfortable 6 I talk about the future in a hopeless way 7 I get sudden frights Les résultats obtenus sont consignés dans un tableau : Visite Individu Rep1 Rep7 Groupe 1 1 0 1 2 1 2 0 0 1 1 175 1 0 1 2 1 1 1 2 2 2 0 0 1 2 175 1 0 1 12 1 1 1 2 12 2 0 0 1 12 175 1 0 1 Tab 2 Réponses de 175 personnes tous les mois pendant un an Cet exemple est particulier dans la mesure où les individus sont indexés par le temps : c est ce que l on appelle une série chronologique 123 L exploitation des bases de données Exemple 6 Un VPCiste possède environ 3 millions de clientes Pour chaque cliente il dispose d environ 3000 données En vue d avoir une profitabilité maximum, l envoi d une promotion est faite sur une partie de ces clientes L objectif est d identifier les clientes qui sont le plus susceptible d acheter Pour réaliser son objectif, la société doit pouvoir exploiter les bases de données internes et externes qui vont nous renseigner sur le comportement d achat des clientes Cela nécessite de stocker un maximum d information utile sur les clientes (comportements d achats passés, mode d achat, âge, boutiques d achats,) et éventuellement d avoir recours à des panèlistes (INSEE, SECODIP,) 3

Liste des variables Numcli numéro de client Dep département Com commune Reg Région Sig Signalétique Agepro Âge Probable RpQuEn Réponse à la question Avez vous des enfants? RpQuTr Réponse à la question Travaillez vous? Unitur Taille d unité urbaine Niveauvie Niveau de vie PROPRIÉTAIRES proportion de propriétaires de leur logement dans l iris STABILITE mesure du lien employeurs-employés dans l iris par type de contrat CONFORT mesure de l équipement en bien ou pièces de conforts des logements de l iris REVENU réalisé à partir des fichiers des impôts 13 Définitions Definition 7 Une population statistique est l ensemble sur lequel on effectue des observations Elle est bien spécifiée s il n y a pas d ambiguïté sur la définition de l ensemble Dans la partie Statistique Descriptive on appellera population l ensemble des individus effectivement étudiés, sans chercher à étendre les constatations faites à une population plus vaste, ce qui relève de la Statistique Inférentielle Dans les exemples précédents, les populations étaient : 1 L ensemble des exploitation agricole de la région, 2 L ensemble de personnes interrogées dans le cadre d un essai thérapeutique, 3 L ensemble des clientes d un VPCiste à un instant donné Definition 8 Les individus (ou unités statistiques) sont les éléments de la population statistique étudiée Pour chaque individu, on dispose d une ou plusieurs observations Dans les exemples précédents, les individus étaient : 1 Une exploitation agricole, 2 Un patient, 3 Une cliente Definition 9 Une variable statistique (ou caractère statistique) est ce qui est observé ou mesuré sur les individus d une population statistique Definition 10 Une variable est dite, selon le cas : 1 Quantitative : ses valeurs sont des nombres exprimant une quantité, sur lesquels les opérations arithmétiques (somme, etc) ont un sens La variable peut alors être discrète ou continue selon la nature de l ensemble des valeurs qu elle est susceptible de prendre (valeurs isolées ou intervalle de R) 2 Qualitative : ses valeurs sont des modalités, (ou catégories, ou caractères) exprimées sous forme littérale ou par un codage numérique sur lequel des opérations arithmétiques n ont aucun sens On distingue des variables qualitatives ordinales ou nominales, selon que les modalités peuvent être naturellement ordonnées ou pas 4

Une variable est dichotomique si elle n a que 2 modalités Fig 1 Résumé des différents types de variables 2 Statistiques descriptives univariés 21 Étude statistique d une variable qualitative 211 Distributions d effectifs et de fréquences En présence d une variable qualitative X pouvant prendre K modalités x 1, x 2,, x K, on commence par réaliser un tri à plat, c est à dire faire l inventaire des modalités ou valeurs rencontrées dans la série, avec les effectifs correspondants On construit donc un tableau de la forme : Modalités Effectifs x 1 n 1 x 1 n 2 x K Total n K Tab 3 Tri à plat (distribution d effectifs) n On parle alors de la distribution d effectifs de la variable X On calcule ensuite les proportions (ou fréquence) de chaque modalité en divisant l effectif de chaque modalité par l effectif total f k = n k n On résume cette distribution dans un tableau de la forme : 5

Modalités fréquences x 1 f 1 x 1 f 2 x K f K Total 1 Tab 4 Distribution de Fréquences Definition 11 Le mode de la variable X est la modalité ayant l effectif le plus important Par exemple, si on a un tableau de la forme Numéro de Cliente Signalétique 1 M 2 Mme 3 Mlle 627630 Mme Tab 5 Variable Signalétique On va par un tri à plat construire un tableau de la forme : Signalétique Nombre de Clientes Proportions M 60985 0,0972 Mme 424641 0,6766 Mlle 142004 0,2262 Total 627630 1 Tab 6 Distributions de la Variable Signalétique Le mode de la variable Signalétique est Mme 212 Représentations de la distribution Une variable qualitative peut se représenter à l aide de trois types de diagrammes : 1 Un diagramme rectangulaire 2 Un diagramme en camembert (ou semi-camembert) 3 Un diagramme en bâton Remarque 12 A lire dans la documentation en ligne de R : Pie charts are a very bad way of displaying information The eye is good at judging linear measures and bad at judging relative areas A bar chart or dot chart is a preferable way of displaying this type of data En présence d une variable ordinale il est impératif de respecter l ordre naturel des modalités 6

Fig 2 Distribution de la taille des habits achetés par les clientes 22 Étude statistique d une variable quantitative Soit X une variable quantitative observée sur une population P de taille n Le but d une étude de statistique descriptive de cette variable est : de visualiser à l aide de graphique la distribution de cette variable, les principales représentations utilisées sont : 1 l histogramme en bâton si la variable est discrète 2 l histogramme des densités si la distribution est continue 3 la courbe des fréquences cumulées (ou des effectifs cumulés) 4 les boîtes à moustache de résumer la distribution de cette variable à l aide de quelques Statistiques, les principales statistiques sont : 1 des statistiques de positions comme la moyenne et la médiane 2 des statistiques de dispersions comme la variance ou l intervalle inter-quartile 3 des statistiques de formes comme le kurtosis et le skewness 4 des découpages de la distribution de la variable en quantités d intérêt comme les quartiles, les déciles, les percentiles, et d une manière générale les fractiles 221 Représentation de la distribution L histogramme en bâtons On considère une variable X quantitative discrète qui prend un nombre fini de valeurs {x 1, x 2,, x K } On dispose pour chacune de ces valeurs de l effectif correspondant {n 1, n 2,, n K } Exemple 13 On s intéresse au nombre d enfants des clientes d un VPCiste et on a un tableau de la forme : Nombre d enfants 0 1 2 3 4 5 6 Nombre de Clientes 81023 123050 110532 76298 42087 10965 782 Tab 7 Distribution d effectif des clientes pour la variable Nombre d enfants 7

Fig 3 Un exemple d histogramme en bâton L histogramme des densités La variable est continue et prend ses valeurs dans un intervalle [l, L[ On va chercher à regrouper les valeurs proches, en découpant l intervalle des valeurs en classes contiguës, de la forme : [l 0 ; l 1 [, [l 1 ; l 2 [, [l 2 ; l 3 [, [l K 1 ; l K [ On appelle ce découpage, et on note n1, n2,, n K les effectifs associés On calcule pour chaque intervalle, la fréquence associée puis la densité de fréquence On résume les calculs dans un tableau de la forme : No k Intervalles [l k 1, l k [ Amplitudes a k Effectifs n k Fréquences f k Densités de fréquence d k 1 [l 0, l 1 [ a 1 n 1 f 1 d 1 k [l k 1, l k [ a k n k f k d k K [l K 1, l K [ a K n K f K d K L amplitude de l intervalle k est donnée par a k = l k l k 1, la fréquence des individus dans l intervalle k est donnée par f k = n k n, finalement la densité de fréquence dans l intervalle k est donnée par d k = f k a k Definition 14 L histogramme des fréquences associée au découpage est le graphe de la fonction f constante par morceau sur R définie par 0 si x < l 0 f (x) = d k si x [l k 1 ; l k [ 0 si x l k Proposition 15 La fonction f vérifie lk l k 1 f (x)dx = f k et + f (x)dx = 1 8

Exemple 16 On s intéresse au montant des achats des clientes au cours de l année : NO k Courbes des fréquences cumulées Intervalles [l k 1, l k [ Amplitudes a k Effectifs (en millier ) n k 1 [0, 20[ 10 71 2 [20, 50[ 30 80 3 [50, 80[ 30 112 4 [80, 100[ 20 123 5 [100, 150[ 50 132 6 [150, 300[ 150 96 7 [300, 500[ 200 40 8 [500, 1000[ 500 2 9 [1000, 2000[ 1000 0, 1 Definition 17 Si X est une variable quantitative discrète, la courbe des fréquences cumulées est la fonction F constante par morceau sur R définie par 0 si x < x 0 F (x) = F k 1 si x [x k 1 ; x k [ 1 si x x K avec F k = k l=1 f l Si X est une variable quantitative continue, la courbe des fréquences cumulées associée au découpage est la fonction F linéaire par morceau sur R définie par 0 si x < l 0 F (x) = F k 1 + (x l k 1 ) F k F k 1 l k l k 1 si x [l k 1 ; l k [ 1 si x l k avec F k = k l=0 f l Proposition 18 On a F (x) = x f (t)dt 222 Résumés statistiques de position : La moyenne et la médiane Calcul de la moyenne sur la série brute La moyenne est le résumé statistique le plus souvent utilisé pour caractériser la position de la variable X On la note m(x) où X La médiane est aussi très souvent utilisée, on la note M(X) Pour calculer la moyenne, on fait la somme des valeurs observées et on divise par l effectif total : m(x) = 1 n Exemple 19 Par exemple, si on a un tableau de la forme n i=1 X i 9

Numéro de Cliente CA (en euros) 1 0,00 2 50,40 3 10,00 627630 10,70 Total 20 460 738,00 Tab 8 Variable CA On trouve que le chiffre d affaire moyen par cliente est de : m(ca) = 20460738 627630 = 32, 6 Calcul de la moyenne dans le cas de regroupement d effectifs On a un tableau de la forme : NO k Intervalles (cas continu) [l k 1, l k [ Valeur (ou milieu) x k Effectifs n k Fréquences f k 1 [l 0, l 1 [ x 1 n 1 f 1 k [l k 1, l k [ x k n k f k K [l K 1, l K [ x K n K f K Dans ce cas on effectue une moyenne pondérée par les effectifs : m(x) = 1 n K K n k x k = f k x k k=1 k=1 Proposition 20 Soit X une variable statistique et soient a et b deux nombres réels Considérons la nouvelle variable Z = ax + b, on a alors m(z) = m(ax + b) = am(x) + b On peut utiliser cette proposition pour calculer la moyenne de X en utilisant un changement de variable Cela permet de simplifier les calculs Calcul de la médiane sur la série brute Pour calculer la Médiane, on commence par ordonner les valeurs prises par la variable statistique On note X (1) la première valeur, X (2) la deuxième valeur,, X (n) la plus grande valeur On a donc : X (1) X (2) X (n) On pose ensuite X ( n+1 2 ) si n est impair M(X) = X ( n 2 ) +X ( n 2 +1 ) 2 si n est pair 10

Exemple 21 Si on réordonne les clientes par CA, on aura un tableau de la forme Rang de la cliente Numéro de Cliente CA (en euros) 1 1 0,00 2 126 0,00 3 260 0,00 313815 42004 40,70 313816 4816 41,00 627630 608524 6275,70 Total 20 460 738,00 Tab 9 Variable CA On trouve que le chiffre d affaire médian des clientes est de : Les fractiles M(CA) = 40, 70 + 41, 00 2 = 40, 85 Definition 22 On appelle fractiles d ordre k les valeurs G 1, G 2,, G k 1 qui divisent la série en k parties d effectifs égaux Par exemple les quartiles Q 1, Q 2, Q 3 divisent la série statistique ordonnée en 4 parties d effectifs égaux Les déciles, D 1, D 2,, D 9 divisent la série ordonnée en dix parties d effectifs égaux Sur la série brute, les fractiles se déterminent en ordonnant les valeurs et en faisant des paquets égaux en effectifs Calcul de la médiane (et des fractiles) à l aide de la courbe des fréquences cumulées On ne traite que le cas de la médiane, les autres fractiles se traitent de manière similaire On cherche le nombre M tel que F (M) = 0, 5 On commence par déterminer l intervalle [l k 1, l k [ tel que F k 1 0, 5 < F k Si F k 1 = 0, 5 alors M = l k 1, sinon M est une nombre dans l intervalle ]l k 1, l k [ à déterminer par interpolation linéaire Fig 4 Calcul de la médiane 11

D après la définition 17, on doit résoudre en M l équation 0, 5 = F k 1 + (M l k 1 ) F k F k 1 l k l k 1 M l k 1 0, 5 F k 1 = C est un rapport d accroissement On en déduit que l k l k 1 F k F k 1 M = l k 1 + (0, 5 F k 1 ) l k l k 1 F k F k 1 223 Résumés statistiques de dispersion La moyenne et la médiane sont des valeurs autour desquelles les observations sont réparties On cherche désormais à quantifier la dispersion des mesures autour de ces valeurs centrales Fig 5 Deux distributions également positionnées mais plus ou moins dispersées Les statistiques utilisées sont 1 L étendue E = X max X min, cette mesure est peu pratique et très sensible aux valeurs extrêmes de la série (erreurs de saisie,) 2 L intervalle interquartile Q 3 Q 1 3 L écart absolu moyen 1/n n i=1 X i X mais il est peu utilisé car il se prête mal au calcul 4 La variance est la statistique la plus utilisée, elle est définie comme la moyenne des carrés des écarts à la moyenne Pour une série brute V (X) = 1 n (X i m(x)) 2 n et lorsque l on a des effectifs regroupés : V (X) = 1 n i=1 K n k (x k m(x)) 2 L écart-type est défini comme la racine carrée de la variance s(x) = V (X) k=1 12

Propriétés de la Variance Proposition 23 Soit X une variable statistique 1 On a V (X) 0 et V (X) = 0 ssi X i = c pour tout i 2 On a V (X) = m(x 2 ) m(x) 2, c est à dire que la variance est la moyenne de la variable X 2 moins la moyenne de X élevée au carré 3 Pour tous réels a et b, V (ax + b) = a 2 V (X) et s(ax + b) = as(x) 4 Pour toute population de moyenne m et d écart-type s, la proportion d individus appartenant à des intervalles de la forme [m ks; m + ks] est supérieure ou égale à 1 1/k 2, pour tout k > 1 (inégalité de Bienaymé-Tchébichev) Les boîtes à moustaches La boîte à moustache (le box-plot) est un graphique qui permet de visualiser la distribution d une variable X On la construit de la manière suivante : 1 On trace une boîte de longueur Q 3 Q 1 2 On partage la boîte par un trait à la position M 3 on trace la moustache de gauche de longueur min(q 1 X min, 1, 5 (Q 3 Q 1 )) 4 on trace la moustache de droite de longueur min(x max Q 3, 1, 5 (Q 3 Q 1 )) 5 Si certains individus sont en dehors des moustaches, on les représente par des 3 Statistiques descriptives bivariés 31 Introduction A la suite d une étude statistique, on a étudié un certain nombre de variables, par exemple : 1 le nombre d enfant par cliente, 2 le montant des achats sur l année dépensé par cliente, 3 les types des produits les plus achetés par les clientes, 4 Mais ceci ne nous permet pas de mettre en évidence les liens existant peut être entre l âge et les produits achetés : les clientes jeunes achètent elles les mêmes produits que leurs aînées? le type de produit acheté est-il le même quelle que soit le nombre d enfant de la cliente? Le montant moyen dépensé par une cliente est-il fonction de sa CSP? On a jusqu à maintenant fait de la statistique descriptive univariée, c est-à-dire de la description d une série statistique selon une seule variable (l âge par exemple) En plus de l étude séparée de chaque variable, on veut visualiser, et mesurer le cas échéant, les liens existant entre les variables prises deux à deux : c est l objet de la statistique descriptive bivariée Ceci se fera, comme précédemment, au moyen de tableaux, graphiques, et calcul de paramètres-clés On traitera donc maintenant du cas où l on dispose de deux variables, X et Y, observées sur les mêmes n individus Chacune des deux variables pouvant être qualitative, quantitative discrète, quantitative continue, on envisagera chaque cas de figure 13

32 Étude statistique de deux variables qualitatives X est une variable qualitative pouvant prendre K modalités x 1,, x K et Y est une variable qualitative pouvant prendre L modalités y 1,, y L On construit le tableau de contingence : X \ Y y 1 y l y L Total x 1 n 11 n 1l n 1L n 1 x k n k1 n kl n kl n k x K n K1 n Kl n KL n K Total n 1 n l n L n = n qui représente la distribution d effectif du couple de variable (X, Y ) Par définition n k = n l = L l=1 n kl K n kl Exemple 24 On a une variable binaire qui prend la valeur 1 si la cliente achète du haut de gamme et 0 sinon, et une variable binaire qui prend la valeur 1 si la cliente fait ses achats par internet 0, sinon Lorsque l on croise ses deux variables, on obtient un tableau de la forme : k=1 Haut de Gamme \ Internet Faux Vrai Total Vrai 52482 126214 178696 Faux 154852 205007 359859 Total 207334 331221 538555 Tab 10 Les clientes qui achètent par internet achètent elles plus facilement du haut de gamme? La distribution de fréquence du couple de variable (X, Y ) est résumée dans un tableau similaire : Exemple 25 On obtient un tableau de la forme : X \ Y y 1 y l y L Total x 1 f 11 f 1l f 1L f 1 x k f k1 f kl f kl f k x K f K1 f Kl f KL f K Total f 1 f l f L f = 1 Haut de Gamme \ Internet Faux Vrai Total Vrai 0,097 0,234 0,331 Faux 0,287 0,382 0,669 Total 0,384 0,616 1,000 Tab 11 Les clientes qui achètent par internet achètent elles plus facilement du haut de gamme? (suite) 14

321 Distributions marginales et conditionnelles Definition 26 On appelle distribution marginale des fréquences (des effectifs) la distribution des fréquences (effectifs) obtenue dans la marge d un tableau de contingence, en ajoutant les fréquences (effectifs) ligne par ligne, ou colonne par colonne La distribution conditionnelle de la variable Y, pour X = x k fixé, est la distribution statistique des valeurs de Y obtenue en se limitant aux individus pour lesquels X est égal à x k La distribution conditionnelle de Y sachant X = x k s obtient en calculant les quantités : f kl = n kl/n f k n k /n = n kl n k La distribution conditionnelle de X sachant Y = y l s obtient en calculant les quantités : f kl f l = n kl/n n l /n = n kl n l Exemple 27 On obtient les distributions conditionnelles du Haut de Gamme sachant Internet suivantes : Haut de Gamme \ Internet Faux Vrai Vrai 0,25 0,38 Faux 0,75 0,62 Total 1,00 1,00 Tab 12 Les clientes qui achètent par internet achètent elles plus facilement du haut de gamme? (suite) On observe sur cet exemple que parmi les acheteuses sur internet, une proportion plus importante achète du haut de gamme Il semble qu il existe une liaison entre ces deux variables 322 Indépendances de deux variables Notion d indépendance Definition 28 Deux variables statistiques X et Y sont dites indépendantes si la distribution conditionnelle de Y, pour tout x, est constante (c est-à-dire ne dépend pas de x) Cela signifie que les lignes du tableau de contingence sont proportionnelles, ou de façon équivalente que les colonnes du tableau de contingence sont proportionnelles, et donc que la distribution conditionnelle de X, pour tout y, est constante Remarque 29 Cette définition n est (presque) jamais vérifiée En pratique, il faut vérifier que les lignes (ou les colonnes) sont presque proportionnelles Le critère du χ 2 Definition 30 On appelle fréquences et effectifs théoriques sous l hypothèse d indépendance du couple de variable X et Y les quantités : ˆf kl = f k f l et ˆn kl = n ˆf kl = n kn l n Le critère du χ 2 permet de tester l indépendance entre deux variables en mesurant la distance entre la distribution observée et la distribution théorique K L χ 2 (n kl ˆn kl ) 2 = k=1 l=1 ˆn kl = n K L k=1 l=1 (f kl ˆf kl ) 2 ˆf kl 15

En première approximation, on considérera que les variables X et Y ne sont pas indépendantes si χ 2 p + 2 2p où p = (K 1)(L 1) est le nombre de degré de liberté Un critère plus précis sera construit en statistique inférentielle 33 Étude statistique d une variable qualitative et d une variable quantitative Soient Y une variable quantitative et soit X une variable qualitative de modalités x 1,, x K On note I l ensemble des individus {1,, n} La variable X induit une partition de cet ensemble en K sous-ensembles I 1,, I K vérifiant K I k = I, et I k I l = si k l k=1 de plus on a Card(I k ) = n k et donc n 1 + + n k + + n K = n On parlera alors de sous-population Exemple 31 Le montant moyen d achat réalisé (en euros) a été relevé parmi trois groupes de clients classés suivant les critères FID, (fidèle), OCC (Occasionnel) NOU (Nouvelle) FID 79 62 78 81 75 87 71 85 75 91 No 1 2 3 4 5 6 7 8 9 10 OCC 51 88 58 57 59 69 51 71 38 No 17 18 19 20 21 22 23 24 25 NOU 52 51 44 37 79 36 No 11 12 13 14 15 16 Moyennes et Variances conditionnelles Definition 32 Pour k = 1,, K, on définit la moyenne conditionnelle de Y sachant que X = x k par : m(y X = x k ) = Ȳk = 1 n k i I k Y i et la variance conditionnelle de Y sachant que X = x k par V (Y X = x k ) = s 2 k = 1 (Y i n Ȳk) 2 = 1 Yi 2 k n Ȳ k 2 k i I k i I k Les sommes sont faites sur les n k individus qui ont pris la modalité x k Formule de décomposition de la variance On résume les moments conditionnels dans le tableau suivant : Populations Effectifs Moyennes Variances conditionnelles conditionnelles 1 n 1 m(y X = x 1 ) V (X X = x 1 ) 2 n 2 m(y X = x 2 ) V (X X = x 2 ) K n K m(y X = x K ) V (X X = x K ) 16

Proposition 33 La moyenne générale de Y est égale à la moyenne des moyennes : m(y ) = 1 n K n k m(y X = x k ) Definition 34 On appelle Variance Intra-Classe la moyenne des variances V intra (Y ) = 1 n k=1 K n k V (Y X = x k ) = 1 n k=1 et on appelle Variance Inter-Class la variance des moyennes V inter (Y ) = 1 n K n k (Ȳk Ȳ )2 = 1 n k=1 K k=1 K n k s 2 k k=1 n k Ȳ 2 k Ȳ 2 Proposition 35 La variance de la variable Y se décompose sous la forme V (Y ) = V intra (Y ) + V inter (Y ) L analyse de la variance Cette technique a été développée au début du siècle par l agronome Fischer On veut mesurer l effet d un facteur sur une variable d intérêt Voici des exemples : 1 On épand des niveaux d engrais {faible, moyen, fort} (variable X) sur des parcelles de blé et on relève le rendement à l hectare (variable Y ) 2 On nourrit des rats avec trois sources de protéines {boeuf, porc, soja} (variable X) et on relève la prise de poids au bout d un mois (variable Y ) 3 On soumet à un groupe de patient un placebo ou un principe actif (variable X) et on étudie l évolution de leur maladie (variable Y ) Un critère pour mesurer l effet de ce facteur est de calculer la variance intra-classe et la variance inter-classe et de faire le rapport : e 2 = V inter(y ) V (Y ) Plus e 2 est grand et plus cela indique qu il y a un effet facteur 34 Étude statistique de deux variables quantitatives Représentation graphique Pour représenter deux variables quantitatives, on trace un nuage de points 17

Fig 6 Représentation de la taille et du poids par un nuage de point Le point de coordonnée (m(x), m(y )) est appelé le centre de gravité du nuage Mesures de liaison linéaire : La Covariance et la Corrélation Definition 36 On appelle Covariance des variables X et Y et on note Cov(X, Y ) la quantité : Cov(X, Y ) = 1 n n (X i m(x))(y i m(y )) On appelle Corrélation des variables X et Y et on note r(x, Y ) la quantité : i=1 r(x, Y ) = Cov(X, Y ) V (X)V (Y ) Proposition 37 Soient X et Y, Z trois variables et soient a, b, c, d 4 nombres réels, la covariance vérifie : 1 Cov(aX + b, cy + d) = accov(x, Y ) 2 Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z) 3 Cov(X, Y ) = m(xy ) m(x)m(y ), en particulier en prenant X = Y, V (X) = Cov(X, X) Le coefficient de corrélation vérifie 1 r(x, Y ) 1 de plus r(x, Y ) = ±1 ssi les points (X i, Y i ) sont alignés sur une droite La variance vérifie V (X + Y ) = V (x) + V (Y ) + 2Cov(X, Y ) Quelques exemples de nuages de points : 18

D autres exemples de nuages de points : Fig 7 Coefficients de corrélations importants Fig 8 Coefficients de corrélations faibles Remarque 38 Ce n est pas parce que le coefficient de corrélation est proche de 0, qu il n existe pas de relations entre les variables Il peut exister une relation qui n est pas linéaire Remarque 39 Ce n est pas parce que le coefficient de corrélation est proche de 1, qu il existe une relation entre les variables!!! Par exemple si on relève au cours des années écoulées les effectifs de l enseignement supérieur (X) et le nombre de chômeurs au Canada (Y ) on trouve un coefficient de corrélation r = 0, 94 En fait ces deux variables ont augmenté en même temps 4 La régression linéaire Introduction Relations fonctionnelles et tendancielles Un physicien mesure à différents moments : la température la longueur d une barre métallique 19

Des ingénieurs, procédant à l étude d un nouveau système de freinage sur un véhicule, mesurent au cours de plusieurs essais : la vitesse du véhicule la distance parcourue en ligne droite avant l arrêt Un médecin scolaire note pour chaque enfant : sa taille son poids Un économiste rassemble pour plusieurs pays, à une date donnée, les informations suivantes : le nombre d habitants le produit national brut (PNB) Un comptable, étudiant l évolution des comptes d une entreprise note sur plusieurs années : l année étudiée le chiffre d affaires réalisé cette année là Relation Fonctionnelle et corrélations linéaires (a) (b) (c) Fig 9 (a) Température (X) et Longueur (Y ), (b) Taille (X) et Poids (Y ), (c) PNB (Y ) et Nombre d habitants (X) en Europe Le premier graphique représente une relation fonctionnelle, c est à dire que à chaque valeur de la variable X est associée une valeur et une seule de la variable Y Les deux autres graphiques représentent des cas de corrélation linéaire entre deux variables Dans ce cas on dira que Y a tendance à croitre (ou à décroître) lorsque X croit Absence de relation 20

(d) (e) Fig 10 (d) Balance des paiements (X), taux de change (Y ), (e) Effectifs du secteur privé en Lozère (Y ), Dates (X) Définition de la droite des moindres carrés On cherche à exprimer la relation entre deux variables X et Y : X est appelée la variable indépendante ou explicative Les valeurs de X sont fixées par l expérimentateur ou connues sans erreur (exemple : concentrations d un produit à doser, dates, ) Y est la variable dépendante ou expliquée (exemple : réponse de l analyseur) Les valeurs de Y peuvent être déterminées à partir de la variable X à une erreur près L un des buts de la régression sera précisément d estimer cette erreur On va chercher une relation de la forme : Y = ax + b + E (1) C est l équation d une droite, d où le terme de régression linéaire, plus un terme d erreur Solution de la droite des moindres carrés La méthode des moindres carrés consiste à chercher les valeurs des paramètres a et b qui rendent la somme des carrés des erreurs résiduelles minimale min a,b n e 2 i = i=1 n (y i ax i b) 2 Proposition 40 Si V ar(x) 0 alors la droite des moindres carrés a pour coefficient directeur i=1 â = Cov(X, Y ) V ar(x) (2) et pour constante ˆb = m(y ) âm(x) (3) Propriétés de la droite des moindres carrés Proposition 41 La droite des moindres carrés passent par le centre de gravité du nuage (m(y ), m(x)) 21

la variable E est centrée (m(e) = 0) La variable Ŷ = âx + ˆb s appelle la valeur prédite par le modèle et on a la formule de décomposition de la variance : V ar(y ) = V ar(ŷ ) + V ar(e), ce qui se lit variance totale = variance expliquée + variance résiduelle On appelle R 2 la part de variance expliquée : C est un indicateur de la qualité de la régression R 2 = V ar(ŷ V ar(y ) A Liste des variables pour les clientes d une société de VPC 1 Numcli : numéro de client 2 Dep : département 3 Com : commune 4 Reg : Région 5 Sig : Signalétique 1-Mr 2-Mme 3-Mlle 6 Agepro : Âge Probable 1- moins de 30 ans 2-30-40ans 3-40-50ans 4-50-60 ans 5-60-70ans 6- plus de 70 ans 7 bf RpQuEn Réponse à la question : Avez vous des enfants? 8 RpQuTr Réponse à la question : Travaillez vous? 9 TypFem : Typologie Femme F1 :femme âgée traditionnelle F2 :femme classique plus âgée F3 :femme sportive pratique F4 : femme classique sophistiquée F5 : femme classique diversifiée F6 : femme mode haut de gamme F7 : jeune femme, urbaine, mode F8 : jeune femme sportwear basique F9 : Jeune femme mode petit prix 10 Unitur : Taille d unité urbaine 0- rural 1-moins de 5 000 habitants 2-5 000-10 000 habitants 3-10 000-20 000 habitants 4-20 000-50 000 habitants 5-50 000-100 000 habitants 22

6-100 000-200 000 habitants 7-200 000-2 Millions habitants 8- Région parisienne + agglo 11 Groupe : typologie iris TYPE 1 : Rural âgé modeste TYPE 2 : Rural profond peu attractif TYPE 3 : Saisonnier petites villes TYPE 4 : Saisonnier villages TYPE 5 : Rural jeune TYPE 6 : Rural aisé TYPE 7 : Urbain précaire TYPE 8 : Urbain moyen TYPE 9 : Urbain dynamique TYPE 10 : Urbain aisé 12 Niveauvie : -La classe 1 : iris précarisés, qui regroupe les zones les plus pauvres, fortement touchées par le chômage, et avec un niveau d études très bas De plus, c est la classe contenant la plus faible proportion de cadres -La classe 2 : iris modestes actifs, contient elle aussi des zones aux revenus faibles Mais c est aussi la classe la moins touchée par le chômage Les CSP ouvriers et agriculteurs y sont le plus sur-représentées, Et elle est composée de 87% d iris appartenant à des communes rurales -La classe 3 : iris intermédiaires, est composée de zones au revenu moyen, avec un niveau d études moyen et un taux de chômage assez élevé Les habitants de ces zones appartiennent à peu près équitablement à toutes les CSP -La classe 4 : iris moyens supérieurs possède un revenu moyen par contribuable de 30% supérieur au revenu global français Les habitants de ces zones sont d un niveau d études élevé, et appartiennent à toutes les catégories de CSP Le taux de chômage de cette zone est assez faible -La classe 5 : iris aisés est la classe qui contient la plus forte proportion de cadres (2 fois plus que la moyenne) Le revenu moyen par contribuable est très élevé, et le niveau d études également 13 propriétaires (La proportion de propriétaires de leur logement dans l iris) : 6 valeurs qui correspondent à la proportion de logements avec propriétaires dans l iris par rapport au total des logements Valeur 1 : 25% > x Valeur 2 : 25% <= x < 4% Valeur 3 : 5% <= x < 6% Valeur 4 : 6% <= x < 6% Valeur 5 : 6% <= x < 7% Valeur 6 : 7% <= x 14 STABILITÉ (Valeurs basées sur des coefficients représentant le lien employeur-employé des habitants de l iris selon la stabilité des contrats) : 5 valeurs selon la solidité des contrats de travail des habitants de l iris (fonctionnaire, CDD, Emploi jeune, CDI) Pour les CES, contrats jeunes, apprentis sous contrats et stage rémunéré un coef de 30 a été appliqué Pour les intérims un coef de 60 Pour les CDD un coef de 80 Pour les CDI un coef de 110 Pour les fonctionnaires un coef de 140 Valeur 1 : Le lien de contrat employeur-employé est très faible concernant les habitants de cette zone 20% des iris Valeur 2 : Le lien de contrat employeur-employé est faible concernant les habitants de cette zone 20% des iris Valeur 3 : Le lien de contrat employeur-employé est moyen concernant les habitants de cette zone 20% des iris 23

Valeur 4 : Le lien de contrat employeur-employé est fort concernant les habitants de cette zone 25% des iris Valeur 5 : Le lien de contrat employeur-employé est très fort concernant les habitants de cette zone 15% des iris 15 CONFORT (Valeurs basées selon l équipement en bien ou pièces de conforts des logements de l iris) : 5 valueurs selon l équipement des maisons Une courbe de percentiles de confort est réalisé à partir de coefficients puis découpée : Le pourcentage de taudis*10 + le pourcentage de logement sans salles d eau et toilettes intérieurs*8 + le pourcentage de logement avec wc intérieur et sans salles d eau*5 + le pourcentage de logement avec salle d eau sans wc intérieur*5 +% d habitats sans chauffages centrales*3 +% des logements équipés d une fosse sceptique*1 +% des logements avec tout à l égout *-005 +% des logements tout conforts*-005 +% habitats avec garage*-005 Valeur 1 : 20% des iris, Logements très peu équipés Valeur 2 : 20% des iris, Logements peu équipés Valeur 3 : 20% des iris, Logements moyennement équipés Valeur 4 : 20% des iris, Logements équipés Valeur 5 : 20% des iris, Logements très équipés 16 ENFANTS (Proportion d individus de la tranche d âge 0 à 15 ans sur la population totale de l iris) : 10 valeurs Valeur 1 : x<105% Valeur 2 : 105%<=x<12% Valeur 3 : 12%<=x<145% Valeur 4 : 145%<=x<16% Valeur 5 : 16%<=x<175% Valeur 6 : 175%<=x<185% Valeur 7 : 185%<x<=20% Valeur 8 : 20%<x<=22% Valeur 9 : 22%<x<=24% Valeur 10 : 24%<x : 17 REVENU (réalisée à partir des fichiers des impôts), elle comprend 10 valeurs allant des communes les plus pauvres aux communes les plus riches (en Frs) Ddonnées COMPLEX DATA Valeur 1 : 60000 frs>x Valeur 2 : 60000<=x<65000 Valeur 3 : 65000<=x<70000 Valeur 4 : 70000<=x<75000 Valeur 5 : 75000<=x<82000 Valeur 6 : 82000<=x<88000 Valeur 7 : 88000<=x<95000 Valeur 8 : 95000<=x<105000 Valeur 9 : 105000<=x<115000 Valeur 10 : 115000<=x 18 Macrocible : segmentation RFM (3 types de cliente : bonne, fidèle, ni bonne ni fidèle) B Programmes R B1 Traitements univariés : Étude d une variable qualitative La commande R pour obtenir un graphique en camembert est la commande pie() piesales <- c(012, 03, 026, 016, 004, 012) 24

names(piesales) <- c("blueberry", "Cherry", "Apple", "Boston Cream", "Other", "Vanilla Cream") pie(piesales, col = c("purple", "violetred1", "green3","cornsilk", "cyan", "white")) title(main = "January Pie Sales", cexmain = 18, fontmain = 1) title(xlab = "(Don t try this at home kids)", cexlab = 08, fontlab = 3) et la commande correspondante pour obtenir un diagramme en bâton est la commande dotchart() ou la commande barplot() piesales <- c(012, 03, 026, 016, 004, 012) names(piesales) <- c("blueberry", "Cherry", "Apple", "Boston Cream", "Other", "Vanilla Cream") colors = c("purple", "violetred1", "green3","cornsilk", "cyan", "yellow") op <- par(mfrow = c(1, 2), # 2 x 2 pictures on one plot pty = "s") # square plotting region, # dotchart dotchart( piesales, col = colors, xlim = c(0,04)) title( main = "January Pie Sales", cexmain = 18, fontmain = 1, xlab = "(Don t try this at home kids)", cexlab = 08, fontlab = 3 ) # barplot barplot( piesales, space = 15, col = colors) title( main = "January Pie Sales", cexmain = 18, fontmain = 1, xlab = "(Don t try this at home kids)", cexlab = 08, fontlab = 3 ) ## At end of plotting, reset to previous settings: par(op) B2 Traitements univariés : Étude d une variable quantitative On obtient un diagramme en bâton de la distribution des effectifs puis des fréquences à l aide de la commande plot() : nbenf <- c(81023, 123050, 110532, 76298, 42087, 10965, 782) names(nbenf) <- c("0", "1", "2", "3", "4", "5", "6") op <- par(mfrow = c(1, 2), # 2 x 2 pictures on one plot pty = "s") # square plotting region, 25

ftit <- "Distribution en effectif" xtit <- "Nombre d enfants par clientes" plot( names(nbenf), nbenf, type="h", xlab = xtit, cexlab = 08, fontlab = 3 ) title( main = ftit, cexmain = 18, fontmain = 1 ) n = sum(nbenf) n freqenf <-nbenf/n nbenf ftit <- "Distribution en fréquence" plot( names(nbenf), freqenf, type="h", xlab = xtit, cexlab = 08, fontlab = 3 ) title( main = ftit, cexmain = 18, fontmain = 1 ) ## At end of plotting, reset to previous settings: par(op) Il existe une commande hist qui réalise l histogramme sur la série brute # # Variables quantitatives continues : série brute # data(islands) op <- par(mfrow=c(2, 2)) # histogramme basique hist(islands) # histogramme moins basique str(hist(islands, col="gray", labels = TRUE)) #-- Intervalles non-equidistant # histogramme de la racine carré 26

r <- hist( sqrt(islands), br = c(5*0:4, 10*3:5, 70, 100, 140), col= blue1 ) #Ajout des nombres text(r$mids, r$density, r$counts, adj=c(5, -5), col= blue3 ) # combien valent sapply(r[2:3], sum) sum(r$density * diff(r$breaks)) # toujours 1!!! # initialisation du device par(op) op <- par(mfrow = c(2, 2), # 2 x 2 pictures on one plot pty = "s") # square plotting region, # histogramme faux -> 0/20 # histogramme de la racine carré hist( sqrt(islands), br = c(5*0:4, 40, 70, 100, 140), col="lightblue", border="pink" ) #-- Intervalles non-equidistant # histogramme de la racine carré hist( sqrt(islands), br = c(5*0:4, 40, 70, 100, 140), col= blue1, border="pink", freq = TRUE, main = "WRONG histogram" ) # and warning # histogramme de la série brute # look at default str(hist(islands, br=6, plot= FALSE)) # str(hist( islands, br=c(12,20,36,80,200,1000,17000), col="lightblue", border="pink", plot = TRUE )) hist( islands, br=c(12,20,36,80,200,1000,17000), freq = TRUE 27

, col= blue1, border="pink", main = "WRONG histogram" ) # you get warning par(op) La command ecdf permet de calculer la courbe des fréquences cumulées data(islands) fc<-ecdf(islands) summary(fc) plot(fc) Commandes R pour le tracé des boîtes à moustache : data(iris) par(bg = "cornsilk") boxplot(split(iris[1], iris[5]), col = "lavender", notch = TRUE) title(main = "Iris Sepal Length", xlab = "Group", fontmain = 4, fontlab = 1) boxplot(split(iris[2], iris[5]), col = "lavender", notch = TRUE) title(main = "Iris Sepal Width", xlab = "Group", fontmain = 4, fontlab = 1) C Traitements bivariés C1 Analyse de la variance On réalise une analyse de la variance des données à l aide du programme R suivant ventes <- list() ventes$obs <- c(79, 62, 78, 81, 75, 87, 71, 85, 75, 91,51, 88, 58, 57, 59, 69, 51, 71, 38,,52, 51, 44, 37, 79, 36) ventes <-asdataframe(ventes) ventes$factor<- asfactor(c("fid", "FID","FID","FID","FID","FID","FID","FID","FID","FID", "OCC", "OCC","OCC","OCC","OCC","OCC","OCC","OCC","OCC", "NOU","NOU","NOU","NOU","NOU","NOU",)) boxplot(split(ventes$obs, ventes$factor), col = "lavender", notch = TRUE) histventes <-hist( ventes$obs, br=8, col="lightblue", border="pink", freq = TRUE, main = "Histogramme des ventes" ) text( histventes$mids, histventes$density, histventes$counts, adj=c(5, -5), col= blue3 ) analyse <- lm(ventes$obs ~ ventes$factor ) 28

analyse ventes$fittedvalues <- analyse$fittedvalues ventes On peut ensuite obtenir e 2 en faisant le rapport des variances : e2 <- var(ventes$fittedvalues) / var(ventes$obs) e2 C2 Régression On obtient une régression à l aide de la commande lm que nous avons utilisé en analyse de la variance : data(cars) x<-lm(dist~speed, data=cars) # regression de dist par speed par(bg ="lightsteelblue") plot( dist~speed, data=cars, main = "Distance et Vitesse", fg = "blue", xlab= "Vitesse", ylab = "Distance", pch = 9 # diamond ) abline(x, col="red") # tracé de la droite de régression print(x) names(x) x$coefficients x$fittedvalues x$residuals # elements de x # coefficients de la droite de régression # valeurs prédites # erreurs var(x$fittedvalues)/var(cars$dist) # R^2 29