Les diamants Prix et caractéristiques

Documents pareils

Le diamant : un ve hicule d investissement alternatif et inte ressant

Séries Statistiques Simples

Annexe commune aux séries ES, L et S : boîtes et quantiles

1. Vocabulaire : Introduction au tableau élémentaire

Statistiques Descriptives à une dimension

Statistique Descriptive Élémentaire

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Chapitre 3. Les distributions à deux variables

Statistique : Résumé de cours et méthodes

Logiciel XLSTAT version rue Damrémont PARIS

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

3. Caractéristiques et fonctions d une v.a.

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Résumé du Cours de Statistique Descriptive. Yves Tillé

Relation entre deux variables : estimation de la corrélation linéaire

Représentation d une distribution

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Traitement des données avec Microsoft EXCEL 2010

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Bulletin d information statistique

Statistiques descriptives

Sommaire de la séquence 12

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

IBM SPSS Statistics Base 20

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

1 Importer et modifier des données avec R Commander

Introduction aux Statistiques et à l utilisation du logiciel R

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Extraction d informations stratégiques par Analyse en Composantes Principales

Leçon N 4 : Statistiques à deux variables

Classe de première L

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Précision d un résultat et calculs d incertitudes

données en connaissance et en actions?

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

L analyse boursière avec Scilab

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Statistiques 0,14 0,11

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

- Ressources pour les classes

Biostatistiques : Petits effectifs

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Représentation des Nombres

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Aide-mémoire de statistique appliquée à la biologie

Estimation et tests statistiques, TD 5. Solutions

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Evaluation de la variabilité d'un système de mesure

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Principe d un test statistique

Complément d information concernant la fiche de concordance

Correction du baccalauréat STMG Polynésie 17 juin 2014

SPHINX Logiciel de dépouillement d enquêtes

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Le calcul du barème d impôt à Genève

Fonctions de plusieurs variables

ANALYSE SPECTRALE. monochromateur

Le suivi de la qualité. Méthode MSP : généralités

Sillage Météo. Notion de sillage

Les devoirs en Première STMG

Petit lexique de calcul à l usage des élèves de sixième et de cinquième par M. PARCABE, professeur au collège Alain FOURNIER de BORDEAUX, mars 2007

Localisation des fonctions

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

TD : Codage des images

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Correction du bac blanc CFE Mercatique

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

Nombre dérivé et tangente

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Atelier : L énergie nucléaire en Astrophysique

Dérivation CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Cours 7 : Utilisation de modules sous python

Utilisation du module «Geostatistical Analyst» d ARCVIEW dans le cadre de la qualité de l air

Organisme certificateur : 10 rue Galilée Champs sur Marne Tél : +33 (0) Fax : +33 (0)

Loi binomiale Lois normales

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

CAPTEURS - CHAINES DE MESURES

D O S S I E R D E P R E S S E

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Statistiques à une variable

: seul le dossier dossier sera cherché, tous les sousdomaines

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

TP SIN Traitement d image

SUGARCRM MODULE RAPPORTS

Chapitre 02. La lumière des étoiles. Exercices :

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

Limites finies en un point

Comprendre l Univers grâce aux messages de la lumière

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

Transcription:

Exploration d un fichier de données Valérie Fontanieu - Ingénieur statisticien Institut National de Recherche Pédagogique Les diamants Prix et caractéristiques Données parues dans le Singapore s Business Times du 8 février 2000 Accessibles sur : http://www.amstat.org/publications/jse/jse_data_archive.html Ce document présente les premiers résultats de l exploration d un fichier de données à l aide des méthodes de statistique descriptive (uni- et bi-dimensionnelle) et quelques explications sur les résultats couramment proposés par les logiciels de traitement et d analyse de données statistiques. Des parties de ce fichier peuvent être utilisées pour illustrer des définitions de termes couramment utilisés en statistique descriptive.

Sommaire - Les données : le prix et 4 variables caractérisant les diamants 2 - Le tableau des données 3 - Description d une variable quantitative : les résumés numériques 4 - Représentation graphique synthétique : le boxplot 5 - Représentation de la distribution des valeurs : l histogramme 6 - Représentation des fréquences cumulées : la fonction de répartition 7 - Description d une variable qualitative : le tri à plat 8 - Représentations graphiques : les diagrammes en colonnes et secteurs 9 - Description simultanée de deux variables quantitatives : le nuage de points 0 - Description simultanée d une variable quantitative et d une variable qualitative - Description simultanée de deux variables qualitatives : la table de contingence Annexes A - Les résumés numériques B - Le boxplot C - Le coefficient de corrélation linéaire et la régression linéaire

- Les données : le prix et 4 variables caractérisant les diamants - Carats : le poids du diamant exprimé en carats ( carat = 0,20g) - Couleur : l échelle de graduation de la couleur s étend de la lettre D à la lettre Z, de la teinte la plus incolore vers une teinte jaune et même parfois d autres teintes (bleu, vert ) ; dans cet échantillon les diamants appartiennent aux 6 premières catégories : D Blanc exceptionnel + E Blanc exceptionnel F Blanc rare + G Blanc rare H Blanc I Blanc légèrement teinté + - Clarté : indique la présence plus ou moins importante d imperfections ( catégories) ; dans l échantillon les diamants sont caractérisés par 5 catégories parmi les mieux classées, de la plus grande clarté vers la présence croissante d imperfections et d inclusions : IF Internally Flawless - absence d inclusions mais minuscules imperfections de surface VVS Very Very Small inclusions - minuscules inclusions et éventuellement minuscules imperfections de surface VVS2 imperfections de surface légèrement plus présentes que VVS VS Very Small inclusions - petites inclusions et éventuellement petites imperfections de surface VS2 imperfections de surface légèrement plus présentes que VS - Certification : 3 instituts de certification : GIA HRD IGI - Prix en dollars Gemological Institute of America Hoge Raad voor Diamant International Gemological Institute Remarque : Ces variables n apporte pas le même type d information. Le poids en carats, la couleur et la clarté sont des attributs des diamants. Ces caractéristiques intrinsèques sont évaluées par un institut de certification qui établit un certificat, garantissant l exactitude des informations. Le prix quant à lui est estimé par le vendeur et est vraisemblablement établi en fonction des caractéristiques des diamants.

2 - Le tableau des données La structure des données usuellement proposée dans les logiciels est celle d un tableau croisant, les individus (diamants) en ligne, et les variables (carats, couleur ) en colonne. Les variables sont observées sur un échantillon de 308 diamants certifiés. 308 diamants Les données ont été recueillies dans un encart publicitaire du Singapore s Business Times. Cet échantillon n est représentatif que de lui-même.

3 - Description d une variable quantitative : les résumés numériques (voir en annexe la définition des indicateurs) Résumés numériques : Carats Prix ($) Les quartiles : Moyenne Ecart-type Minimum Maximum 0,63 0,277 0,80,00 509,484 3397,587 638,000 6008,000 - Au moins 25 % des données sont inférieures ou égales au premier quartile, et au moins 75 % des données sont supérieures ou égales au premier quartile. Etendue (Min - Max) er quartile Médiane 0,920 0,350 0,620 5370,000 622,000 425,000 - Au moins 50 % des données sont inférieures ou égales à la médiane, et au moins 50% des données sont supérieures ou égales à la médiane. 3ème quartile 0,850 7524,000 Interquartile CV (écart-type/moyenne) Asymétrie (Skewness) 0,500 0,439 0,05 5902,000 0,678 0,65 - Au moins 75 % des données sont inférieures ou égales au troisième quartile, et au moins 25 % des données sont supérieures ou égales au troisième quartile. Aplatissement (Kurtosis) -,252-0,356 Le plus gros diamant du monde, le Cullinan, a été découvert en 905 dans la mine Premier près de Pretoria en Afrique du Sud. Il pesait 306 carats à l état brut (soit plus de 62 grammes). Il a été taillé en plusieurs fragments dont les deux célèbres Cullinan I et Cullinan II, ayant un poids respectif de 530,2 et 37,4 carats. Les autres diamants taillés célèbres (une dizaine) font entre 40 et 550 carats.

,2 Box plot - Carats,00 4 - Représentation graphique synthétique : Le Box plot (voir annexe) 0,8 0,63 0,6 0,4 0,2 0,80 0,620 Le box plot des carats montre une distribution assez symétrique (position de la médiane, longueur des pattes, position relative de la médiane et de la moyenne). La moyenne légèrement supérieure à la médiane témoigne d un faible étalement des valeurs supérieures. 0 Box plot - Prix ($) L asymétrie de la distribution du prix est importante : les valeurs sont fortement étalées du côté des grandes valeurs (longueur de la patte supérieure, moyenne supérieure à la médiane). Les valeurs inférieures (25 % de celles-ci) sont comprises dans l intervalle [638 ; 622] ; elles sont fortement concentrées par rapport au reste de la distribution. 8000 6000 4000 2000 0000 8000 6000 6008,000 509,484 4000 2000 425,000 0 638,000

0,25 Histogramme / 9 classes Carats 5 - Représentation de la distribution des valeurs : L histogramme (des carats) 0,20 Fréquence 0,5 0,0 0,05 0,00 0,8 0,28 0,38 0,48 0,58 0,68 0,78 0,88 0,98,08 La distribution des carats présente plusieurs zones de concentration des valeurs (intervalles à l intérieur desquels les valeurs sont plus fortement concentrées (modes, pics de distribution). La distribution est ainsi globalement fortement étalée. Les indicateurs de tendance centrale ont dans ce cas peu de pouvoir de représentation des données. Construction des 9 classes : Borne inf. Borne sup. Effectifs Fréquences 0,8 0,28 37 0,20 0,28 0,38 45 0,46 0,38 0,48 0 0,032 0,48 0,58 50 0,62 0,58 0,68 20 0,065 0,68 0,78 47 0,53 0,78 0,88 25 0,08 0,88 0,98 3 0,00 0,98,08 69 0,224 0,25 0,20 Histogramme / 8 classes Carats Remarque : 2 valeurs n'ont pas été considérées ici (> à,08). Le nombre de classe utilisées pour la construction d un histogramme influence la représentation de la distribution : peu de classes, perte d information ; nombreuses classes, classes peu fournies voire vides. L histogramme construit avec 8 classes laisse apparaître une forte concentration des valeurs au-delà de carat et une absence de valeurs en amont (à la lecture du fichier de données, aucune valeur dans l intervalle ouvert (0,9 ; ). Les diamants à peine inférieurs à carat ont-ils été surestimés, ou sont-ils peu mis à la vente? Fréquence 0,5 0,0 0,05 0,00 0,8 0,28 0,38 0,48 0,58 0,68 0,78 0,88 0,98,08

Histogramme / 7 classes Histogramme du prix 0,30 Prix 0,25 0,20 La distribution est étalée à droite (rappel coefficient d asymétrie - skewness = 0,65) et globalement plutôt concentrée (coefficient d aplatissement - kurtosis = -0,356). Fréquence 0,5 0,0 0,05 0,00 638 2638 4638 6638 8638 0638 2638 4638 0,30 Histogramme / 4 classes Prix 0,25 Construction des 7 classes : Borne inf. Borne sup. Effectifs Fréquences 638 2638 92 0,299 2638 4638 7 0,23 4638 6638 53 0,72 6638 8638 28 0,09 8638 0638 48 0,56 0638 2638 0 0,032 2638 4638 4 0,03 Remarque : 2 valeurs n'ont pas été considérées ici (> à 4 638). Fréquence 0,20 0,5 0,0 0,05 0,00 638 2638 4638 6638 8638 0638 2638 4638

,00 0,90 0,80 Carats 6 - Représentation des fréquences cumulées : La fonction de répartition F (y) Y = P ( Y y) Fréquence 0,70 0,60 0,50 0,40 0,30 0,20 0,0 On retrouve sur l axe des abscisses les différents quantiles. 0,00 0,8 0,28 0,38 0,48 0,58 0,68 0,78 0,88 0,98,08,00 0,90 0,80 Prix 0,70 La fonction de répartition permet de déterminer la proportion d observations de l échantillon inférieures ou égales à une valeur de la série. Ainsi entre deux valeurs, la plus ou moins forte croissance de la courbe indique la plus ou moins forte concentration de valeurs. Fréquence 0,60 0,50 0,40 0,30 0,20 0,0 0,00 638 2638 4638 6638 8638 0638 2638 4638

7 - Description d une variable qualitative : le tri à plat Couleur (variable qualitative ordinale) : Modalités Effectifs % % cumulés D 6 5,2 5,2 E 44 4,3 9,5 F 82 26,6 46, G 65 2, 67,2 H 6 9,8 87,0 I 40 3,0 00,0 Clarté (variable qualitative ordinale) : Modalités Effectifs % % cumulés IF 44 4,3 4,3 VVS 52 6,9 3,2 VVS2 78 25,3 56,5 VS 8 26,3 82,8 VS2 53 7,2 00,0 Un tri à plat décrit la répartition des individus de l échantillon dans chacune des modalités : sont mentionnés les effectifs (et la fréquence) des individus caractérisés par une modalité. De plus lorsque les modalités présentent une relation d ordre, les effectifs (et fréquence) peuvent être cumulés. La valeur modale, modalité pour laquelle l effectif est le plus grand est respectivement pour chacune des variables, la couleur F (26 % des diamants), la clarté VS (26 %) et la certification GIA (49 %). Certification (variable qualitative nominale) : Modalités Effectifs % GIA 5 49,0 HRD 79 25,6 IGI 78 25,3

8 - Représentations graphiques : les diagrammes en colonnes et secteurs Couleur Couleur 30% 25% 20% 5% 0% 5% 0% 30% 25% 20% 5% 0% 5% 0% 60% 50% 40% 30% 20% 0% 26,6% 2,% 9,8% 4,3% 3,0% 5,2% D E F G H I Clarté 25,3% 26,3% 6,9% 7,2% 4,3% IF VVS VVS2 VS VS2 Certification 49,0% 25,6% 25,3% La lecture de la répartition des proportions dans chacune des modalités est facilitée par les graphiques. Cependant dans le cas du diagramme en secteur (camembert) l augmentation du nombre de modalités diminue la lisibilité, en revanche on repère tout de suite que près de 50 % des diamants de l échantillon sont certifiés GIA. H 9,8% VS 26,3% I 3,0% G 2,% VS2 7,2% IGI 25,3% H R D 25,6% D 5,2% E 4,3% Clarté IF 4,3% VVS2 25,3% Certification F 26,6% VVS 6,9% GIA 49,0% 0% GIA HRD IGI

9 - Description simultanée de deux variables quantitatives : le nuage de points Statistique descriptive bivariée Description de deux variables mesurées simultanément sur les mêmes individus Recherche d éventuelles liaisons entre les deux variables 8000 6000 4000 2000 Prix ($) 0000 8000 6000 4000 2000 0 0, 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9,,2 Carats La lecture du nuage de points montre que le prix des diamants augmente avec leur poids (ce dont on se doute). Néanmoins, le prix n est pas seulement fonction du poids (on s en doutait aussi). Ce graphique incite à étudier le lien entre le poids et le prix, en séparant les diamants en trois classes : ceux de poids inférieurs ou égal à 0,45 carats, ceux entre 0,46 et 0,90 carats et les autres. Pour ces derniers, les «gros diamants» de ce fichier, dont le poids est entre et, carat, le prix toujours supérieur à 7800 $ dépend plus d autres facteurs que du poids.

Prix des diamants de petits poids 90 diamants de poids inférieurs ou égal à 0,45 carats Les poids sont donnés au centième de carat près 2500 2000 Prix ($) 500 000 500 0,5 0,2 0,25 0,3 0,35 0,4 0,45 Carats Le coefficient de corrélation (voir annexe) est ici 0,84. L équation de la droite de régression (voir annexe) est, en arrondissant les coefficients à l entier le plus proche : Prix = 66 + 3923 x poids Autrement dit, sur les données observées, si le poids augmente d un centième de carat, en moyenne le prix augmente de 39,23 dollars.

Prix des diamants de poids moyen 47 diamants de poids compris entre 0,46 et 0,90 carats 0000 9000 8000 Prix ($) 7000 6000 5000 4000 3000 2000 0,45 0,5 0,55 0,6 0,65 0,7 0,75 0,8 0,85 0,9 Carats Le coefficient de corrélation est ici 0,86. L équation de la droite de régression est, en arrondissant les coefficients : Prix = -238 + 0692 x poids Sur les données observées, si le poids augmente d un centième de carat, en moyenne le prix augmente de 06,92 dollars.

Etude des 7 gros diamants de l échantillon poids compris entre et, carats Prix ($) Prix ($) 7000 6000 5000 4000 3000 2000 000 0000 9000 8000 7000 7000 6000 5000 4000 3000 2000 000 0000 9000 8000 7000 D E F G H I couleurs IF VS VS2 VVS VVS2 clarte Pour les gros diamants de notre échantillon : - La couleur influence beaucoup le prix. - Il n y a pas d influence nette de la clarté sur le prix. La plupart des diamants présentent de minuscules inclusions. Moins le diamant a d inclusions et plus petites elles sont, plus la lumière peut le traverser. La présence d inclusions est observée à l aide d une loupe ou d un microscope (0x). Une imperfection non détectable à ce degré de grossissement est considérée comme non existante. Plus un diamant est incolore (blanc), plus il laisse traverser la lumière blanche. La couleur d un diamant est déterminée à l aide de pierres étalons et d une lumière blanche. Un diamant est composé à plus de 99 % de carbone pur, le reste lui confère une couleur : un atome d azote le rend jaune, de bore bleu La taille du diamant opérée par le lapidaire a une incidence très importante sur le pouvoir de réfraction et de dispersion de la lumière qui donne toute sa brillance au diamant. C est un quatrième critère influant sur la valeur d un diamant.

Marquage du nuage de points par la couleur des diamants On retrouve que les couleurs H et I sont moins prisées que les couleurs D et E, ce que la dénomination blanc exceptionnel pour D et E pouvait laisser présager!

Marquage du nuage de points par la clarté des diamants Il est plus «facile» et plus commun pour un petit diamant d être clair et sans défaut que pour un gros!

Marquage des points par la certification des diamants Dans nos données, la certification HRD ne concerne pas les petits diamants.

0 - Description simultanée d une variable quantitative et d une variable qualitative Chaque modalité de la variable qualitative définit une partition (une sous-population) sur laquelle peut être analysée la variable quantitative. Les résumés numériques décrits précédemment peuvent être construits sur chacune des sous-populations engendrées par la variable qualitative : sur chaque partition, sont calculés les différents résumés numériques (moyenne, médiane, intervalle interquartile ). De la même façon des boxplots peuvent être construits sur chacune des sous-populations : les box plots parallèles. On met ainsi en avant l influence de la variable qualitative sur les valeurs de la variable quantitative.

Boxplot Carats / Couleur Les résultats observés dans une sous-population et les différences entre les sous-populations doivent être interprétés avec prudence, lorsque les effectifs sont faibles (les fluctuations d échantillonnage peuvent être importantes). Rappel des effectifs concernés 6 44 82 65 6 40,2,0 0,8 0,6 0,4 0,2 0,0,00,030,040,060,00,090,000,005 0,875 0,820 0,800 0,790 0,775 0,70 0,70 0,570 0,545 0,570 0,405 0,45 0,430 0,350 0,305 0,35 0,250 0,90 0,80 0,80 0,80 0,90 D E F G H I Globalement, le poids médian des diamants est sensiblement le même pour les différentes couleurs.

Prix / Couleur Prix / Clarté 6000 2000 8000 4000 0 6000 2000 8000 4000 0 6008 2597 405 393 0450 9890 9563 7936 875 6805 6434 6882 6266 4485 5030 4780 374 365 2340 472 050 636 638 437 636 725 082 594 880 765 D E F G H I 6 44 82 65 6 40 6008 393 3909 49 9853 7888 896 735 7368 5738 3350 422 453 4534 3384 3424 3407 266 76 070 705 725 638 800 705 IF VS VS2 VVS VVS2 44 52 78 8 53 Les diamants les plus «clairs» (couleur D) enregistrent une forte amplitude de prix (de 880 à 6008). Par ailleurs le fort étalement global des valeurs (position des quartiles) peutêtre dû au faible effectif observé (6) ; on ne peut garantir une telle répartition générale des valeurs des diamants de couleur D. Prix / Certification 6000 2000 8000 4000 0 6008 405 973 9203 7680 6905 4759 3995 3205 330 098 42 638 GIA HRD IGI 265 995 Les constats sont globalement les mêmes que pour les carats ; ce qui est peu étonnant puisque le prix croît avec les carats. 5 79 78

- Description simultanée de deux variables qualitatives : la table de contingence La répartitions des catégories d un critère est-elle égale dans les différentes catégories de l'autre critère? Table de contingence Clarté / Certification : Certification - GIA Certification - HRD Certification - IGI Total Clarté - IF 6 4 34 44 Clarté - VVS 5 23 4 52 Clarté - VVS2 33 24 2 78 Clarté - VS 6 3 7 8 Clarté - VS2 36 5 2 53 Total 5 79 78 308 Profils colonnes (% en colonnes) : Certification - GIA Certification - HRD Certification - IGI Total Clarté - IF 4,0 5, 43,6 4,3 Clarté - VVS 9,9 29, 7,9 6,9 Clarté - VVS2 2,9 30,4 26,9 25,3 Clarté - VS 40,4 6,5 9,0 26,3 Clarté - VS2 23,8 9,0 2,6 7,2 Total 00 00 00 00 Dans notre échantillon, les proportions de diamants dans les différents niveaux de clarté diffèrent selon l organisme de certification. Diagramme des profils colonnes 00% 80% 60% 40% 20% 0% 2,6 9,0 23,8 9,0 6,5 26,9 40,4 30,4 7,9 2,9 29, 43,6 9,9 4,0 5, Certification - GIA Certification - HRD Certification - IGI Clarté - IF Clarté - VVS Clarté - VVS2 Clarté - VS Clarté - VS2

Annexes A - Les résumés numériques B - Le boxplot C - Le coefficient de corrélation linéaire et la régression linéaire

A - Les résumés numériques Soit une variable aléatoire Y et un échantillon de taille n de celle-ci : y, y 2,, y n n observations de Y Les résumés numériques, indicateurs empiriques sont : La moyenne de Y : y n i= = n y i Somme des valeurs divisée par le nombre de valeurs ; un indicateur de tendance centrale de la distribution. (yi y) 2 i= La variance : s = n Indicateur de dispersion des valeurs autour de la moyenne. n 2 L écart type : s = 2 s Racine carrée de la variance, indicateur de dispersion des valeurs exprimé dans l unité de mesure de la variable. Remarque : Ces indicateurs sont sensibles aux valeurs atypiques de l échantillon. La moyenne et la médiane sont deux indicateurs de tendance centrale de la distribution des valeurs mais contrairement à la médiane, la moyenne est sensible à une valeur très grande ou très petite par rapport au reste de la série.

Skewness et Kurtosis : deux indicateurs de la forme de la distribution des valeurs observées. Le skewness permet de mesurer le degré d asymétrie de la distribution des valeurs. Moment centré d ordre 3 sur le cube de l écart type. Estimation sur un échantillon : skewness = n i= (y y) (n )s i 3 3 Le kurtosis permet de mesurer le degré d aplatissement d une distribution. Moment centré d ordre 4 sur le carré de la variance. Le kurtosis de la distribution Normale, ainsi calculé, vaut 3, c est pourquoi les logiciels proposent souvent le calcul du kurtosis en ôtant la valeur 3 : Estimation sur un échantillon : Utilité du skewness et du kurtosis kurtosis = n i= (y i (n Une distribution symétrique autour de sa moyenne aura un skewness proche de 0. Skewness positif étalement des valeurs à droite Skewness négatif étalement des valeurs à gauche Le kurtosis d une loi Normale est nul ; une distribution des valeurs proche de la forme en cloche de la loi normale donnera un kurtosis proche de 0. Kurtosis positif forte concentration, pic prononcé Kurtosis négatif aplatissement de la distribution, faible concentration y) )s 4 4 3

Schématiquement, l allure d une distribution selon que le skewness et le kurtosis sont positifs, négatifs ou nuls : Négatif Positif Nul Skewness Kurtosis Le Skewness et le Kurtosis sont des indicateurs numériques de la forme de la distribution observée : ils donnent un indice de l éloignement ou du rapprochement de la distribution de la série de valeurs de celle d une distribution de loi Normale.

B - Le Box plot (ou boîte à moustache) : Représentation graphique synthétique de Tukey Le Boxplot est un résumé de la série (de la distribution) construit à partir de sa médiane, ses er et 3 ème quartiles et ses valeurs extrêmes. Il permet de repérer rapidement, de façon visuelle, l allure générale de la distribution. Construction utilisée ici : Une boîte, deux moustaches et des valeurs extrêmes : La boîte est délimitée en bas par le premier quartile, en haut par le troisième quartile. Entre les deux se trouve la médiane. Parfois la moyenne est ajoutée. Les extrémités des moustaches ou valeurs extrêmes sont : - le min et le max ; Ou encore, souvent proposées dans les logiciels (parfois paramétrables) : - la plus petite valeur supérieure à q -,5*(q 3 - q ) et la plus grande valeur inférieure à q 3 +,5*(q 3 - q ) avec (q = premier quartile ; q 3 = troisième quartile). Dans ce cas, les valeurs extrêmes sont les valeurs de la série qui sont hors des limites définies par les extrémités des moustaches (aucune si aucune des valeurs ne sort des limites). Attention, les valeurs extrêmes telles que définies n ont de sens que lorsque la distribution est Normale (voir la suite). Remarques : - d autres extrémités des moustaches peuvent être proposées comme les déciles (délimitant 0 % des valeurs) ; - la largeur de la boîte est arbitraire et ne s interprète donc pas.

Représentation : Box plot - Carats Echelle : unité de valeur de la variable,2 3 ème quartile,00 Maximum 0,8 Intervalle interquartiles 0,6 (50 % des valeurs) 0,4 0,63 0,620 Moyenne Médiane 0,2 er quartile 0 0,80 Minimum Le box plot permet de visualiser rapidement : - La plus ou moins forte concentration des valeurs : autour de la médiane (intervalle inter-quartiles, hauteur de la boîte) et celle des queues de distribution (les pattes, chacune 25 % des valeurs). Remarque : la hauteur de la boîte représente 50 % des valeurs, plus cette hauteur est grande (petite) plus les valeurs correspondantes sont étalées (concentrées). - La symétrie de la distribution : position de la médiane dans la boîte et globalement ; différence de longueur des pattes. Plus la moyenne s écarte de la médiane plus la distribution est asymétrique (attention aux valeurs aberrantes qui influence la valeur de la moyenne) et inversement plus la médiane et la moyenne sont proches plus la distribution est symétrique. Lorsque la médiane est inférieure à la moyenne, les valeurs inférieures sont plus fortement concentrées, les valeurs supérieures plus fortement étalées.

L indice,5 utilisé parfois pour la définition des valeurs extrêmes : L intervalle de Tukey, en dehors duquel les valeurs sont représentées comme extrêmes, repose sur l hypothèse de normalité de la distribution. I = [ q,5 ( q q); q +,5 ( q )] Si la distribution suit une loi N( µ ; σ) alors, I = [ µ 2,7σ; µ + 2, 7σ ] 3 3 3 q Dans le cas d une distribution normale, cet intervalle doit comprendre 99,3 % des valeurs. Les valeurs en dehors de l intervalle sont individualisées et marquées d une croix pour signaler leur caractère atypique, car d une faible probabilité d occurrence sous l hypothèse de normalité. La longueur de cet intervalle fondée sur l indice,5 est arbitraire. C est un compromis entre les valeurs et 2 qui engendreraient respectivement des intervalles comprenant 95,7 % et 99,8 % des valeurs. Le marquage des valeurs atypiques n est significatif que si la distribution s apparente à celle d une distribution Normale. Comparaison de plusieurs sous-populations (box plots parallèles) : Le box plot permet de comparer visuellement la distribution d une variable à l intérieur des sous-populations formant l échantillon, par la construction d un box plot pour chacune des sous-populations sur un même graphique (même échelle). La position des indicateurs de tendance centrale et la variabilité de la distribution dans chacune des souspopulations peuvent ainsi être comparées.,2,0 0,8 0,6 0,4 0,2 0,0,00,090 0,895,000,00 0,80 0,700 0,655 0,500 0,500 0,300 0,290 0,80 GIA HRD IGI 0,480 0,20

C - Le coefficient de corrélation linéaire et la régression linéaire Soit X et Y deux variables quantitatives. Le coefficient de corrélation linéaire est un indice rendant compte de la manière dont les deux variables considérées varient simultanément. Il permet de vérifier l existence d une relation linéaire entre deux variables, de la forme Y=aX+b. Calcul du coefficient de corrélation linéaire sur l échantillon : r = n avec s n i= x (xi x)(y i y) s xy = s s s s = x n n y i= (s s) i 2 x et s y y = n n i= Rapport covariance empirique sur le produit des écarts-types empiriques (s s), les écarts types respectifs de X et de Y i 2 Le coefficient de corrélation linéaire est compris entre - et +. S il est proche de ou de -, les deux variables sont corrélées linéairement (le nuage de points est presque aligné sur une droite), s il est proche de 0 les variables sont non corrélées linéairement. Plus r est proche de ou de - plus le nuage de points est aligné. Si r =, il existe deux constantes a et b définissant une relation linéaire parfaite : Y=aX+b. Une valeur positive du coefficient indique une pente positive de la droite (croissance simultanée des deux variables), une valeur négative une pente négative de la droite (décroissance de l une liée à la croissance de l autre). Si le coefficient est proche de 0, une relation linéaire entre les deux variables est exclue, cependant une relation non linéaire peut exister.

Détermination de la droite d équation linéaire Y=aX+b : L objectif est de modéliser Y par une fonction affine ax+b, plus un aléa résiduel (un bruit blanc). Les estimateurs des paramètres a et b, par la méthode des moindres carrés, donne les résultats suivants, sous certaines hypothèses de validité du modèle : n bˆ = n i= â = y bˆx (xi x)(yi y) sxy = * 2 2 s s x x Le coefficient de détermination : Ce coefficient est une mesure du pouvoir explicatif du modèle de régression linéaire. r 2 s x s 2 xy = 2 2 s y = variance expliquée par le modèle variance totale r 2 (carré du coefficient de corrélation) est compris entre 0 et. Plus il est proche de, meilleur est l ajustement par le modèle. Remarque : le modèle de régression par les moindres carrés est sensible aux valeurs aberrantes, la dissymétrie des distributions engendre également une mauvaise modélisation ; c est pourquoi l analyse descriptive uni-variée de chacune des variables et l analyse bi-variée du nuage de points sont des étapes indispensables à la construction d un modèle. Dans certains cas, la transformation des variables (logarithme, puissance ) afin d atténuer les dissymétries et les valeurs atypiques permet d obtenir un bon modèle linéaire.