Statistiques descriptives

Documents pareils
Chapitre 3. Les distributions à deux variables

Statistiques Descriptives à une dimension

Logiciel XLSTAT version rue Damrémont PARIS

Séries Statistiques Simples

1. Vocabulaire : Introduction au tableau élémentaire

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Statistique : Résumé de cours et méthodes

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Précision d un résultat et calculs d incertitudes

Table des matières. I Mise à niveau 11. Préface

Annexe commune aux séries ES, L et S : boîtes et quantiles

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Statistique Descriptive Élémentaire

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Évaluation de la régression bornée

Introduction à l approche bootstrap

FORMULAIRE DE STATISTIQUES

Introduction aux Statistiques et à l utilisation du logiciel R

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Correction du bac blanc CFE Mercatique

Fonctions de deux variables. Mai 2011

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Théorie des sondages : cours 5

PLAN STATISTIQUE AUTOMOBILE DU QUÉBEC Définitions

Cours de méthodes de scoring

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Exercice : la frontière des portefeuilles optimaux sans actif certain

Programmation Linéaire - Cours 1

FONCTION DE DEMANDE : REVENU ET PRIX

VI. Tests non paramétriques sur un échantillon

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Enjeux mathématiques et Statistiques du Big Data

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

La rémunération des concepteurs. en théâtre au Québec. de 2004 à 2006

Résumé du Cours de Statistique Descriptive. Yves Tillé

Collecter des informations statistiques

Séance 0 : Linux + Octave : le compromis idéal

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

ACP Voitures 1- Méthode

Leçon N 4 : Statistiques à deux variables

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Établissement des taux d actualisation fondés sur la meilleure estimation aux fins des évaluations de provisionnement sur base de continuité

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

: seul le dossier dossier sera cherché, tous les sousdomaines

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Formation tableur niveau 1 (Excel 2013)

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Introduction à la statistique descriptive

SERIE 1 Statistique descriptive - Graphiques

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

1 Complément sur la projection du nuage des individus

Relation entre deux variables : estimation de la corrélation linéaire

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Circuits RL et RC. Chapitre Inductance

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Aide-mémoire de statistique appliquée à la biologie

données en connaissance et en actions?

Un essai de mesure de la ponction actionnariale note hussonet n 63, 7 novembre 2013

Table des matières. Avant-propos. Chapitre 2 L actualisation Chapitre 1 L intérêt Chapitre 3 Les annuités III. Entraînement...

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Extraction d informations stratégiques par Analyse en Composantes Principales

Corrigé des TD 1 à 5

Lire ; Compter ; Tester... avec R

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

document proposé sur le site «Sciences Physiques en BTS» : BTS AVA 2015

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

Projet de Traitement du Signal Segmentation d images SAR

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

TSTI 2D CH X : Exemples de lois à densité 1

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Analyse et interprétation des données

Raisonnement par récurrence Suites numériques

Maple: premiers calculs et premières applications

Statistiques descriptives

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Le suivi de la qualité. Méthode MSP : généralités

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre Student Assessment and Program Evaluation Branch

Observatoire Economique et Statistique d Afrique Subsaharienne

Fonctions de plusieurs variables

Electricité : caractéristiques et point de fonctionnement d un circuit

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

23. Interprétation clinique des mesures de l effet traitement

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

LE TABLEAU DE BORD DE SUIVI DE L ACTIVITE

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Oscillations libres des systèmes à deux degrés de liberté

Initiation à LabView : Les exemples d applications :

Infolettre #18 : Les graphiques avec Excel 2010

La confiance des chefs d entreprise continue de se renforcer en mai

MABioVis. Bio-informatique et la

1.1 Codage de source et test d hypothèse

Transcription:

En tant que science, les statistiques ne se limitent pas à une description empirique des propriétés numériques d un objet. Elles jouent un rôle bien plus important en proposant, à partir des données, des méthodologies et des outils qui permettent d établir des hypothèses et d en mesurer la fiabilité. Les statistiques sont une science non deterministe par nature, qui donne une interprétation probabiliste de l ensemble des solutions. Les mêmes expériences pouvant aboutir à des résultats différents, l analyse des données peut donner lieu à des controverses. L objectif de cet enseignement est de vous familiariser avec les statistiques afin que vous soyez capable d apporter des réponses scientifiques à ce type de controverses. Statistiques descriptives Au sein de ce chapitre, nous allons présenter différents outils suceptibles de faciliter l analyse et la description des données recueillies lors d échantillonages ou d expérimentations. L objectif ne sera pas de tirer des conclusions sur les différentes populations statistiques (modèles et prédictions), il s agira de présenter les données accumulées sous forme synthétique. Présentation des données Lors de la collecte des données, les valeurs observées se trouvent évidemment sans ordre. Pour un nombre important d échantillons, il s agira d organiser les données : tableaux de distributions de fréquence représentations graphiques. Série statistique simple Une série statistique simple est un ensemble de données relative à une variable mesurée sur un échantillon d éléments.

.. Tableaux de distribution de fréquence Pour des variables qualitatives, il s agira de présenter chaque catégorie ou de regrouper ces catégories en classes. Pour une population de n variables quantitatives, il s agira de regrouper les échantillons dans des classes. Pour cela on détermine la valeur maximum v max la valeur minimum v min le nombre de classe n c l intervalle de classe c les indices de classe v i v max et v min sont souvent les maxima de la série. Le nombre de classe n c peut être déterminer en fonction du nombre d échantillons n c = + 3.3 log(n) Règle de Sturge n c = 2.5 4 n L intervalle de classe est alors Règle de Yule c = v max v min n c. Ces valeurs permettent de déterminer les indices de classes, le plus souvent au centre de la classe. Définissons quelques variables : La fréquence absolue f i est le nombre d élément appartenant à une classe. La fréquence relative d une classe est le rapport de son effectif à l effectif total (f i /n). Le pourcentage est la fréquence relative exprimée en % (00f i /n). La fréquence cumulée correspond à l effectif total des valeurs plus petites que la borne supérieure de la classe considérée. La fréquence relative cumulée est le rapport de la fréquence cumulée à l effectif total. Le pourcentage cumulé est la fréquence relative cumulée exprimée en pourcentage...2 Représentation graphique le diagramme en bâton polygone de fréquence 2

histogramme courbe de fréquence les diagrammes circulaires.2 Séries statistiques à deux variables Chaque variable pouvant être qualitative ou quantitative il existe trois combinaisons (qualitative-qualitative, qualitative-quantitative, quantitative-quantitative)..2. Tableaux de distribution de fréquence Si x i et y j sont les i e me et j eme classes des variables x et y, on note f ij la fréquence absolue des éléments appartenants à ces deux classes. x x 2 x l y f f 2 f l y 2 f 2 f 22 f 2l....... y k f k f k2 f kl Tableau de corrélation Si les deux variables sont qualitatives, il s agit d un tableau de contingences..2.2 Représentation graphique Si les deux variables sont quantitatives on peut tracer un stéréogramme c est à dire histogramme à trois dimensions. diagramme de dispersion c est à dire un nuage de point. Si les deux variables sont qualitatives, la représentation graphique est souvent superflue. S il y a une variable quantitative et une variable qualitative, on peut tracer une série de courbes de fréquence ou d histogramme pour chaque catégorie de la variable qualitative..3 Séries statistiques multiples On dresse un tableau en associant à chaque élément une ligne et à chaque variable une colonne. Les représentations graphiques à deux ou trois dimensions sont possibles mais ne contiennent pas toute l information. 3

2 Description des séries statistiques Définissons quelques variables d une distribution: Les paramètres de position renseignent sur l ordre de grandeur et sur les possibles valeurs centrales. Les paramètres de dispersion renseignent sur l étalement de la distribution et du degré de dispersion autour d une valeur centrale. Les paramètres de totalisation indiquent, pour une population finie, la valeur cumulée jusqu au i eme élément. Les paramètres d ajustement renseignent sur le degré de conformité d une série à un modèle donné. Les paramètres de covariation iindiquent le degré de corrélation ou d interrelation existant entre deux ou plusieurs variables. Les paramètres de similitude renseignent sur le degré ressemblance de divers variables. 2. Les paramètres de position 2.. La moyenne arithmétique ȳ est la moyenne arithmétique de y i : ȳ = n y i. Si les données sont groupées en k classe la formule s écrit ȳ = k f i y i, n avec f i la féquence de la classe i, et y i la valeur centrale de la classe i. La moyenne arithmétique est le paramètre de position qui répond au principe des moindres carrés: d (p x i ) 2 = 0 dp 2..2 La médiane La médiane sépare deux sous-populations d égale importance. Il est facile de retrouver cette médiane graphiquement ou en interpollant à partir de la fonction 4

cumulée. La médiane s écrit M e = L m + i f m ( n 2 f cum), avec L m la limite inférieure de la classe à laquelle appartient le i eme /2 élément, f m la fréquence de la classe médiane, i l intervalle de la classe, n l effectif de l échantillon, f cum la fréquence cumulée jusqu à la limite inférieure de la classe médiane. 2..3 Le mode ou la valeur dominante Le mode est la valeur de la variable qui a la plus forte fréquence. C est le sommet de la courbe. Il s agit alors de calculer la valeur modale ( ) i M o = L + i, i + s avec L la limite inférieure de la classe modale (classe ayant la fréquence la plus élevée), i l intervalle de la classe, i l excédent de fréquence entre la classe modale et la classe inférieure et s l excédent de fréquence entre la classe modale et la classe supérieure. Pour les variables qualitatives le mode est le seul paramètre de position. 2..4 La moyenne géométrique La moyenne géométrique s écrit et M g = n n x i, log(m g ) = n (log(x ) + log(x 2 ) +... + log(x n ) Très utile si on a une progression géométrique ou pour les valeurs nécessitant une transformation logarithmique pour suivre une distribution approximativement normale. 2..5 La moyenne quadratique La moyenne quadratique s écrit x 2 i M q = n. 5

f x=mo=me f x<me<mo x x f f x>me>mo x=me x Mo Mo x Figure : Comparaisons entre différents types de distributions: symétrique, asymétrique à gauche et à droite, bimodale et symétrique Elle sert essentiellement à définir des surfaces moyennes. 2..6 La moyenne des rapports Une série de variables r i résulte du rapport entre deux variables x i et y i. La moyenne des rapports s écrit ou r = n, r i r = x ȳ 2..7 Les paramètres de position de séries statistiques multiples On calcule le centre de gravité et les différents modes [ x j ] = x ij n 6

2.2 Les paramètres de dispersion 2.2. Variables qualitatives var(x) ou s 2 x est la variance de x i: var(x) = s 2 x = (x i x) 2 = x 2 i ( n ) 2 x i. n La variance corespond au carré de la déviation standard s x. s x = s 2 x Le coefficient de variation est le rapport entre la déviation standard et la moyenne exprimé en pourcentage: C v = 00s x x Le moment du troisième ordre s écrit Le coefficient d asymétrie α 3, m 3 = (x i x) 3 α 3 = m 3, s 3 x permet de mesurer la symétrie d une distribution. α 3 0 la courbe est symétrique par rapport à x. α 3 la courbe est allongée vers la droite par rapport à x. α 3 la courbe est allongée vers la gauche par rapport à x. Le moment de quatrième ordre s écrit m 4 = Le coefficient d aplatissement α 4, (x i x) 4 α 4 = m 4, s 4 x permet de mesurer l aplatissement relatif de différentes distributions. 7

2.2.2 Variables quantitatives La richesse est le nombre de catégories d une population. La richesse estimée est l espérence mathématique du nombre de catégories représentées au sein d une sous-population E(rich n ) = ) ( Cn n f k Cn n La diversité H est un indicateur de la répartition des éléments dans les différentes catégories représentées. Pour cela on peut utiliser l indice de Shannon D shannon = p k ln(p k ) La régularité permet de mesurer l étalement d une distribution par rapport à la richesse maximum de cette distribution: R = p k ln(p k ) ln(rich) L indice de diversité de Shannnon est biaisé par la richesse de l échantillon. Ce n est pas le cas de la diversité de Simpson qui calcule la probabilité que deux échantillons successif n appartiennent pas à la même catégorie: D simpson = f k (f k ) n() On défini la concentration de Simpson comme le complément de la diversité C simpson = 2.2.3 Les séries statistique multiples s xy est la covariance des deux variables x et y: f k (f k ) n() s xy = = (x i x)(y i ȳ) n x i y i t= x i y i n. 8

La matrice de covariance s écrit S = avec s 2 s 2 s p s 2 s 2 2 s 2p...... s p s p2 s 2 p s 2 x = s xx 2.3 Les paramètres de totalisation L estimateur de la quantité totale s écrit ˆx = n x L estimateur du nombre d élements au sein d une population est  = np 9