Statistiques descriptives. Pierre Neuvial, Evry, M1 SGO, automne 2014

Documents pareils
Séries Statistiques Simples

Statistiques Descriptives à une dimension

Statistique : Résumé de cours et méthodes

Statistiques 0,14 0,11

Annexe commune aux séries ES, L et S : boîtes et quantiles

1. Vocabulaire : Introduction au tableau élémentaire

Représentation d une distribution

3. Caractéristiques et fonctions d une v.a.

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Statistique Descriptive Élémentaire

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Lire ; Compter ; Tester... avec R

Logiciel XLSTAT version rue Damrémont PARIS

Résumé du Cours de Statistique Descriptive. Yves Tillé

MATHÉMATIQUES. Mat-4104

Statistiques à une variable

Statistiques avec la graph 35+

Introduction aux Statistiques et à l utilisation du logiciel R

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Evaluation de la variabilité d'un système de mesure

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Aide-mémoire de statistique appliquée à la biologie

Analyse et interprétation des données

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

STATISTIQUES DESCRIPTIVES

23. Interprétation clinique des mesures de l effet traitement

- Ressources pour les classes

Chapitre 3. Les distributions à deux variables

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Statistiques descriptives

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

d évaluation de la toux chez l enfant

IBM SPSS Direct Marketing 21

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Degré de confiance pour les indicateurs de performance : degré de fiabilité du processus de production et écart significatif 1

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Le patrimoine des ménages retraités : résultats actualisés. Secrétariat général du Conseil d orientation des retraites

IBM SPSS Statistics Base 20

Bulletin d information statistique

SERIE 1 Statistique descriptive - Graphiques

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

Introduction : Essais de phase I

TD 3 : suites réelles : application économique et nancière

TD1 Signaux, énergie et puissance, signaux aléatoires

P our appeler : Décrochez le combiné et composez le numéro OU Composez le numéro et décrochez le combiné

Estimation et tests statistiques, TD 5. Solutions

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

Fiche conseil n 16 Audit

ACT3284 Modèles en assurance IARD Examen Final - 14 décembre 2011

Procédure Création : 04/05/2009 ARCHIVAGE DE LA MESSAGERIE

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Biostatistiques : Petits effectifs

Document d orientation sur les allégations issues d essais de non-infériorité

8 Certifications Minergie

Classe de première L

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Leçon N 4 : Statistiques à deux variables

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Calculs de probabilités avec la loi normale

Cours d algorithmique pour la classe de 2nde

PLAN DE COURS CEGEP DU VIEUX-MONTRÉAL

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Élément 424b Introduction à la statistique descriptive

France et Allemagne : deux moteurs aux régimes distincts

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

1 Importer et modifier des données avec R Commander

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

glossaire Appellation commerciale Voir nom de marque.

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

1. L'été le plus chaud que la France ait connu ces cinquante dernières années.

Code_Aster. Procédure IMPR_RESU aux formats 'RESULTAT' et 'ASTER' 1 But

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Observatoire Crédit Logement / CSA du Financement des Marchés Résidentiels Tableau de bord trimestriel 1 er Trimestre 2013

LES CRITÈRES D'ATTRIBUTION ET RÈGLES D APPLICATION DE RÉMUNÉRATIONS ADDITIONNELLES POUR LES EMPLOYÉS COUVERTS PAR L UNITÉ SCRC

QUEL PROTOCOLE DE REENTRAINEMENT PROPOSER AUX PATIENTS INSUFFISANTS CARDIAQUES?

Analyse exploratoire des données

FORMULAIRE DE STATISTIQUES

Fiche descriptive de l indicateur : Tenue du dossier anesthésique (DAN)

N / /02/2014

Observatoire Crédit Logement / CSA du Financement des Marchés Résidentiels Tableau de bord trimestriel 2 ème Trimestre 2014

Capacité Métal-Isolant-Semiconducteur (MIS)

Corrélation entre deux classements. ρ Le coefficient de rang de Spearman

Structure de base d un ordinateur

PROBLEME(12) Première partie : Peinture des murs et du plafond.

Résonance Magnétique Nucléaire : RMN

Logistique, Transports

Matérialiser les données d une BdD : créer une carte de densité de points par maillage

Utilisation du Logiciel de statistique SPSS 8.0

Introduction à la statistique descriptive

M. F. PITA Departamento de Geografía Física. Universidad de Sevilla. C/ María de Padilla s.n SEVILLA (Espagne).

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

Tests de sensibilité des projections aux hypothèses démographiques et économiques : variantes de chômage et de solde migratoire

SOMMAIRE INTRODUCTION... 3

Brock. Rapport supérieur

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Transcription:

Démarche Statistique 1 Statistiques descriptives Pierre Neuvial, http://stat.genopole.cnrs.fr/~pneuvial Evry, M1 SGO, automne 2014

Introduction

Variables quantitatives Définition: variable mesurant une quantité Propriété: variable sur laquelle on peut faire des opérations arithmétiques (somme, moyenne,...) Variable continue peut prendre (en théorie) un nombre infini de valeurs taille, pression artérielle,... Variable discrète ne peut prendre qu'un nombre fini de valeurs nombre d'individus dans un foyer, nombre de lectures (reads) s'alignant à un endroit particulier du génome dans une expérience de RNAseq,... 3/29

Variables qualitatives Définition: variable dont chacune des "modalités" (valeurs possibles) décrivent une qualité, au sens étymologique de: "une nature possible" Propriété: variable sur laquelle on ne peut pas faire des opérations arithmétiques! On peut en revanche calculer des effectifs et des fréquences Variable nominale dont les modalités sont décrites par un "nom" sexe, groupe sanguin Variable ordinale dont les modalités traduisent un ordre taille de vêtements, échelle de préférence 4/29

Quel type de variable? Code postal variable nominale ou ordinale? variable continue ou discrète? Génotype variable nominale ou ordinale? Niveau d'expression d'un gène variable continue ou discrète? 5/29

Variables qualitatives

Exemple: échelle de douleur Description étude post-opératoire 60 patients échelle ordinale de douleur: "none", "mild", "moderate", "severe" Données brutes (6 premiers patients) PT_NUM PAIN_LEVEL 1 1 moderate 2 2 none 3 3 mild 4 4 none 5 5 severe 6 6 none 7/29

Effectif, fréquence, et leurs versions cumulées Exemples de questions Certains niveaux de douleurs sont-ils plus fréquents que d'autres? La douleur sévère est-elle rare? Indicateurs permettant de résumer ces données EFFECTIF FRÉQUENCE EFF. CUM. FRÉQ. CUM. none 31.00 0.52 31.00 0.52 mild 17.00 0.28 48.00 0.80 moderate 8.00 0.13 56.00 0.93 severe 4.00 0.07 60.00 1.00 On a représenté la distribution des effectifs et des fréquences de l'échantillon. 8/29

Représentations graphiques: barplot Effectifs Fréquences 9/29

Variables continues

Résumer un échantillon de données continues Une variable numérique (ex: la taille) peut prendre un nombre infini de valeurs. On ne peut donc pas résumer un échantillon de données continues à l'aide d'effectifs ou de fréquences comme dans le cas des données discrètes. Indicateurs numériques mesures de position (moyenne, médiane,...) mesures de dispersion (étendue, variance, écart-type,...) quantiles Ces indicateurs pourront être définis sur la population, ou sur un échantillon Représentations graphiques histogrammes boîtes à moustache ("boxplot") 11/29

Notation pour la somme Somme des éléments A Si est un ensemble de nombres on notera la somme des éléments de. Si A = {3, 5, 4, 8, 7}, alors En particulier si est un ensemble contenant les éléments on pourra aussi écrire cette somme comme. Lorsqu'il n'y a pas d'ambiguité sur l'ensemble considéré, on pourra noter cette somme. Somme des carrés a A a A a a = 27 A k a 1, a 2, k i=1 a i A a k a A a 2 a A = 163 12/29

Mesures de position

Moyenne x n x 1, x 2, On considère un échantillon noté de valeurs x n Définition xˉ = n i=1 x i n Exemple Si l'échantillon est 3, 5, 4, 8, 7, alors = = 5.4 Propriété 27 xˉ 5 La moyenne est influencée par toutes les observations de l'échantillon 14/29

Médiane x n x 1, x 2, On considère un échantillon noté de valeurs x n On note x (1), x (2), x (n) l'échantillon ordonné correspondant: x (1) x (2) x (n) La médiane est la valeur telle que la moitié des observations de l'échantillon sont plus grandes qu'elle (et donc aussi) la moitié des observations de l'échantillon sont plus petites qu'elle Formule si n est impair, med(x) = x ((n+1)/2) si n est pair, med(x) = x (n/2) + x ((n+1)/2) 2 Propriété La médiane n'est pas influencée par les observations extrêmes de l'échantillon 15/29

Moyenne et médiane Si l'échantillon est 3, 5, 4, 8, 7, alors xˉ = 5.4 et med(x) = 5 Si l'échantillon est 3, 5, 4, 8, 7, 2, 11, alors xˉ = 5.7142857 et med(x) = 5 Si l'échantillon est 3, 5, 4, 8, 7, 2, 161, alors xˉ = 27.1428571 et med(x) = 5 Quantiles La valeur telle qu'une proportion p des observations sont plus petites qu'elle (et donc (1 p) sont plus grande qu'elle) est appelée quantile d'ordre p de l'échantillon. PROPORTION NOM DU QUANTILE PROPORTION NOM DU QUANTILE 10% premier décile 25% premier quartile 75% dernier quartile 90% dernier décile 50% médiane p % centile d'ordre p 16/29

Mesures de dispersion

Étendue x n x 1, x 2, On considère un échantillon noté de valeurs x n On note x (1), x (2), x (n) l'échantillon ordonné correspondant: x (1) x (2) x (n) Définition L'étendue (range en anglais) est la distance séparant la plus petite et la plus grande valeur: Exemple Si l'échantillon est 3, 5, 4, 8, 7, alors Range(x) = 5 Propriété Range(x) = L'étendue dépend uniquement des observations extrêmes de l'échantillon. C'est donc une mesure très instable de la dispersion x (n) x (1) 18/29

Variance, écart-type x n x 1, x 2, On considère un échantillon noté de valeurs x n La variance est la moyenne des carrés des écarts de chaque observation s 2 s On la note, où est appelé écart-type s 2 1 = ( x n 1 i xˉ) 2 i=1 n x i à la moyenne xˉ Propriétés comme son nom l'indique, s traduit l'écart typique entre deux observations de l'échantillon. contrairement à la variance, l'écart type a la même échelle que les variables de l'échantillon. x s s 2 si est un échantillon de tailles en cm, alors est aussi en cm alors que est en cm. Exemple Si l'échantillon est 3, 5, 4, 8, 7, alors s = 2.0736441 19/29

Autres mesures de variabilité Moindres écarts absolus (median absolute deviation, mad) La mad est la médiane des valeurs absolues des écarts de chaque observation xˉ 1 mad = x n i xˉ i=1 n x i à la médiane Intervalle inter-quartile (inter-quartile range, IQR) L'IQR est la distance entre le premier et le troisième quartile Comparaison des mesures de dispersion SD MAD IQR 3,5,4,8,7 2.07 2.97 3.00 3,5,4,8,7,2,11 3.15 2.97 4.00 3,5,4,8,7,2,161 59.06 2.97 4.00 20/29

Représentations graphiques

Tracé en bande ("stripchart") Taille de 10 hommes français: toutes les valeurs observées sont représentées le graphique donne une idée de leur distribution 22/29

Limites du stripchart Taille de 100 hommes français on ne voit plus grand chose! nécessité de regrouper les valeurs similaires pour résumer l'information 23/29

Histogramme les valeurs de l'échantillon sont regroupées en classes chaque classe est représentée par un rectangle la surface du rectangle est proportionnelle à la fréquence de la classe 24/29

Histogramme L'allure de l'histogramme peut dépendre du nombre de classes considéré 25/29

Boîte à moustaches ("boxplot") 26/29

Histogramme et fonction de répartition empirique Histogramme Fonction de répartition empirique 27/29

Loi normale Densité Fonction de répartition 28/29

Loi empirique et loi théorique Densités Fonctions de répartition 29/29