Documents pareils
Statistique : Résumé de cours et méthodes

Statistiques Descriptives à une dimension

STATISTIQUES DESCRIPTIVES

Représentation d une distribution

Statistique Descriptive Élémentaire

Annexe commune aux séries ES, L et S : boîtes et quantiles

Séries Statistiques Simples

Statistiques avec la graph 35+

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Statistiques 0,14 0,11

1. Vocabulaire : Introduction au tableau élémentaire

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

Traitement des données avec Microsoft EXCEL 2010

3. Caractéristiques et fonctions d une v.a.

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

IBM SPSS Statistics Base 20

Introduction à la statistique descriptive

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

FORD C-MAX + FORD GRAND C-MAX CMAX_Main_Cover_2013_V3.indd /08/ :12

Logiciel XLSTAT version rue Damrémont PARIS

SERIE 1 Statistique descriptive - Graphiques

BACCALAURÉAT PROFESSIONNEL SUJET

glossaire Appellation commerciale Voir nom de marque.

EVALUATIONS MI-PARCOURS CM2

La détection des fraudes commises en entreprise au Canada:

Statistiques sur les armes à feu Tableaux mis à jour

MATHÉMATIQUES. Mat-4104

IBM SPSS Direct Marketing 21

Chapitre 2. Le contrat et les concepts de base de en assurance

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Investissement dans la construction de nouveaux bâtiments résidentiels (travaux mis en place) Méthodologie

Résumé du Cours de Statistique Descriptive. Yves Tillé

Tableau de bord des communautés de l Estrie DEUXIÈME ÉDITION INDICATEURS DÉMOGRAPHIQUES ET SOCIOÉCONOMIQUES

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

- Ressources pour les classes

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

LES DIFFERENTS TYPES DE MESURE

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La rémunération des concepteurs. en théâtre au Québec. de 2004 à 2006

Strasbourg. De la statistique. aux probabilités. en lycée. De la statistique. aux probabilités. en lycée. Octobre 2006

Petit lexique de calcul à l usage des élèves de sixième et de cinquième par M. PARCABE, professeur au collège Alain FOURNIER de BORDEAUX, mars 2007

Lire ; Compter ; Tester... avec R

Introduction aux Statistiques et à l utilisation du logiciel R

Étude auprès de la génération X. Le paiement virtuel et la gestion des finances personnelles

Analyse et interprétation des données

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Localisation des fonctions

Leçon 5. Systèmes de gestion à recomplétement périodique et stock de sécurité

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

Secourisme en milieu de travail et responsabilité des différents acteurs.

Note de service À : De :

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

23. Interprétation clinique des mesures de l effet traitement

LE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU

Lecture graphique. Table des matières

Evolution des risques sur les crédits à l habitat

Méthodes quantitatives en sciences humaines. 2 Pratique : 2 Étude personnelle : 2. BUREAU poste courriel ou site web

Chapitre 3 : INFERENCE

Rapport sur les droits à l égalité des. Autochtones

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

1. Les comptes de dépôt et d épargne

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction à l approche bootstrap

Les Américains, les Britanniques et les Canadiens ont une position sévère envers la criminalité

Infolettre #18 : Les graphiques avec Excel 2010

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Extraction d informations stratégiques par Analyse en Composantes Principales

Cahiers de l IMA. Fascicule SPSS

Développement itératif, évolutif et agile

PRINCIPES DE LA CONSOLIDATION. CHAPITRE 4 : Méthodes de consolidation. Maître de conférences en Sciences de Gestion Diplômé d expertise comptable

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

ANALYSE GÉNÉRALE - PROPOSITION DE CORRIGÉ. Exercice 1

Établissement des taux d actualisation fondés sur la meilleure estimation aux fins des évaluations de provisionnement sur base de continuité

Travailler avec les télécommunications

TMS Enterprise Description des rapports

75 ANS D HISTOIRE EN CHIFFRES :

L endettement privé des ménages début 2010

Avis public : Rapport spécial sur les CHÈQUES ET MANDATS FALSIFIÉS

L aide juridique au Nouveau-Brunswick. Fournir de l aide de nature juridique aux personnes à faible revenu

Principe d un test statistique

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Analyse exploratoire des données

Simulation d impact de l augmentation des salaires du personnel de l administration publique et du SMIG et du SMAG dans le secteur privé

CLUB DE MARCHE Ballade et Randonnée

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

Aide-mémoire de statistique appliquée à la biologie

Etude sur l équipement des TPE / PME. en complémentaire santé

Présentation des termes et ratios financiers utilisés

Étude comparative sur les salaires et les échelles salariales des professeurs d université. Version finale. Présentée au

Tableau récapitulatif de l analyse fréquentielle

Collecter des informations statistiques

Préservez votre crédit. Empêchez le vol d identité. GUIDE DES AVANTAGES

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Transcription:

1 Retour sur le cours 3 Présentation de tableaux et graphiques Les mesures de tendance centrale Moyenne Mode (et classe modale) Médiane Les mesures de position Quartiles Déciles Mesures tendance centrale et histogramme La fonction «recoder» 2 Types de variable Types de graphique Particularités Qualitative Diagramme à rectangles Permet de comparer plusieurs groupes. Nominale verticaux ou horizontaux Donne une bonne représentation visuelle Ordinale de la distribution de la variable. Diagramme circulaire ou à secteurs Permet de comparer plusieurs groupes. Donne une bonne représentation des proportions d un tout. À éviter lorsque la variable a plus de 7 modalités. Tableau de Donne un aperçu complet de la fréquence/distribution distribution de la variable, de ses % et de ses % cumulés. Moins visuel. Quantitative discrète Diagramme en bâtons Représentation visuelle facile des valeurs de la variable. Quantitative continue Histogramme Représentation visuelle facile des valeurs de la variable. Polygone de fréquences Rend compte de la continuité de la variable. Permet d identifier le modèle mathématique qui s applique à la distribution. 3

Tableau de fréquence/distribution Tableau 1. Répartition du nombre d armes personnelles enregistrées parmi les agents des douanes du canada, 2008. Nb d armes enregistrées Fréquence % 1 359 42.6% 2 297 35.2% 3 et plus 187 22.2% Total 843 100% Source: Données fictives 4 Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié 7000 6000 Nombre de victimes 5000 4000 3000 2000 1000 0 Aucune Physique légère Physique grave Gravité de la blessure 5 Graphique XX : Répartition du nombre de victimes selon la gravité de la blessure subie lors d'un vol qualifié Physique grave Gravité des blessures Physique légère Aucune 0 1000 2000 3000 4000 5000 6000 7000 Nombre de victimes 6

Diagramme circulaire Source des données 7 Variable quantitative discrète Le diagramme à bâtons Répartition des jeunes en Centre jeunesse selon le nombre d'amis délinquants 40 Pourcentage des répondants (%) 35 30 25 20 15 10 5 0 0 1 2 3 4 5 6 Nombre d'amis délinquants 8 Variable quantitative continue L histogramme ou le polygone de fréquence 9

La statistique descriptives : Les analyses univariées Le ¾ de la population carcérale au Québec est constituée de détenus de moins de 35 ans. 11 L analyse exploratoire des données ou les statistiques descriptives Elle constitue l étape préliminaire à toute analyse statistique, même la plus sophistiquée Elle donne une idée générale de la nature des variables Elle aide à orienter les analyses subséquentes, et à faire des choix judicieux On s attarde habituellement à trois aspects: les mesures de tendance centrale les mesures de dispersion la distribution des résultats (dans le cas des variables continues)

Les mesures de tendance centrale Elle est une mesure qui indique où se trouve la majeure partie des données ou scores d une distribution. Les mesures de tendance centrale sert à représenter le score typique d une distribution Elle est un effort de synthèse: représenter un ensemble d informations sur la base d une seule Il en existe principalement 3 types, qui sont fonction de l échelle de mesure des variables : mode, moyenne et médiane Types d armes à feu Effectifs Armes de poing 67 Armes de chasse 86 Arme d assaut 45 14 Classe modale: Classe où l on retrouve le plus de cas. Nombre d arrestation Effectifs % Aucun 17 14,0 de 1 à 3 61 50,4 de 4 à 6 24 19,8 de 7 à 9 17 14,0 9 et plus 2 1,7 Interprétation: La majorité des criminels a été arrêtée de 1 à 3 fois mais attention à «majorité» ou à «la plupart» le plus souvent c est incorrect, préférez la catégorie le plus souvent représentée, etc Le point milieu de la classe est un bon approximatif du mode. 15

Avantages Il s applique aux variables de tous les niveaux de mesure Il est le seul paramètre de mesure de tendance centrale pour les données nominales Inconvénients Moins utilisé car très sommaire Il peut être difficile à interpréter Il peut être trompeur Il peut y en avoir plusieurs 16 La Moyenne La somme des données divisée par leur nombre. Se calcule sur: Des données brutes Les effectifs d un tableau de distribution Les pourcentages d un tableau de distribution Des données pondérées 17 La Moyenne Données brutes Exemple Distance en km entre la résidence du tueur en série Clifford Olson et les sites de rencontre avec ses victimes. (0.5; 0.5; 7; 8; 13; 18; 3; 4.5; 8; 10; 2) N=11 74,5/11= 6,8km 18

La Moyenne Effectifs d un tableau de distribution 74,5/11= 6,8Km Valeur Effectif Valeur x effectif 0,5 2 1 2 1 2 3 1 3 4,5 1 4.5 7 1 7 8 2 16 10 1 10 13 1 13 18 1 18 Total 11 74,519 La Moyenne Avantages Simplicité du calcul Bon estimateur pour faire de l inférence sur la population Inconvénients Juste pour les variables quantitatives Nécessité de connaître toutes les valeurs que peut prendre la variable (donc ne s applique pas lorsqu il y a des classes ouvertes) Est facilement affectées par les valeurs extrêmes 20 Comment la moyenne est affectée par les valeurs extrême : un exemple Distribution des revenus criminels chez les 450 prisonniers 35 Nombre de prisonniers 30 25 20 15 10 5 0 0 1000 3000 5000 7000 9000 11000 13000 15000 17000 19000 21000 23000 25000 27000 29000 31000 33000 35000 37000 39000 41000 43000 45000 47000 49000 51000 53000 55000 57000 Revenu criminel (en $) Moyenne des revenus criminels : 29 000 $

Comment la moyenne est affectée par les valeurs extrême : un exemple Distribution des revenus criminel chez les 451 prisonniers Nombre de prisonniers 35 30 25 20 15 10 5 0 0 5000 11000 17000 23000 29000 35000 41000 47000 53000 59000 Revenu Criminel ($) Moyenne des revenus criminels avant : 29 000 $ Moyenne des revenus criminels après : 51 000 $ 65000 71000 77000 83000 89000 95000 101000 La médiane La médiane correspond à l'observation du milieu, c'est-à-dire la valeur de part et d'autre de laquelle se situe la moitié des observations. Valeur qui coupe la distribution en 2 parties égales : 50 % à gauche et 50 % à droite Pour la mesurer, on établit la liste des observations individuelles par ordre croissant ou décroissant. On demande à 7 criminels de nous dire combien de crimes ils ont commis. Réponses : 6, 5, 4, 2, 0, 3, 4 La médiane est la données centrale de la série On ordonne en ordre croissant les réponses 0, 2, 3, 4, 4, 5, 6, Médiane = 4 Interprétations: 50 % des criminels ont commis 4 crimes ou moins ou 50% des criminels ont commis 4 crimes ou plus. 24

La médiane sur une variable ordinale La Médiane Aimez-vous la façon dont vous avez été traité par le système pénal? 1- Aucunement 2- Un peu 3- Moyennement 4- Beaucoup 5-Énormément Réponse des 15 participants en ordre croissant 1, 2, 2, 2, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5 7 avant 7 après Interprétation : Au moins 50 % des. estiment avoir beaucoup ou énormément aimé la façon dont ils ont été traité par le système pénal. La Médiane Avantages Elle s applique aux variables ordinales et quantitatives Elles n est pas influencée par les valeurs extrêmes Elle est un bon substitut de la moyenne Désavantages Ne s applique pas pour les variables nominales 26 Le choix de la mesure de tendance centrale Qualitative Quantitative Nominale Ordinale Discrète Continue 1 MODE 1 MODE 2 MÉDIANE 1 MODE 2 MÉDIANE 3 MOYENNE 1 MODE 2 MÉDIANE 3 MOYENNE

A La symétrie Mode = médiane = moyenne Moyenne est le meilleur indicateur de tendance centrale Moyenne L asymétrie Positive: mode < médiane < moyenne Concentration de faibles valeurs Médiane est le meilleur indicateur de tendance centrale D Moyenne Négative: mode > médiane > moyenne Concentration de fortes valeurs Médiane est le meilleur indicateur de tendance centrale C Moyenne Moyenne Échelle d intervalle Échelle de rapport Dépend de toutes les données et de leur nombre. La moyenne est unique Idéale lorsque la distribution est relativement symétrique et unimodale. Mode (et classe modale) Échelle d intervalle Échelle de rapport Échelle ordinale Échelle nominale Dépend de la fréquence des modalités/valeurs. Il peut y avoir plus d un mode Il ne fait sens que si la fréquence du mode est nettement supérieure à celle des autres valeurs ou modalités. Médiane Échelle d intervalle Échelle de rapport Échelle ordinale Dépend du nombre de données et de leur rang. La médiane est unique Utile dans les cas de distribution très asymétrique. Elle est un bon complément à la moyenne. Dans une distribution normale, la moyenne, le mode et la médiane sont similaires. 29 Utilité Renseignent sur la position d une donnée par rapport aux autres données d une distribution ordonnée. Quantiles: valeurs qui partagent une distribution en un certain nombre de parties égales. Quartiles Quintiles Déciles Centiles 30

Séparent la distribution en 4 groupes de même effectifs (à une unité près). Il existe 3 quartiles qui divisent la distribution en 4 sous-groupes: 1 er quartile (Q1): 25% des données Un quart des valeurs sont inférieures à Q1 2 ème quartile (Q2): 50% des données 3 ème quartile (Q3): 75% des données Un quart des valeurs sont supérieures à Q3 31 Séparent une série statistique en 10 groupes de mêmes effectifs (à une unité près). Il existe 9 déciles qui divisent la distribution en 10 sous-groupes. 1 er décile (D1): 10% des données 9 ème décile (D9): 90% des données Interprétations: Au moins 10% des valeurs sont inférieures ou égales à D1 Au moins 90% des données sont inférieures ou égales à D9... 32 33

Au Laboratoire aujourd hui Pour obtenir les mesures de tendance centrale Analyse Statistiques descriptives - Effectifs Option Statistiques Deux types Apporter des modifications aux valeurs/modalités existantes (Recoder) Créer de nouvelles variables à l aide des variables existantes (Calculer) 36

Pour tenir compte des valeurs manquantes (NSP, pas de réponse ) Pour éliminer les valeurs extrêmes et douteuses (exagérées) Pour tenir compte des erreurs humaines (durant la collecte ou la saisie) Pour apporter des modifications afin d adapter les données à vos propres questions de recherche Pour réduire le nombre de catégories 37 Recodage d une variable qualitative nominale Recodage d une variable quantitative en classes égales Statistics valvolfr Valeur du vol ou de la fraude N Valid 5708 Missing 2768 Mean 1744,1759 Median 200,0000 Mode 100,00 Minimum 1,00 Maximum 350000,00 Percentiles 25 86,0000 50 200,0000 75 628,7500 Valid Missing Total ValeurVol_recodée Valeur du vol en 4 catégories Cumulative Frequency Percent Valid Percent Percent 1,00 Entre 1 et 86 $ 1428 16,8 25,0 25,0 2,00 Entre 87 et 200 $ 1457 17,2 25,5 50,5 3,00 Entre 201 et 628. 1396 16,5 24,5 75,0 75 $ 4,00 629 $ et plus 1427 16,8 25,0 100,0 Total 5708 67,3 100,0 System 2768 32,7 8476 100,0 Variable quantitative Continue Variable qualititative ordinale

Recodage d une variable quantitative en classes inégales Age du suspect varie de 0 à 60 (Variable continue) 80 70 60 50 40 30 20 10 0 Recode en fonction des groupes d âge établis par Statistique Canada (variable ordinale) Moins de 5 ans 5 à 9 ans 10 à 14 ans 15 à 24 ans 25 à 34 ans, ETC Recodage d une variable quantitative en classes inégales Échelle de comportements délinquants varie de 1 à 4 (1.15, 1.2, 2.3, 2.5, etc.) Échelle a été créé en additionnant plusieurs indicateurs de type qualitative ordinale. 1 Jamais 2 peu souvent 3 très souvent 4 toujours On peut créer des catégories en fonction de ces délimitations : (1) 1 ; (2) 1.01 à 2 ; (3) 2.01 à 3 (4) 3.01 à 4