L analyse des données statistiques



Documents pareils
Séries Statistiques Simples

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Logiciel XLSTAT version rue Damrémont PARIS

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La classification automatique de données quantitatives

Statistique Descriptive Élémentaire

Leçon N 4 : Statistiques à deux variables

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Statistiques Descriptives à une dimension

Extraction d informations stratégiques par Analyse en Composantes Principales

Traitement des données avec Microsoft EXCEL 2010

Cycle de formation certifiante Sphinx

Annexe commune aux séries ES, L et S : boîtes et quantiles

Relation entre deux variables : estimation de la corrélation linéaire

1. Vocabulaire : Introduction au tableau élémentaire

La place de SAS dans l'informatique décisionnelle

Observatoire Economique et Statistique d Afrique Subsaharienne

Aide-mémoire de statistique appliquée à la biologie

Table des matières. I Mise à niveau 11. Préface

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Statistique : Résumé de cours et méthodes

Représentation des Nombres

Lire ; Compter ; Tester... avec R

Scénario: Données bancaires et segmentation de clientèle

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Analyse en Composantes Principales

PROBABILITES ET STATISTIQUE I&II

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

INTRODUCTION. Cadre d évaluation de la qualité des données (CEQD) (juillet 2003)

Stages de Formation en Statistique Appliquée et Logistique

Chapitre 3. Les distributions à deux variables

Quelques éléments de statistique multidimensionnelle

IBM SPSS Statistics Base 20

Localisation des fonctions

INTRODUCTION AU DATA MINING

FORMULAIRE DE STATISTIQUES

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

> innovation. Action «Normalisation» descriptif

Résumé du Cours de Statistique Descriptive. Yves Tillé

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

NOTICE DOUBLE DIPLÔME

Plan de formation des Personnels en CUI-CAE Année

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

4.2 Unités d enseignement du M1

Introduction à l approche bootstrap

1 Importer et modifier des données avec R Commander

Stages de Formation en Statistique Appliquée et Logistique

Data mining 1. Exploration Statistique

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

Biostatistiques : Petits effectifs

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Un logiciel de statistiques complet

SPHINX Logiciel de dépouillement d enquêtes

TABLE DES MATIERES. C Exercices complémentaires 42

Ensae-Ensai Formation Continue (Cepe)

données en connaissance et en actions?

IBM SPSS Regression 21

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Statistiques descriptives

Chapitre 3 : INFERENCE

Représentation d une distribution

Complet Intuitif Efficace. Références

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Loi binomiale Lois normales

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Introduction au Data-Mining

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

IBM SPSS Direct Marketing 21

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

S LICENCE INFORMATIQUE Non Alt S Alt S S1 S2 S3 S4 SS5 S6 Parcours : S IL (Ingénierie Logicielle) SRI (Systèmes et Réseaux Informatiques)

Régression linéaire. Nicolas Turenne INRA

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Formations. Esprit de service, Exigence technologique. Business Intelligence Business Analytics Big Data et Data Science Etudes Cliniques

Activité 11 : Nuage de points ou diagramme de dispersion

INDICES DE PRIX EXPÉRIMENTAUX DES SERVICES FINANCIERS

Classification non supervisée

Le suivi de la qualité. Méthode MSP : généralités

Économie, statistique, finance et actuariat

Projet de Traitement du Signal Segmentation d images SAR

L'analyse des données à l usage des non mathématiciens

A. Le contrôle continu

CAPTEURS - CHAINES DE MESURES

SERIE 1 Statistique descriptive - Graphiques

ACP Voitures 1- Méthode

DIOGENE. Un logiciel de Génétique & Amélioration des Plantes

La diffusion des résultats statistiques du recensement de la population

Introduction à la statistique descriptive

Transcription:

L analyse des données statistiques Public : Les cadres devant analyser des données quantitatives et qualitatives Objectif : Apprendre, en utilisant principalement Excel : - à traiter des données provenant notamment des données de statistiques publiques (Exemple : données issues du recensement, de la base SITADEL, d un fichier commun de demande de logements sociaux) - en utilisant les techniques les plus communes d analyse statistique descriptive, d analyse multidimensionnelle des données et d outils de prévision. Méthodes pédagogiques: Notre méthode de travail est l alternance d apports théoriques et d exercices pratiques bâtis sur des exemples non confidentiels tirés de notre expérience. Support logiciel : Excel, StatBox Certaines méthodes pourront être démontrées sur d autres supports. Formateur : Nicolas Paris Le déroulement de la formation est susceptible d être adapté en cours de formation. OPTIMA Parc Cadera 32 Avenue Ariane 33700 Mérignac France page n 1

1 ère journée Objectifs : acquérir ou revoir les notions fondamentales adopter le vocabulaire normalisé ou d usage comprendre les principes de la statistique descriptive produire les résultats dans Excel savoir interpréter les résultats Statistiques descriptives : - Individus et variables ou la construction du tableau de données : o comment repérer les individus? o définir les variables, o problème des données hétérogènes quant : aux niveaux d agrégats différents aux périodicités non identiques aux sources différentes - Classement des données : o données quantitatives : continues, discrètes, o données qualitatives : nominales, ordinales, - Distribution de fréquence : o notion de variable aléatoire, o lois de probabilité usuelles : le cas de la loi normale, o fréquence absolue, o fréquence relative, o mise en œuvre dans Excel. - Mesures de tendance centrale : o la moyenne : arithmétique, géométrique, quadratique o la médiane, le mode o mise en œuvre dans Excel - Mesures de dispersion : o la variance, o l écart-type, o les percentiles, o mise en œuvre dans Excel. - Mesure des données temporelles : o les choix des indices o calcul des évolutions o lecture associée d indice OPTIMA Parc Cadera 32 Avenue Ariane 33700 Mérignac France page n 2

- Les représentations graphiques associées : o Histogramme, o diagramme en bâton, o diagrammes en secteurs, o nuages de points, o boîtes à moustaches, o mise en œuvre dans Excel - Les tableaux croisés dynamiques - La cartographie statistique : o les fonds de cartes et les variables d identification o les modes de représentation o le choix des variables à représenter Bonnes pratiques dans la conduite d analyse statistique - découpage des variables numériques en classes, - prise en compte des valeurs manquantes, - moyenne et écart-type, - problèmes de généralisation des résultats obtenus. OPTIMA Parc Cadera 32 Avenue Ariane 33700 Mérignac France page n 3

2ème journée Objectifs : fixer les connaissances acquises en journée 1 comprendre et mettre en œuvre : statistique inférentielle et modèle de régression savoir interpréter les méthodes Rappel de la première journée, questions. Statistique inférentielle - Problèmes d estimation o distribution d échantillonnage, o intervalle de confiance, - Tests d hypothèses : o principe, o hypothèses et risques, o uni et bilatéralité, o spécificités des tests de normalité et des tests non paramétriques, o parallèle entre les tests usuels paramétriques et non paramétriques. - Mise en œuvre dans Excel o test-t de Student et test-t sur séries appariées, o test du chi2, o analyse de la variance à un facteur sur séries indépendantes, - Avec pour chaque test : o but, hypothèses et conditions de validité, o mode de calcul, o interprétation des résultats. Outils de prévision : expliquer - Notion de corrélation : o mesures de dépendance, o mesures de dépendance monotone, o mesures de concordance, o la notion de causalité, o mise en œuvre dans Excel OPTIMA Parc Cadera 32 Avenue Ariane 33700 Mérignac France page n 4

- Régression linéaire : o le modèle, o l estimation des coefficients du modèle, o ajustement du modèle, o hypothèses sous jacente à vérifier, o régression linéaire et corrélation : les pièges à éviter, o mise en oeuvre dans Excel. - Régression linéaire multiple : o le modèle, o une généralisation de la régression linéaire simple, o problèmes de colinéarité, o choix des variables à inclure, o exemple o mise en œuvre dans Excel. OPTIMA Parc Cadera 32 Avenue Ariane 33700 Mérignac France page n 5

3ème journée : Objectifs : fixer les connaissances acquises en journée 2 comprendre et mettre en œuvre : ACP, AFC et classification hiérarchique savoir interpréter les résultats Synthétiser - l analyse en composante principale (ACP) o les dimensions o les composantes principales o le tableau des données o l espace des individus o l espace des variables o une représentation graphique optimalisée : qualité de la représentation o de l intérêt à normaliser les données o en pratique : expliquer la variabilité o en pratique : lire la représentation graphique o ACP et ajustement o mise en œuvre dans StatBox. - l analyse factorielle des correspondances (AFC) o sur quelles variables? o le tableau des données o l espace des modalités lignes et des modalités colonnes o représentation des modalités lignes et colonnes dans le même sous espace o qualité de la représentation o en pratique : expliquer la variabilité o en pratique : lire la représentation graphique o mise en œuvre dans StatBox - l analyse factorielle des correspondances multiples : o de l AFC à l AFCM o le tableau des données o analyse et interprétation par l exemple o mise en œuvre dans StatBox OPTIMA Parc Cadera 32 Avenue Ariane 33700 Mérignac France page n 6

Classifier - la classification ascendante hiérarchique : o principe de fonctionnement o choix des variables o indice de dissimilarité o indice d agrégation et algorithme de classification o représentation graphique : le dendrogramme o déterminer le nombre de groupe o déterminer la césure du dendrogramme o caractériser les groupes o exemple o mise en œuvre dans StatBox Synthèse : organigramme général de décision - les grandes familles de méthodes étudiées - savoir formaliser sa problématique - savoir choisir la bonne méthode pour la bonne question - Evaluation écrite et orale OPTIMA Parc Cadera 32 Avenue Ariane 33700 Mérignac France page n 7