Panorama des statistiques à l UCL



Documents pareils
Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Principe d un test statistique

données en connaissance et en actions?

Manuel de recherche en sciences sociales

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Séries Statistiques Simples

Introduction à l approche bootstrap

PLAN DE COURS. Département de sociologie Université du Québec à Montréal

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Table des matières. I Mise à niveau 11. Préface

Utilisez Toucan portable pour vos sauvegardes

Item 169 : Évaluation thérapeutique et niveau de preuve

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

La nouvelle planification de l échantillonnage

Observatoire Economique et Statistique d Afrique Subsaharienne

Why Software Projects Escalate: The Importance of Project Management Constructs

Estimation et tests statistiques, TD 5. Solutions

La place de SAS dans l'informatique décisionnelle

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Chapitre 3 : INFERENCE

Cycle de formation certifiante Sphinx

TD d économétrie appliquée : Introduction à STATA

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Le risque Idiosyncrasique

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Relation entre deux variables : estimation de la corrélation linéaire

DEMOGENVISU VERSION MODE D EMPLOI

- Le Diagramme de Gantt. - Le Diagramme de Pert - La Méthode QQCQCCP - La Méthode MOSI - Cahier des charges fonctionnel

L assurance de la qualité à votre service

Étalonnage Consolidation au Québec

LimeSurvey. Pour obtenir un compte sur le LimeSurvey de l Université de Genève, remplissez le formulaire de demande en ligne.

Ecole Supérieure de la Statistique et de l Analyse de l Information المدرسة العلیا للا حصاء وتحلیل المعلومات بتونس. Sujet N 1

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Business Talk IP Centrex. guide. web utilisateur. pour. les services standards

SPF FIN. Patris Spécification de Use Case: 15-UC01 Obtenir de l'information patrimoniale. Version 1.1

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Notoriété et perception de l IAE

Méthodes de recherches et rédaction des mémoires

Rapports d activités et financiers par Internet. Manuel Utilisateur

Complaints Manager 4/06/2015 Page 1 Arpaweb 2015

Économétrie, causalité et analyse des politiques

Eléments de méthodologie générale de montage des projets structurants

Statistiques à une variable

Chapitre 3. Les distributions à deux variables

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Statistique inférentielle TD 1 : Estimation

Lecture critique et pratique de la médecine

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Leçon N 4 : Statistiques à deux variables

Ressources nécessaires (avec budget)

Manuel de l utilisateur Solwatt du service extranet.

Les Français et l assurance

FD/YMC N Contacts IFOP : Frédéric Dabi / Yves-Marie Cann POUR

Les Français et la confiance

ECOLE NATIONALE SUPERIEURE DE COGNITIQUE. Paul Bui- Quang & Joachim Yerusalmi 03/01/2011

Introduction à la méthodologie de la recherche

PHP 2 Pratique en santé publique fondée sur des données probantes

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

LOG2420 Analyse et conception d interfaces utilisateur

TABLE DES MATIERES. C Exercices complémentaires 42

GUIDE D UTILISATION DE LA BASE DE DONNEES SUR LES PROJETS EXISTANTS ET PREVUS

Séance 0 : Linux + Octave : le compromis idéal

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Structure typique d un protocole de recherche. Préparé par Johanne Desrosiers dans le cadre d une formation au réseau FORMSAV

REFERENTIEL PROFESSIONNEL DES ASSISTANTS DE SERVICE SOCIAL

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION

Manuel utilisateur Portail SAP

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

PrestaHR est LA solution pour une gestion complète, efficace et innovante des ressources humaines.

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Traitement des données avec Microsoft EXCEL 2010

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

Introduction au datamining

L analyse de la gestion de la clientèle

Méthode de préparation du fichier texte d import depuis Excel, via Access jusqu à Drupal.

Statistiques Descriptives à une dimension

Business Intelligence

Adobe Premiere Pro Exportation

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Le tableau présente 6 processus de la gestion des ressources humaines et un volet communication:

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Mémoire du Master 120 en COMU * modalités et mise en oeuvre

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Introduction aux Statistiques et à l utilisation du logiciel R

Principe de fonctionnement du lanceur d'application "AdisTlsStartCfgLotus"

Examen de Logiciels Statistiques

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

MANUEL UTILISATEUR. ADELYAMIN Version V1.0

Evaluation de l impact des indicateurs du. Cost of Doing Business sur le taux de croissance de Maurice

Lancez le setup, après une phase de décompression, la fenêtre d installation des prérequis apparaît, il faut les installer :

Transcription:

Support en Méthodologie et Calcul Statistique Panorama des statistiques à l UCL Dedonder Jonathan Lefevre Nathalie Van Pachterbeke Matthieu Les statistiques : quand? Contenu Conception du projet Quand penser aux analyses statistiques? Quels sont les supports statistiques et méthodologiques UCL? Quel logiciel statistique employer? Les big-5 UCL Statistiques descriptive et inférentielle Ecueils courants dans les analyses statistiques Présentation Reporting Analyses Interprétation Préparation Design Récolte de données Data Management 3 4

Les statistiques : quand? Les statistiques : quand? Conception du projet Présentation Reporting Préparation Design Analyses Interprétation Récolte de données Data Management 5 6 Les statistiques : quand? Les statistiques : quand? Conception du projet Anticiper Présentation Reporting Préparation Design Réfléchir aux modèles Analyses Interprétation Récolte de données Data Management Comprendre les méthodes Se former aux méthodes Choisir un logiciel (En cas de collaboration) 7 8

Le smcs Les supports statistiques et méthodologiques UCL Le smcs Les supports locaux Le support aux enquêtes Consultance : de l avis à l analyse entière Formation : aux logiciels et méthodes Outils statistiques : mise à disposition (interne UCL) Service enquête Infos et contacts : uclouvain.be/smcs/ 9 10 Le smcs : Consultance Le smcs : Formations Tout problème ponctuel Proposition de pistes Vise l autonomie du chercheur Analyses entières (prévoir un budget) Demandeur = propriétaire et responsable Entrer une demande (via site smcs) Formations récurrentes (1-2 / an) Logiciels statistiques : SAS, SPSS, R, Stata Logiciels de récoltes et d analyse : LimeSurvey, Nvivo Méthodes statistiques : analyses multivariées SEM, médiations et modérations Formations sur mesure à demander (p.ex. pour un labo) prévoir budget 11 12

Le smcs : Formations Le smcs : Outils statistiques Calendrier des formations cf site : uclouvain.be/smcs onglet Formations Documentation cf site: uclouvain.be/smcs onglet Documentation Serveurs de logiciels Logiciels pour un usage ponctuel! Sauver ses données sur son poste de travail Pas d installation ni de licence Pensez à un «Parcours de formation» HLM, Lisrel, Mplus (latent variable modeling program), PASS (power analysis, calcul de taille d échantillon) UCINET (analysis of social network data) Cf site smcs : uclouvain.be/smcs onglet Serveurs ou Logiciels 13 14 Les supports locaux Les supports locaux Facultés/Ecoles Secteur des Sciences Humaines (SSH) Instituts ACTIVITES Consultance : de l avis à l analyse entière Formation : aux logiciels et méthodes Outils statistiques : mise à disposition (interne UCL) RSCS ILSM JUR-I ISP INCAL IACC HOS ISPOL E IL&C IPSY IMMA Q Premiers contacts/interface avec le smcs Jonathan Dedonder Nathalie Lefèvre 15 16

Les supports locaux Le support aux enquêtes FLEXIBILITE L aide à la création et réalisation d enquête IACC HOS ISPOL E IL&C Questionnaire = Outil privilégié en Sciences Humaines Soutient à l analyse Quantitative et Qualitative Consultances Formations spécialisées Intervention écoles doctorales et écoles d été Rapide & Facile Coûts faibles MAiS! Touche un grand nombre de personnes Réponses standardisées & prêtes à être encodées Appui à des projets à «long termes» Veille scientifique 17 18 Le support aux enquêtes Le support aux enquêtes L aide à la création et réalisation d enquête L aide à la création et réalisation d enquête Problèmes rencontrés: Conceptualisation de la question de recherches Conception des questions Modalité de réponses Sélection de la population Choix de l outil 19 20

Le support aux enquêtes Le support aux enquêtes L aide à la création et réalisation d enquête L aide à la création et réalisation d enquête Création d un appui aux enquêtes Formation: 19, 20, 26, 27 novembre 2014 (4 jours 9h30 16h30) Transformer une question de recherche théorique en une question empirique Planification d'une récolte de données Construction d'un questionnaire Plans de sondage et échantillonnage Communautarisation des connaissances Mise à disposition de tablettes 21 22 Logiciels statistiques : Big-five Les logiciels statistiques 5 logiciels mis à disposition gratuitement ou à coût réduit Le principe Big-five SPSS SAS JMP Stata R Pour les étudiants, le personnel UCL et les autres membres UCL Installation annuelle par le SGSI Support possible via smcs info-big5-stat@uclouvain.be 23 24

Logiciels statistiques : SPSS Logiciels statistiques : SAS Interface graphique (GUI), multiplateformes, extensions (payantes), Répandu en sciences humaines, format des sorties personnalisable Ensemble de composants (analyse de données + gestion de données ) Accès via du code ou via une interface graphique (enterprise guide) 25 Logiciels statistiques : JMP 26 Logiciels statistiques : Stata Interface graphique (GUI), multiplateformes Exploration graphique dynamique des données Permet de faire tourner du code SAS Interface graphique (GUI) et console Répandu en économie, économétrie, sociologie, sciences politiques et épidémiologie 27 28

Logiciels statistiques : R Libre (et gratuit), langage (fonctions dans des packages), Interfaces graphiques (limitées) Satistiques descriptives et inférentielles 29 30 Statistiques descriptives Statistiques descriptives Résumer (graphique ou numérique) Repérer les données qui interpellent tendance centrale (moyenne, médiane,...) dispersion (étendue, écart-type, variance,...) distribution Comprendre les données, trouver une première réponse à la question de recherche relations entre variables (2à2 ou multivariées) Comparer l échantillon à la population (ex: répartition des âges, genres ) Vérifier (en partie) si les tests prévus pourront être appliqués 31 32

Inférence statistique Inférence statistique Processus qui permet de tirer des conclusions sur une population à partir d un échantillon aléatoire représentatif de celle-ci. Population Eléments d un test d hypothèses Définir les hypothèses à tester H0 et H1 H1 correspond à l effet que l on veut montrer H0 absence de différence, absence de relation Analyses inférentielles échantillon Calculer la statistique de test à partir de H0, des données et d une formule Déduire une probabilité d erreur (p-valeur) 33 34 Inférence statistique Inférence statistique Implications 2 décisions possibles : Rejet H0 ou Non-rejet H0 Calculer la statistique de test à partir de H0, Nonrejet H0 «Réalité» = ce qui se passe dans la population H0 Vrai H1 Vrai Erreur de type II Risque β 2 types d erreur possibles Décision Rejet H0 Erreur de type I Risque α 1-β 35 Puissance 36

Inférence statistique Inférence statistique Facteurs agissant sur la puissance α : proba. erreur de type I Risque d erreur accepté lors du rejet de H0 Le plus souvent 5 % (.05)!!!! 5% d erreur par test multi tests = multi erreurs Facteurs agissant sur la puissance La taille de l échantillon n Plus elle est grande, plus le test est puissant!!! Excès de puissance ex: Meehl, 1990 15 items : sexe, ordre de naissance, profession du Père, profession de la mère, choix religieux, loisirs, projet éduc n = 44.000 étudiants américains 105 tests chi-carré : tous significatifs! 37 38 Inférence statistique Facteurs agissant sur la puissance La taille de l effet Importance (quantité) de la différence entre 2 groupes Importance de la relation entre 2 variables Importance de l explication d un phénomène!!! Descriptives : graphes et indices La variabilité des données Lien avec la taille de l effet!!! Utiliser des mesures précises Ecueils courants dans les analyses statistiques Règles d encodage Données perdues Confusion dans les fichiers de données Données manquantes imputées trop vite Données étranges («outliers») effacées directement Conditions d applications non vérifiées Transformations rapides Interprétations erronées Communication inefficace 39 40

Règles d encodage Confusion : sondage Une ligne par participant, une colonne par variable Qui a par le passé perdu un fichier (document, Données anonymes présentation, données, articles )? Pas de couleur, de commentaires ou de graphe Qui a utilisé le mot «final» dans un nom de fichier Anticiper les analyses (qualitative plusieurs niveaux) (document, slideshow)? 41 42 Confusion : sondage Données perdues Pistes Gardez un exemplaire des données brutes Etait-ce la version finale? Documentez les données (noms de variables clairs, formule de calcul de nouvelles variables, corrections d erreurs d encodage ) Gardez trace de vos manipulations de données (syntaxe/code) Archivez vos projets clôturés (zip avec commentaires) 43 44

Confusion dans les fichiers de données Données manquantes : sondage Pistes Nommez clairement vos fichiers de données le nom peut contenir la date évitez «version finale» Commentez vos données dans le fichier ex: spss\utilities\data file comments Qui a été confronté à des données manquantes? Rangez vos fichiers en répertoires nettoyez votre répertoire de travail créez un répertoire «archive» 45 46 Données manquantes : sondage Données manquantes Légitime ou non Qui sait pourquoi ces données étaient manquantes? Informatives Comment gérer? Légitime: 1. Modèle peu/pas sensible aux données manquantes (HLM) 2. Utiliser des sous ensembles 47 Nom du powerpoint 48

Données manquantes Données étranges/outliers: sondage Légitime ou non Illégitime: Aléatoire? Qui a été confronté à des données étranges (valeur très différente des autres, valeur inattendue ) Imputation simple:? Remplacer par une constante Remplacer par le plus proche voisin Imputation suite à une régression Imputation multiple.. Contactez nous! Nom du powerpoint 49 50 Données étranges/outliers: sondage Données étranges/outliers Ecarter les erreurs d encodage vérifier dans les données brutes Qui sait ce que ces données ont changé ou auraient changé dans les conclusions tirées? Voir si ces outilers changent les résultats NB : ce n est pas un critère de choix Si il y a un changement, cela doit être rapporté Etudier la question de la représentativité de l échantillon Utiliser un modèle approprié (cf smcs) 51 52

Conditions d applications : sondage Conditions d applications non respectées Conséquences «au cas par cas» mais touchent le plus souvent : Qui vérifie systématiquement si les conditions d application d un test sont respectées? Qui connait les conséquences de l application d un test erreur de type II (IC plus grands) erreur de type I taille d effet interprétation des résultats lorsque les conditions ne sont pas respectées? Attention à la méthode de détection ex: un graphe peut être préférable à un test statistique 53 54 Conditions d applications non respectées Transformations rapides : sondage Utiliser un test plus adapté (p.ex. non-paramétrique)! Conditions d application de ce test Transformer les données (! Méthode) Qui a déjà transformé des données (log, racine, )? 55 56

Transformations rapides : sondage Transformations rapides Qui est sûr que la transformation a amélioré les choses? De nombreuses transformations de données sont possibles : racine carrée, log, inverse, arcsin, box-cox, Transformer les données n est pas tricher Mais Transformer les données ne peut se faire en fonction des résultats du test inférentiel à l aveugle (dégradation possible) 57 58 Transformations rapides Transformations rapides exemple Pistes pour transformations Se baser sur l exploration graphique Dans certains cas (racine, log), fixer le minimum à 1 59 60

Interprétations erronées Interprétations erronées Corrélation entre conso. de chocolat et nombre de prix Nobels Corrélation entre nombre d IKEA et nombre de prix Nobels Manger du chocolat rend intelligent Corrélation n est pas causalité Maurage, P., Heren, A., Pesenti, M. (2013). Does Chocolate Consumption Really Boost Nobel Award Chances? The Peril of Over- Interpreting Correlations in Health Studies. The Journal of Nutrition 61 62 Interprétations erronées Communication inefficace Pistes pour interprétations Trouver des modèles dans la littérature (! Pas seulement ) Avoir une bonne connaissance du modèle appliqué Illustrer les interprétations par des stats descriptives Privilégier la simplicité 63 64

Communication inefficace Pistes pour une communication plus efficace Merci pour votre attention Priorité au message Adaptation au destinataire Ne vous servez pas des statistiques comme un argument d autorité Illustrer les interprétations par des stats descriptives Privilégier la simplicité Ne copier-coller pas les outputs des logiciels sans les éditer Vos questions Vos remarques 65 66