Support en Méthodologie et Calcul Statistique Panorama des statistiques à l UCL Dedonder Jonathan Lefevre Nathalie Van Pachterbeke Matthieu Les statistiques : quand? Contenu Conception du projet Quand penser aux analyses statistiques? Quels sont les supports statistiques et méthodologiques UCL? Quel logiciel statistique employer? Les big-5 UCL Statistiques descriptive et inférentielle Ecueils courants dans les analyses statistiques Présentation Reporting Analyses Interprétation Préparation Design Récolte de données Data Management 3 4
Les statistiques : quand? Les statistiques : quand? Conception du projet Présentation Reporting Préparation Design Analyses Interprétation Récolte de données Data Management 5 6 Les statistiques : quand? Les statistiques : quand? Conception du projet Anticiper Présentation Reporting Préparation Design Réfléchir aux modèles Analyses Interprétation Récolte de données Data Management Comprendre les méthodes Se former aux méthodes Choisir un logiciel (En cas de collaboration) 7 8
Le smcs Les supports statistiques et méthodologiques UCL Le smcs Les supports locaux Le support aux enquêtes Consultance : de l avis à l analyse entière Formation : aux logiciels et méthodes Outils statistiques : mise à disposition (interne UCL) Service enquête Infos et contacts : uclouvain.be/smcs/ 9 10 Le smcs : Consultance Le smcs : Formations Tout problème ponctuel Proposition de pistes Vise l autonomie du chercheur Analyses entières (prévoir un budget) Demandeur = propriétaire et responsable Entrer une demande (via site smcs) Formations récurrentes (1-2 / an) Logiciels statistiques : SAS, SPSS, R, Stata Logiciels de récoltes et d analyse : LimeSurvey, Nvivo Méthodes statistiques : analyses multivariées SEM, médiations et modérations Formations sur mesure à demander (p.ex. pour un labo) prévoir budget 11 12
Le smcs : Formations Le smcs : Outils statistiques Calendrier des formations cf site : uclouvain.be/smcs onglet Formations Documentation cf site: uclouvain.be/smcs onglet Documentation Serveurs de logiciels Logiciels pour un usage ponctuel! Sauver ses données sur son poste de travail Pas d installation ni de licence Pensez à un «Parcours de formation» HLM, Lisrel, Mplus (latent variable modeling program), PASS (power analysis, calcul de taille d échantillon) UCINET (analysis of social network data) Cf site smcs : uclouvain.be/smcs onglet Serveurs ou Logiciels 13 14 Les supports locaux Les supports locaux Facultés/Ecoles Secteur des Sciences Humaines (SSH) Instituts ACTIVITES Consultance : de l avis à l analyse entière Formation : aux logiciels et méthodes Outils statistiques : mise à disposition (interne UCL) RSCS ILSM JUR-I ISP INCAL IACC HOS ISPOL E IL&C IPSY IMMA Q Premiers contacts/interface avec le smcs Jonathan Dedonder Nathalie Lefèvre 15 16
Les supports locaux Le support aux enquêtes FLEXIBILITE L aide à la création et réalisation d enquête IACC HOS ISPOL E IL&C Questionnaire = Outil privilégié en Sciences Humaines Soutient à l analyse Quantitative et Qualitative Consultances Formations spécialisées Intervention écoles doctorales et écoles d été Rapide & Facile Coûts faibles MAiS! Touche un grand nombre de personnes Réponses standardisées & prêtes à être encodées Appui à des projets à «long termes» Veille scientifique 17 18 Le support aux enquêtes Le support aux enquêtes L aide à la création et réalisation d enquête L aide à la création et réalisation d enquête Problèmes rencontrés: Conceptualisation de la question de recherches Conception des questions Modalité de réponses Sélection de la population Choix de l outil 19 20
Le support aux enquêtes Le support aux enquêtes L aide à la création et réalisation d enquête L aide à la création et réalisation d enquête Création d un appui aux enquêtes Formation: 19, 20, 26, 27 novembre 2014 (4 jours 9h30 16h30) Transformer une question de recherche théorique en une question empirique Planification d'une récolte de données Construction d'un questionnaire Plans de sondage et échantillonnage Communautarisation des connaissances Mise à disposition de tablettes 21 22 Logiciels statistiques : Big-five Les logiciels statistiques 5 logiciels mis à disposition gratuitement ou à coût réduit Le principe Big-five SPSS SAS JMP Stata R Pour les étudiants, le personnel UCL et les autres membres UCL Installation annuelle par le SGSI Support possible via smcs info-big5-stat@uclouvain.be 23 24
Logiciels statistiques : SPSS Logiciels statistiques : SAS Interface graphique (GUI), multiplateformes, extensions (payantes), Répandu en sciences humaines, format des sorties personnalisable Ensemble de composants (analyse de données + gestion de données ) Accès via du code ou via une interface graphique (enterprise guide) 25 Logiciels statistiques : JMP 26 Logiciels statistiques : Stata Interface graphique (GUI), multiplateformes Exploration graphique dynamique des données Permet de faire tourner du code SAS Interface graphique (GUI) et console Répandu en économie, économétrie, sociologie, sciences politiques et épidémiologie 27 28
Logiciels statistiques : R Libre (et gratuit), langage (fonctions dans des packages), Interfaces graphiques (limitées) Satistiques descriptives et inférentielles 29 30 Statistiques descriptives Statistiques descriptives Résumer (graphique ou numérique) Repérer les données qui interpellent tendance centrale (moyenne, médiane,...) dispersion (étendue, écart-type, variance,...) distribution Comprendre les données, trouver une première réponse à la question de recherche relations entre variables (2à2 ou multivariées) Comparer l échantillon à la population (ex: répartition des âges, genres ) Vérifier (en partie) si les tests prévus pourront être appliqués 31 32
Inférence statistique Inférence statistique Processus qui permet de tirer des conclusions sur une population à partir d un échantillon aléatoire représentatif de celle-ci. Population Eléments d un test d hypothèses Définir les hypothèses à tester H0 et H1 H1 correspond à l effet que l on veut montrer H0 absence de différence, absence de relation Analyses inférentielles échantillon Calculer la statistique de test à partir de H0, des données et d une formule Déduire une probabilité d erreur (p-valeur) 33 34 Inférence statistique Inférence statistique Implications 2 décisions possibles : Rejet H0 ou Non-rejet H0 Calculer la statistique de test à partir de H0, Nonrejet H0 «Réalité» = ce qui se passe dans la population H0 Vrai H1 Vrai Erreur de type II Risque β 2 types d erreur possibles Décision Rejet H0 Erreur de type I Risque α 1-β 35 Puissance 36
Inférence statistique Inférence statistique Facteurs agissant sur la puissance α : proba. erreur de type I Risque d erreur accepté lors du rejet de H0 Le plus souvent 5 % (.05)!!!! 5% d erreur par test multi tests = multi erreurs Facteurs agissant sur la puissance La taille de l échantillon n Plus elle est grande, plus le test est puissant!!! Excès de puissance ex: Meehl, 1990 15 items : sexe, ordre de naissance, profession du Père, profession de la mère, choix religieux, loisirs, projet éduc n = 44.000 étudiants américains 105 tests chi-carré : tous significatifs! 37 38 Inférence statistique Facteurs agissant sur la puissance La taille de l effet Importance (quantité) de la différence entre 2 groupes Importance de la relation entre 2 variables Importance de l explication d un phénomène!!! Descriptives : graphes et indices La variabilité des données Lien avec la taille de l effet!!! Utiliser des mesures précises Ecueils courants dans les analyses statistiques Règles d encodage Données perdues Confusion dans les fichiers de données Données manquantes imputées trop vite Données étranges («outliers») effacées directement Conditions d applications non vérifiées Transformations rapides Interprétations erronées Communication inefficace 39 40
Règles d encodage Confusion : sondage Une ligne par participant, une colonne par variable Qui a par le passé perdu un fichier (document, Données anonymes présentation, données, articles )? Pas de couleur, de commentaires ou de graphe Qui a utilisé le mot «final» dans un nom de fichier Anticiper les analyses (qualitative plusieurs niveaux) (document, slideshow)? 41 42 Confusion : sondage Données perdues Pistes Gardez un exemplaire des données brutes Etait-ce la version finale? Documentez les données (noms de variables clairs, formule de calcul de nouvelles variables, corrections d erreurs d encodage ) Gardez trace de vos manipulations de données (syntaxe/code) Archivez vos projets clôturés (zip avec commentaires) 43 44
Confusion dans les fichiers de données Données manquantes : sondage Pistes Nommez clairement vos fichiers de données le nom peut contenir la date évitez «version finale» Commentez vos données dans le fichier ex: spss\utilities\data file comments Qui a été confronté à des données manquantes? Rangez vos fichiers en répertoires nettoyez votre répertoire de travail créez un répertoire «archive» 45 46 Données manquantes : sondage Données manquantes Légitime ou non Qui sait pourquoi ces données étaient manquantes? Informatives Comment gérer? Légitime: 1. Modèle peu/pas sensible aux données manquantes (HLM) 2. Utiliser des sous ensembles 47 Nom du powerpoint 48
Données manquantes Données étranges/outliers: sondage Légitime ou non Illégitime: Aléatoire? Qui a été confronté à des données étranges (valeur très différente des autres, valeur inattendue ) Imputation simple:? Remplacer par une constante Remplacer par le plus proche voisin Imputation suite à une régression Imputation multiple.. Contactez nous! Nom du powerpoint 49 50 Données étranges/outliers: sondage Données étranges/outliers Ecarter les erreurs d encodage vérifier dans les données brutes Qui sait ce que ces données ont changé ou auraient changé dans les conclusions tirées? Voir si ces outilers changent les résultats NB : ce n est pas un critère de choix Si il y a un changement, cela doit être rapporté Etudier la question de la représentativité de l échantillon Utiliser un modèle approprié (cf smcs) 51 52
Conditions d applications : sondage Conditions d applications non respectées Conséquences «au cas par cas» mais touchent le plus souvent : Qui vérifie systématiquement si les conditions d application d un test sont respectées? Qui connait les conséquences de l application d un test erreur de type II (IC plus grands) erreur de type I taille d effet interprétation des résultats lorsque les conditions ne sont pas respectées? Attention à la méthode de détection ex: un graphe peut être préférable à un test statistique 53 54 Conditions d applications non respectées Transformations rapides : sondage Utiliser un test plus adapté (p.ex. non-paramétrique)! Conditions d application de ce test Transformer les données (! Méthode) Qui a déjà transformé des données (log, racine, )? 55 56
Transformations rapides : sondage Transformations rapides Qui est sûr que la transformation a amélioré les choses? De nombreuses transformations de données sont possibles : racine carrée, log, inverse, arcsin, box-cox, Transformer les données n est pas tricher Mais Transformer les données ne peut se faire en fonction des résultats du test inférentiel à l aveugle (dégradation possible) 57 58 Transformations rapides Transformations rapides exemple Pistes pour transformations Se baser sur l exploration graphique Dans certains cas (racine, log), fixer le minimum à 1 59 60
Interprétations erronées Interprétations erronées Corrélation entre conso. de chocolat et nombre de prix Nobels Corrélation entre nombre d IKEA et nombre de prix Nobels Manger du chocolat rend intelligent Corrélation n est pas causalité Maurage, P., Heren, A., Pesenti, M. (2013). Does Chocolate Consumption Really Boost Nobel Award Chances? The Peril of Over- Interpreting Correlations in Health Studies. The Journal of Nutrition 61 62 Interprétations erronées Communication inefficace Pistes pour interprétations Trouver des modèles dans la littérature (! Pas seulement ) Avoir une bonne connaissance du modèle appliqué Illustrer les interprétations par des stats descriptives Privilégier la simplicité 63 64
Communication inefficace Pistes pour une communication plus efficace Merci pour votre attention Priorité au message Adaptation au destinataire Ne vous servez pas des statistiques comme un argument d autorité Illustrer les interprétations par des stats descriptives Privilégier la simplicité Ne copier-coller pas les outputs des logiciels sans les éditer Vos questions Vos remarques 65 66