Introduction à l'analyse statistique des données
|
|
- Richard St-Louis
- il y a 8 ans
- Total affichages :
Transcription
1 INTRODUCTION À L'ANALYSE STATISTIQUE DES DONNÉES CONCEPTS DE BASE Un certain nombre de concepts, préalables indispensables à la compréhension des analyses présentées, sont définis ici. De même pour quelques termes usuels de la Statistique. A ce propos, une des difficultés rencontrées fréquemment par l utilisateur est qu une même statistique peut être dénommée différemment selon les manuels, les articles, les disciplines, etc. C est la raison pour laquelle les différents synonymes existant (incluant l anglais) sont présentés systématiquement avec, en gras, le terme utilisé le plus souvent dans ces documents. Individus et variables Des informations ou variables ont été recueillies sur un certain nombre d unités ou individus. Les individus peuvent être des enfants, des pensionnaires d une maison de retraite, des fleurs, des pays, des catégories professionnelles, des termites Les variables peuvent être, un âge, un poids, une couleur, une note, un sexe, un salaire, un temps de résolution d une tâche, un département de naissance, un nombre d enfants, un parti politique préféré, un QI individu / personne / unité / sujet variable / caractère / information / attribut Un tableau de données Pour être analysé par un logiciel d analyse statistique des données, le tableau de données devra se présenter sous cette forme (cf. Tableau 1) que l on désigne par Tableau Individus Variables En lignes, les individus. La première colonne du tableau indique les identifiants des individus. En colonnes, les variables. La première ligne indique les identifiants des variables. Tableau 1 : Structure d un tableau de données individuelles INDIV ( ) AGE NOTE ( ) SEX ( ) QI DEPT ( ) i G i G i F i G i F i F i G i8 9 7 G ( ) ( ) ( ) ( ) ( ) ( ) Les données se présentent parfois sous une autre forme (un tableau de contingence par exemple). Nous verrons lorsque le cas se présentera, comment saisir les données pour les mettre sous cette forme. 1/6
2 Les types de variables Il existe deux grands types de variables : les variables quantitatives : un âge en années ou mois, un effectif (population, nombre d enfants), un QI, un salaire, une note, un temps de réponse, un poids, une température les variables qualitatives : un sexe, un état-civil, un département, une profession, une couleur A l intérieur de chacune de ces deux grandes catégories il existe des distinctions importantes. Parmi les variables qualitatives, on peut distinguer : les variables qualitatives à deux modalités seulement ou variable binaire. Typiquement le sexe. Ces variables seront traitées à part parmi les variables qualitatives. les variables ordinales. Typiquement la réponse à la question : «Aimez-vous Brahms? pas du tout? un peu? beaucoup? passionnément?» Ces variables seront, la plupart du temps, traitées comme des variables qualitatives. Toutefois, elles pourront parfois être considérées comme des variables quantitatives et analysées comme tel. De même, parmi les variables quantitatives, on peut distinguer : les variables d intervalles : un QI, une température en C ou F les variables de rapport (pour lesquelles en particulier, le zéro n est pas arbitraire) : un nombre d'enfants, un poids, un âge en années ou mois, un temps de réponse Variable quantitative / numérique Variable qualitative / nominale / catégorisée / catégorielle / polytomique Variable binaire / dichotomique Notons qu une variable qualitative (sexe, département ) même codée numériquement (1 pour Garçon, 2 pour Fille, 76 pour Seine-Maritime ) reste une variable qualitative. On ne calculera pas la moyenne des départements! La première question que l utilisateur aura à se poser devant ses données est «quel est le type de/des variable(s) que je souhaite analyser?». La réponse à cette question conditionne les procédures qui seront mises en œuvre. Le statut des variables Dans certains cas l analyse consistera, à propos d un groupe d individus, à décrire la ou les variables observées, et à décrire les relations entre ces variables. Dans d autres cas (les plus nombreux?) on cherchera dans quelle mesure les valeurs observées pour certaines variables dépendent, au moins en partie, des valeurs d autres variables. Il est alors d usage de distinguer les variables indépendantes (VI) et les variables dépendantes (VD). Dans la pratique 1, l expression VI est souvent utilisée pour désigner toute variable prédictrice d une autre variable. L expression VD désigne la variable susceptible de varier en fonction des valeurs de la VI. variable dépendante (VD) / variable à analyser / variable à prédire / variable à expliquer variable indépendante (VI) / variable prédictrice / prédicteur / facteur (données expérimentales) 1 Strictement, une VI est une variable dont les valeurs ont été fixées avant de commencer à recueillir des données, alors qu une VD est une variable dont les valeurs ont été recueillies pendant l observation, l expérimentation ou l enquête. S il a été décidé, lors qu une enquête, d interroger 10 garçons et 10 filles, la variable Sexe a le statut de VI. Si lors d une enquête on a demandé aux personnes interrogées, parmi d autres questions, de préciser leur sexe, la variable Sexe a alors le statut de VD. 2/6
3 MÉTHODOLOGIE Des questions aux procédures Les données ont été recueillies pour répondre à des questions ou tester des hypothèses. Ces questions ou hypothèses peuvent concerner une partie des données recueillies (une ou deux variables, une partie des individus) ou la totalité des données. Quelles procédures mettre en œuvre pour répondre à une question? Cela dépend du type des variables sur lesquelles porte la question. Ainsi, lorsque l on cherche à décrire un groupe d individus selon une variable, des procédures différentes seront utilisées selon que la variable est une variable quantitative (le poids par exemple) ou une variable qualitative (la profession par exemple). Dans le premier cas on pourra calculer une moyenne, mais pas dans le second cas. De même si on cherche à étudier la force de la liaison entre deux variables, on pourra calculer la valeur du coefficient de corrélation si on s intéresse à la liaison linéaire entre des variables quantitatives, mais un V² de Cramér si on s intéresse à la liaison entre des variables qualitatives. En bref : TYPE et STATUT DES VARIABLES + PROCEDURES QUESTION L inférence Population et Échantillon L ensemble des individus auxquels on s intéresse constitue la population. Dans de nombreuses situations on ne dispose pas des données pour tous les individus de la population, mais seulement pour une partie d entre eux. Cette partie constitue un échantillon de la population ou population parente. Par exemple on s intéresse au revenu moyen des médecins de la ville de Marseille (population) et on ne dispose que des revenus de 20 médecins de cette ville (échantillon). La statistique propose des méthodes pour estimer le revenu moyen dans la population alors qu on ne dispose que des données de l échantillon. Les sondages sont une des procédures utilisées pour avoir une idée de la valeur d'une statistique dans la population à partir d un échantillon. La description d abord, l inférence ensuite Lorsque l on vise à connaitre une population à partir d un échantillon, la première étape consiste en la description des caractéristiques de l échantillon : c est la description ou étape descriptive. La seconde étape consiste à estimer ces caractéristiques dans la population : c est l inférence ou étape inférentielle. Ces deux étapes de l analyse doivent se dérouler nécessairement dans cet ordre. On ne cherche à connaître les caractéristiques de la population que si l on a déjà une vue claire des caractéristiques de l échantillon. Ce principe méthodologique, souvent mis en avant par Rouanet et ses collaborateurs, est valable quel que soit le type des données analysées et le type de question posée. Trop souvent l analyse de données se réduit à la mise en œuvre d un test (t de Student, F de l ANOVA, Khi ). On prendra donc le temps de mettre en œuvre les procédures descriptives (moyennes, graphiques, etc.) avant ces (trop?) fameux tests. Réf. Rouanet, H., Bernard, J.-M., & Le Roux, B. (1990) Conditions préalables aux procédures inférentielles Il existe des conditions spécifiques à l utilisation de chaque procédure inférentielle. Ces conditions particulières seront présentées au fur et à mesure, lorsque les procédures seront présentées dans un exemple. Il existe toutefois une condition commune à toutes les procédures inférentielles : l échantillon doit être avoir été tiré au hasard parmi la population que l on vise à connaître. L univarié avant le multivarié Parmi les principes généraux qu il faut garder à l esprit en procédant à une analyse statistique, il en est un valable pour toutes les analyses qui mettent en relation plusieurs variables : avant de chercher à étudier la relation entre les variables, il est indispensable d analyser chacune des variables isolément, indépendamment des autres. Par exemple, avant le calcul d un coefficient de corrélation entre deux variables quantitatives, l analyse consistera d abord, pour 3/6
4 chacune des deux variables, à visualiser la distribution des valeurs, à noter ses minimum et maximum observés, à calculer la moyenne La taille des effets La méthodologie traditionnelle se centrait trop exclusivement sur la question de l existence d un effet (d une différence, d une liaison ) et sur les tests de signification. De plus en plus de statisticiens s accordent à souligner la nécessité de s intéresser aussi à la taille des effets, c est-à-dire, par exemple, à l ampleur (valeur numérique) et l importance (faible/modéré/fort) des écarts entre les groupes, à la force des liaisons entre les variables, etc. En psychologie, l American Psychological Association (APA) dont le Publication Manual (2000) fait référence, y compris en France, présente un ensemble de recommandations allant dans ce sens (cf. par exemple p , 34). Cette méthodologie étant encore trop peu connue, les documents présentés ici y font une large place. Pour décrire l'échantillon, il existe un grand nombre d'indices qui visent à évaluer la taille des effets. Le tableau cidessous en présente quelques exemples. A l'étape inférentielle, la méthode privilégiée est le calcul d'intervalles de confiance (IC) sur ces différents indices. Des valeurs repères Pour interpréter les différents indices statistiques, il est souvent nécessaire de s appuyer sur des valeurs repères. Par exemple la valeur p des tests statistiques est comparée à la valeur repère.05 pour qualifier le résultat du test de significatif (si p inférieur à.05) ou non significatif (si p supérieur à.05). Il s agit d une valeur conventionnelle (c est-àdire arbitraire, définie par accord tacite entre usagers de la statistique). Pour évaluer l importance des écarts entre groupes ou des liaisons entre variables, on utilise de plus en plus des indices statistiques pour lesquels des valeurs repères conventionnelles ne sont pas encore stabilisées. Nous utiliserons les valeurs repères suivantes : Tableau 2 : Valeurs repères pour quelques indices de taille d effet Indices Limite supérieure Limite inférieure d un effet faible d un effet fort r, R, V de Cramer Eta² / R² / V² de Cramer 4% 16% d de Cohen Ainsi une liaison linéaire entre deux variables quantitatives, sera qualifiée de faible, modérée ou forte selon la valeur du coefficient de corrélation linéaire de Bravais-Pearson (r) : - «faible» si r est inférieur à.20 - «modérée» si.20 < r <.40 - «forte» si r >.40. Ces valeurs repères seront utilisées à la fois pour commenter la valeur obtenue dans l'échantillon (étape descriptive) et dans la population (étape inférentielle). Les risques de surinterprétation des tests statistiques Faute d'utiliser les procédures qui permettent de répondre à la question de la taille de l'effet (d'une liaison, d'une différence ), les résultats des tests statistiques sont souvent surinterprétés : on leur fait dire plus qu'ils ne peuvent! 1. Un test significatif risque d'être interprété comme la preuve d'un effet important. En fait, il ne permet que de rejeter l'hypothèse nulle d'une absence d'effet et donc de conclure à la simple EXISTENCE d'un effet 2. Il ne permet pas de se prononcer sur l'ampleur de cet effet. En particulier, un test significatif est compatible avec un effet faible. 2. Un test non significatif risque d'être interprété comme la preuve de l'absence d'effet. Pourtant il doit conduire à conclure qu'on ne peut pas conclure! Il existe peut-être un effet ou peut-être pas! Il ne permet pas plus de conclure à l'existence d'un effet faible : un test non significatif est compatible avec un effet important. 2 et, au mieux, sur le signe de cet effet dans le cas d'une comparaison à un degré de liberté 4/6
5 Rédiger un compte rendu des analyses La dernière édition du manuel de publication de l American Psychological Association (APA (2010), p.29-30, 34) insiste sur plusieurs points : la nécessité de décrire, le plus précisément possible, les différentes caractéristiques de l échantillon et de la population : âge, sexe, origine géographique (y compris l origine ethnique, ce qui est interdit en France). la nécessité de prendre en compte la taille des effets (l ampleur de la différence entre deux moyennes, entre deux pourcentages, la force d une corrélation, etc.) et ne pas s interroger uniquement sur l existence d une différence ou d une corrélation non nulles. Ainsi, à une conclusion du type "l effet du Sexe est significatif", on préfèrera une conclusion comme celle-ci : "On s'est intéressé à l'effet du sexe sur les performances en orientation spatiale. La tâche d'orientation spatiale utilisée est le test ORSP-4. On a étudié cet effet chez des enfants scolarisés en école primaire. On a fait l'hypothèse que, en moyenne, les garçons ont de meilleurs scores que les filles et que l'écart entre ces deux groupes est important. On a constaté, sur un échantillon de 382 enfants de 10 ans scolarisés en en CM2 dans la ville de Rouen, que, conformément à l hypothèse, la tâche d orientation spatiale, est mieux réussie par les garçons (m = 13) que par les filles (m = 12). Toutefois l'écart observé apparaît faible que l'on considère la différence des moyennes ( d = 1 pt < 2) ou la proportion de variance prédite par le sexe (Eta² = 1%). Il semble que, il existe bien une différence, de même sens, pour l ensemble des enfants de 10 ans scolarisés en CM2 dans la ville de Rouen, (test t [380] = 1.98, p <.05) Toutefois, l écart serait faible, que l'on considère la différence des moyennes (IC 95% sur d = [0.01 ; 1.99] < 2) ou la proportion de variance prédite par le sexe (IC 95% sur Eta² = [0.0% ; 3.9%] < 4%)." On a distingué ici trois parties : - la problématique générale de la recherche, - la conclusion descriptive (qui ne concerne que l'échantillon) - la conclusion inférentielle (qui porte sur la population). Dans la partie qui concerne la problématique de la recherche, on mentionne : - la nature de la tâche proposée (la ou les variable(s) observée(s) ou VD), - la nature du/des facteurs/vi étudié(s), - la référence à l hypothèse ou, à défaut d'hypothèse précise, à la question posée. Et, pour chacune des deux parties, descriptive et inférentielle, - la portée de la conclusion (la description précise de l'échantillon observé et de la population visée à travers cet échantillon), - le sens de l'effet (ordre des moyennes, signe d'une corrélation ) - la taille de l'effet avec, en général, un indice brut (par exemple la différence des moyennes) et un indice calibré (par exemple la proportion de variance prédite par la VI). On y rappelle aussi que la conclusion descriptive rapporte des faits avérés (on constate que ) alors que la conclusion inférentielle doit laisser une place au doute (il semble que ) Enfin, ces conclusions mentionneront toujours les valeurs repères utilisées : - pour les tests (p <.05 le plus souvent) - pour la taille des effets : ici d < 2 et Eta² < 4% pour qualifier la taille des effets de faible. 5/6
6 On peut résumer dans un tableau ces différentes informations devant figurer dans une conclusion : Tableau 3 : Les éléments devant apparaître dans une conclusion détaillée Problématique de la recherche Nature de/des VD (tâches proposées, scores relevés, questionnaire ) Nature du/des facteur(s)/vi dont on étudie l'effet Hypothèse(s) ou questions posée(s) Description Description de l'échantillon Portée (effectif, lieu, âge, sexe ) Existence et sens de l'effet Taille de l'effet ordre des moyennes, signe de la corrélation, signe du coefficient de régression ( ) différence des moyennes, différence des pourcentages, oddsratio, corrélation, R², Eta² Inférence La nature de la population visée à travers l'échantillon test statistique (t, F, Khi² ) intervalle de confiance (IC) sur les différents indices, bruts et calibrés ampleur / taille / grandeur (d une différence, d une liaison...) fort / notable / important / grand faible / négligeable / petit LES OUTILS INFORMATIQUES C est la méthodologie qui doit guider l analyse, pas le logiciel Deux remarques à propos des logiciels : - La présence d une procédure dans un logiciel n est pas une preuve de sa pertinence. La logique commerciale des logiciels les conduit à proposer le plus grand nombre de procédures possibles, y compris celles dont on sait depuis longtemps qu elles ne devraient pas être utilisées. - Le logiciel statistique idéal -qui permet de faire tous les traitements statistiques possibles- n existe pas. Il faudra faire souvent appel à plusieurs logiciels (celui-ci pour une classification automatique, celui-ci pour les graphiques, celui-ci pour l analyse des questions ouvertes, celui-ci pour une analyse de la variance et celui-ci pour connaître la taille des effets). Préparer et vérifier la base de données avec soin On est toujours pressé de voir le résultat des analyses après une très longue période de préparation de l expérience, de recherche du terrain, de recueil des données. Pourtant, avant de commencer la moindre analyse, au moment de saisir les données, il faut être -ou devenir- obsessionnel. Il faut prendre le temps de vérifier les données. Combien d heures perdues à commencer trop rapidement les analyses statistiques pour s apercevoir au bout de quelques heures, jours ou semaines, d un résultat bizarre, symptôme d une erreur de saisie qui nécessite de corriger l erreur et recommencer les analyses! Et encore s agit-il de la situation la plus favorable où on s est aperçu, à temps, qu on travaillait sur des données fausses! Saisir les données et métadonnées avec un tableur On sera souvent amené à utiliser plusieurs logiciels. Or (presque) tous les logiciels sont capables d'importer rapidement les données depuis un tableur (type Excel). Il est donc conseillé de 1/ saisir ces données sous un tableur, indépendamment d'un logiciel statistique particulier, puis 2/ d'importer ces données sous les différents logiciels statistiques, selon les besoins. 6/6
Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1
UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés
Plus en détailPremiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1
Premiers pas avec SES-Pegase 1 Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données www.delta-expert.com Mise à jour : Premiers pas avec SES-Pegase
Plus en détailUne variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)
CIVILITE-SES.doc - 1 - Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) 1 PRÉSENTATION DU DOSSIER CIVILITE On s intéresse
Plus en détailRelation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailPrincipe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détailFORMULAIRE DE STATISTIQUES
FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailCours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES
LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,
Plus en détailT de Student Khi-deux Corrélation
Les tests d inférence statistiques permettent d estimer le risque d inférer un résultat d un échantillon à une population et de décider si on «prend le risque» (si 0.05 ou 5 %) Une différence de moyennes
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détail23. Interprétation clinique des mesures de l effet traitement
23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d
Plus en détailComment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie
Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même
Plus en détailChapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE
UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction
Plus en détailLa pratique du coaching en France. Baromètre 2010
SFCoach : crée du lien entre le monde du travail et les professionnels de l accompagnement La pratique du coaching en France Baromètre 2010 Fondée en 1996 22, Bd Sébastopol 75004 Paris Association 1901
Plus en détailFeuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.
Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences
Plus en détailChapitre 6 Test de comparaison de pourcentages χ². José LABARERE
UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables
Plus en détailStatistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Plus en détail1. Vocabulaire : Introduction au tableau élémentaire
L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie
Plus en détailExamen de Logiciels Statistiques
G. Hunault Angers, mai 2011 Licence MEF Examen de Logiciels Statistiques On s intéresse ici au dossier EAEF01 qui contient un extrait des données du recensement américain. On trouvera ces données et leur
Plus en détailMigration: un plus pour la Suisse Relations entre État social et migration: la position de Caritas
Migration: un plus pour la Suisse Relations entre État social et migration: la position de Caritas Prise de position de Caritas_mars 2011 Migration: un plus pour la Suisse En bref: Quel est l effet de
Plus en détailLa fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de 2007-2008
La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de 2007-2008 Ce document se veut une analyse succincte des indicateurs se rapportant à
Plus en détailTraitement des données avec Microsoft EXCEL 2010
Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation
Plus en détailCHAPITRE 2. Les variables
CHAPITRE 2 Les variables 1. La nature des variables Définition 2.1 (Variable). Une variable est une caractéristique étudiée pour une population donnée. Le sexe, la couleur préférée, le nombre de téléviseurs
Plus en détailBureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr
Dominique Muller Laboratoire Inter-universitaire de Psychologie Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Supports de cours : webcom.upmf-grenoble.fr/lip/perso/dmuller/m2r/acm/
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailPratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»
Centre de recherche en démographie et sociétés UCL/IACCHOS/DEMO Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» 1 2 3+ analyses univariées Type de variables
Plus en détailStatistique Descriptive Élémentaire
Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier
Plus en détailSécurité et insécurité alimentaire chez les Québécois : une analyse de la situation en lien avec leurs habitudes alimentaires
Sécurité et insécurité alimentaire chez les Québécois : une analyse de la situation en lien avec leurs habitudes alimentaires INSTITUT NATIONAL DE SANTÉ PUBLIQUE DU QUÉBEC Sécurité et insécurité alimentaire
Plus en détailBiostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3
Plus en détailPrécision d un résultat et calculs d incertitudes
Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................
Plus en détailGuide méthodologique : Enquêtes en ligne
Guide méthodologique : Enquêtes en ligne Une enquête est une «méthode systématique de collecte d'informations à partir d un échantillon possédant des caractéristiques représentatives de l'ensemble de la
Plus en détailLa définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE
L ENQUETE PAR SONDAGE : LA METHODE La définition La méthode Le questionnaire Les biais La passation du questionnaire La validité des réponses Les échelles de mesure Les échelles d évaluation Les échelles
Plus en détailFormations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS
Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES
Plus en détailLe retard scolaire en fonction du milieu parental : l influence des compétences des parents
ENSEIGNEMENT - ÉDUCATION Le retard scolaire en fonction du milieu parental : l influence des compétences des parents Fabrice Murat* La sociologie de l éducation met souvent en avant les inégalités de réussite
Plus en détail1. Les types d enquêtes
La conduite d une enquête par questionnaire La conception d un questionnaire ne doit pas être réalisée de façon hasardeuse. Elle suit une méthodologie stricte qui permet d atteindre des résultats utilisables
Plus en détailFocus. Lien entre rémunération du travail et allocation de chômage
Focus Lien entre rémunération du travail et allocation de chômage Introduction Le travailleur qui devient chômeur et qui est admissible sur base de prestations de travail se voit, en application du principe
Plus en détailExploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.
Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION
Plus en détailMortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine
Mortalité observée et mortalité attendue au cours de la vague de chaleur de uillet en France métropolitaine FOUILLET A 1, REY G 1, JOUGLA E, HÉMON D 1 1 Inserm, U75, Villeuif, France. Inserm CépiDc, IFR9,
Plus en détailStatistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailIntroduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
Plus en détailLES DIFFERENTS TYPES DE MESURE
LES DIFFERENTS TYPES DE MESURE Licence - Statistiques 2004/2005 REALITE ET DONNEES CHIFFREES Recherche = - mesure. - traduction d une réalité en chiffre - abouti à des tableaux, des calculs 1) Qu est-ce
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailTests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»
Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences
Plus en détailTests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE
Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.
Plus en détailCONCEPTION ET TIRAGE DE L ÉCHANTILLON
CHAPITRE 4 CONCEPTION ET TIRAGE DE L ÉCHANTILLON Ce chapitre technique 1 s adresse principalement aux spécialistes de sondage, mais aussi au coordinateur et aux autres responsables techniques de l enquête.
Plus en détailLES OMD EN CHIFFRES. Par Raulin Lincifort CADET INTRODUCTION
1 LES OMD EN CHIFFRES Par Raulin Lincifort CADET INTRODUCTION Faisant suite à la Déclaration du Millénaire, le bureau du PNUD en Haïti s est attelé à faire la promotion des Objectifs du Millénaire pour
Plus en détailSPHINX Logiciel de dépouillement d enquêtes
SPHINX Logiciel de dépouillement d enquêtes sphinx50frversion4.doc 1 Les trois stades du SPHINX sont ceux que comporte habituellement toute enquête d opinion: Elaboration du questionnaire (fiche outil
Plus en détailBiostatistiques : Petits effectifs
Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l
Plus en détailLe WACC est-il le coût du capital?
Echanges d'expériences Comptabilité et communication financière Dans une évaluation fondée sur la méthode DCF, l objectif premier du WACC est d intégrer l impact positif de la dette sur la valeur des actifs.
Plus en détailL analyse de la gestion de la clientèle
chapitre 1 - La connaissance du client * Techniques utilisées : observation, recherche documentaire, études de cas, études qualitatives (entretiens de groupes ou individuels, tests projectifs, analyses
Plus en détailLeçon N 4 : Statistiques à deux variables
Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d
Plus en détailLecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888
Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques
Plus en détailLe niveau de revenus des ménages est associé à la couverture vaccinale par le vaccin pneumocoque conjugué chez les enfants d'ile-de-france
Le niveau de revenus des ménages est associé à la couverture vaccinale par le vaccin pneumocoque conjugué chez les enfants d'ile-de-france Jean-Paul Guthmann, Pierre Chauvin, Yann Le Strat, Marion Soler,
Plus en détailMETHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES
Enseignement du Deuxième Cycle des Etudes Médicales Faculté de Médecine de Toulouse Purpan et Toulouse Rangueil Module I «Apprentissage de l exercice médical» Coordonnateurs Pr Alain Grand Pr Daniel Rougé
Plus en détailTests de sensibilité des projections aux hypothèses démographiques et économiques : variantes de chômage et de solde migratoire
CONSEIL D ORIENTATION DES RETRAITES Séance plénière du 16 décembre 2014 à 14 h 30 «Actualisation des projections» Document N 5 Document de travail, n engage pas le Conseil Tests de sensibilité des projections
Plus en détailAide-mémoire de statistique appliquée à la biologie
Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela
Plus en détail1. Les comptes de dépôt et d épargne
1. Les comptes de dépôt et d épargne 1.1 Les comptes de dépôt 1.1.1 Le taux de possession d un compte de dépôt Le premier constat est celui d un accès important aux comptes de dépôt, quelle que soit la
Plus en détailUFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailCollecter des informations statistiques
Collecter des informations statistiques FICHE MÉTHODE A I Les caractéristiques essentielles d un tableau statistique La statistique a un vocabulaire spécifique. L objet du tableau (la variable) s appelle
Plus en détailGé nié Logiciél Livré Blanc
Gé nié Logiciél Livré Blanc Version 0.2 26 Octobre 2011 Xavier Blanc Xavier.Blanc@labri.fr Partie I : Les Bases Sans donner des définitions trop rigoureuses, il faut bien commencer ce livre par énoncer
Plus en détailExercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015
Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par
Plus en détailTESTS D'HYPOTHESES Etude d'un exemple
TESTS D'HYPOTHESES Etude d'un exemple Un examinateur doit faire passer une épreuve type QCM à des étudiants. Ce QCM est constitué de 20 questions indépendantes. Pour chaque question, il y a trois réponses
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailItem 169 : Évaluation thérapeutique et niveau de preuve
Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes
Plus en détailLe chi carré. Le sommaire. Approche quantitative
Approche quantitative Le chi carré Les objectifs pédagogiques Définir le test du chi carré Déterminer la nature des données propres au chi carré Savoir calculer le chi carré Savoir déterminer les fréquences
Plus en détailWhy Software Projects Escalate: The Importance of Project Management Constructs
Why Software Projects Escalate: The Importance of Project Management Constructs Why Software Projects Escalate: The Importance of Project Management Constructs 1. Introduction 2. Concepts de la gestion
Plus en détailRésultats d Etude. L étude de marché. Résultats d Etude N 1889 : Conciergerie privée. Testez la fiabilité de votre projet.
Résultats d Etude L étude de marché Testez la fiabilité de votre projet 1 Sommaire : Introduction... 4 Synthèse... 6 PAGE 1 :... 7 Question 1/13... 7 Vous vivez :... 7 PAGE 2 :...10 Question 2/13...10
Plus en détailBIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION
BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION À UNE INTERPRÉTATION CAUSALE Arthur Charpentier Professeur d actuariat à l Université du Québec, Montréal Amadou Diogo Barry Chercheur à l Institut de santé
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailMesures et incertitudes
En physique et en chimie, toute grandeur, mesurée ou calculée, est entachée d erreur, ce qui ne l empêche pas d être exploitée pour prendre des décisions. Aujourd hui, la notion d erreur a son vocabulaire
Plus en détailFORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)
87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation
Plus en détailIntroduction à la Statistique Inférentielle
UNIVERSITE MOHAMMED V-AGDAL SCIENCES FACULTE DES DEPARTEMENT DE MATHEMATIQUES SMI semestre 4 : Probabilités - Statistique Introduction à la Statistique Inférentielle Prinemps 2013 0 INTRODUCTION La statistique
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailRapport d'expérience final
Rapport d'expérience final Ricci Arnaud et Garretas Victor 1 juin 2015 Table des matières Introduction Problématique Cadre théorique et résultats précédents Hypothèses générales Méthodologie Participants
Plus en détailLes micro-entrepreneurs, les travailleurs non-salariés, la crise et l assurance
Septembre 2013 Contact: Frédéric Dabi 01 45 84 14 44 Frederic.dabi@ifop.com Les micro-entrepreneurs, les travailleurs non-salariés, la crise et l assurance pour Note méthodologique Etude réalisée pour:
Plus en détailREGARDS SUR L ÉDUCATION 2013 : POINTS SAILLANTS POUR LE CANADA
REGARDS SUR L ÉDUCATION 2013 : POINTS SAILLANTS POUR LE CANADA Regards sur l éducation est un rapport annuel publié par l Organisation de coopération et de développement économiques (OCDE) et portant sur
Plus en détailLE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION
LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs
Plus en détailModèle de calcul des paramètres économiques
Modèle de calcul des paramètres économiques selon norme SIA 480 Calcul de rentabilité pour les investissements dans le bâtiment Version 3.2 1. Introduction 1.1 Version Excel Le modèle de calcul a été développé
Plus en détailRégression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr
Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R
Plus en détailModélisation de la réforme des pensions
Modèle PROST de la Banque Mondiale Modélisation de la réforme des pensions Mécanisme de simulation des options de réforme des retraites, de la Banque Mondiale L es politiques de pension d aujourd hui peuvent
Plus en détailSaisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont
I Open Boutique Sommaire : I Open Boutique... 1 Onglet «Saisie des Produits»... 3 Création d'une nouvelle fiche boutique :... 3 Création d'une nouvelle fiche lieux de retraits :... 10 Création d'une nouvelle
Plus en détailEVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO
EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO Auteur Baguinébié Bazongo 1 Ingénieur Statisticien Economiste Chef de l Unité de recherche à l Institut national
Plus en détailLe test s'est déroulé en trois étapes successives
TEST SUR LES BASES BIBLIOGRAPHIQUES Rapport* du bureau Marcel van Dijk L'étude qui suit présente les résultats du test quantitatif et qualitatif de 5 bases bibliographiques disponibles en France : BNOPALE
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailExercices supplémentaires sur l introduction générale à la notion de probabilité 2009-2010
Exercices supplémentaires sur l introduction générale à la notion de probabilité 2009-2010 Exercices fortement conseillés : 6, 10 et 14 1) Un groupe d étudiants est formé de 20 étudiants de première année
Plus en détailMonitoring des données relatives au poids effectué par les services médicaux scolaires des villes de Bâle, Berne et Zurich
Promotion Santé Suisse Editorial Feuille d information 1 Les données de poids de plus de 13 000 enfants et adolescents dans les villes suisses de, et ont été collectées pour l année scolaire 2012/2013
Plus en détailCahiers de l IMA. Fascicule SPSS
Octobre 2008 Numéro 41 Cahiers de l IMA Fascicule SPSS Ingrid Gilles Eva G. T. Green Paola Ricciardi Joos Régis Scheidegger Chiara Storari Thomas Tuescher Pascal Wagner-Egger Ricciardi-Joos Ricciardi-Joos
Plus en détailLa survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Plus en détail