GUIDE D AIDE STATISTIQUE A LA PREPARATION DE LA THESE



Documents pareils
Séries Statistiques Simples

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Principe d un test statistique

Statistiques Descriptives à une dimension

Traitement des données avec Microsoft EXCEL 2010

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Statistique : Résumé de cours et méthodes

Logiciel XLSTAT version rue Damrémont PARIS

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

TABLE DES MATIERES. C Exercices complémentaires 42

données en connaissance et en actions?

EXCEL et base de données

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Lire ; Compter ; Tester... avec R

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Biostatistiques : Petits effectifs

Représentation d une distribution

Introduction aux Statistiques et à l utilisation du logiciel R

SPHINX Logiciel de dépouillement d enquêtes

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Les tableaux croisés dynamiques

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Introduction à l approche bootstrap

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Analyse de la variance Comparaison de plusieurs moyennes

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

1. Vocabulaire : Introduction au tableau élémentaire

3. Caractéristiques et fonctions d une v.a.

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Statistique Descriptive Élémentaire

Présentation de lʼoutil Diagnostic Egalité sur le logiciel Excel!

Statistiques 0,14 0,11

FORMULAIRE DE STATISTIQUES

IBM SPSS Statistics Base 20

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Précision d un résultat et calculs d incertitudes

Localisation des fonctions

VI. Tests non paramétriques sur un échantillon

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Aide-mémoire de statistique appliquée à la biologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Relation entre deux variables : estimation de la corrélation linéaire

23. Interprétation clinique des mesures de l effet traitement

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Classe de première L

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Lois de probabilité. Anita Burgun

LES DIFFERENTS TYPES DE MESURE

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

FEN FICHE EMPLOIS NUISANCES

Le risque Idiosyncrasique

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Annexe commune aux séries ES, L et S : boîtes et quantiles

Cahiers de l IMA. Fascicule SPSS

Statistiques à une variable

Les ateliers du Resclin. Préparation des données issues d Epi-Info en utilisant le tableur Excel

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Observatoire Economique et Statistique d Afrique Subsaharienne

TD d économétrie appliquée : Introduction à STATA

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

T de Student Khi-deux Corrélation

Document d orientation sur les allégations issues d essais de non-infériorité

Élément 424b Introduction à la statistique descriptive

Analyse et interprétation des données

Excel 2007 Niveau 3 Page 1

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Evaluation de la variabilité d'un système de mesure

La nouvelle planification de l échantillonnage

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

MATHÉMATIQUES. Mat-4104

IBM SPSS Direct Marketing 21

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

Statistique inférentielle TD 1 : Estimation

Package TestsFaciles

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Import automatique des places de parking - Handicap.fr

GENERALITES Sélection du fichier... 7 TRANSFERT DES ECRITURES... 8

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Introduction : Essais de phase I

Leçon N 4 : Statistiques à deux variables

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Fitted Surface; Variable: Y_REND 2 factors, 1 Blocks, 13 Runs; MS Pure Error=.053 DV: Y_REND

Tableau récapitulatif de l analyse fréquentielle

MGP 702c Marketing & Financement d événements. Remarques (1) Remarques (3) Remarques (2)

12 Tableaux croisés dynamiques

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Directeur de la publication : André-Michel ventre, Directeur de l INHESJ Rédacteur en chef : Christophe Soullez, chef du département de l ONDRP

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

glossaire Appellation commerciale Voir nom de marque.

Transcription:

Département Universitaire de Recherche et d Enseignement en Médecine Générale GUIDE D AIDE STATISTIQUE A LA PREPARATION DE LA THESE Enseignants : Esther GUERY, Julien LE BRETON, Emilie FERRAT, Jacques CITTEE Guide d aide statistique à la préparation de la thèse -14/01/2013 Esther GUERY, Julien LE BRETON, Emilie FERRAT,

Plan I. QUELQUES REGLES IMPORTANTES POUR LA CONSTRUCTION ET LA GESTION D UNE BASE DE DONNEES II. STATISTIQUES DE BASE II.1 II.2 Rappels sur les différents types de variables Principaux tests statistiques III. PRISE EN MAIN DU LOGICIEL EPI INFO (Version 3.5.4 : http://wwwn.cdc.gov/epiinfo/html/downloads.htm) SUR UN EXEMPLE DE THESE 2 Guide d aide statistique à la préparation de la thèse -14/01/2013 Kalaivani VEERABUDUN, Julien LE BRETON, Emilie FERRAT,

I. RÈGLES À RESPECTER POUR LA CONSTRUCTION ET LA GESTION D UNE BASE DE DONNÉES SOUS EXCEL 1. Informations générales : - Une feuille excel= une seule et unique table de données. - Une colonne = une variable - Une ligne = un individu (médecin, patient, établissement...) - Privilégier les noms de variables courts et éviter les accents et les caractères spéciaux (excepté le _ ) - Il est fortement recommandé de créer un dictionnaire des variables comportant le nom donné à chaque variable ainsi que sa signification et les différentes valeurs possibles de la variable. 2. Différentes types de variables : Identifiant unique : Il est important d avoir une variable dont la valeur est différente pour chaque individu (Exemple : Individu 1,2, 3, 4, 5). Il s agit de ce qu on appelle la «clé primaire». Variables quantitatives : Se réfèrent à des informations que l on appréhende par des quantités/nombres telles que l âge, le poids, la taille ou encore le salaire. Avant la saisie, penser à configurer le point comme séparateur décimal dans excel. Aller dans panneau de configuration options régionales modifier le format des nombres personnaliser symbole décimal =. 3

Découpage en classe seulement s il existe des seuils prédéfinis dans la littérature ou si c est cliniquement pertinent Exemple : Age [30-35[ ; [35-40[ ect Variables qualitatives : Se réfèrent à des informations que l on appréhende par des modalités (Ex : sexe, niveau d études, état civil) Eviter d écrire en toutes lettres les modalités des variables qualitatives. Préférer le codage en lettre unique ou chiffre. Les variables avec 2 modalités : 0 ou 1; les variables avec 3 modalités: 0, 1,2 et ainsi de suite. Une particularité avec le sexe : 1 pour les hommes / 2 pour les femmes (basé sur le codage sécurité sociale) Attention aux questions à choix multiples. Il faut éviter de combiner les modalités sans être sûr que cela a un sens (exemple : éviter de combiner des bananes avec des tomates). Exemple : Qui sont les médecins qui vous suivent dans la prise en charge de votre maladie respiratoire? Créer 2 variables distinctes qui sont mutuellement exclusives. 4

3. Nettoyage des données : Avant de saisir : Utiliser l outil de validation des données pour que le logiciel refuse les données que l on aura définies comme aberrantes (Aller dans Données Validation des données) A la fin de la saisie : Utiliser les filtres automatiques pour vérifier les données. Vérifier les modalités d une variable Uniformiser l écriture de la modalité si elle est écrite différemment. Exemple : Urbain Données manquantes : Préférer les cases vides pour indiquer les données manquantes : éviter les?. DM qui sont beaucoup moins faciles à traiter dans les logiciels. Regroupements de modalités : Lorsque les effectifs sont trop petits on peut réunir 2 modalités. Par exemple pour l âge si on a que 2 individus dans la tranche [20-25] ans on peut la regrouper avec la tranche [25-30] ans. Attention : toujours vérifier que cela a un sens! 5

II. STATISTIQUES DE BASE II.1 Rappels sur les variables Types de variables : Qualitative : valeurs =modalités appartenant à une catégorie Nominale (sans notion d ordre tel que sexe, médecin généraliste, type de traitement,.) Ordinale (ordre sur les modalités. Par exemple : notion de satisfaction faible, moyen, forte) Les variables qualitatives seront décrites en effectifs et pourcentages. Quantitative : correspond à des valeurs numériques Discrète (nombre fini ou dénombrable de valeurs. Exemple : nombre d accidents de la route par an) Continue (toutes les valeurs d un intervalle réel sont observables. Exemple : Age, température, taille) Les variables quantitatives seront décrites en moyennes +/- écart type si la distribution est normale ou en médiane + Interquartile range si la distribution n est pas normale Dispersion des données Mesurer l'étendue = maximum minimum (intérêt limité) Moyenne +/- écart type Médiane et Intervalle interquartile quand la distribution de la variable ne suit pas une loi gaussienne Variance = moyenne des carrés des écarts à la moyenne 6

II.2 Principaux tests statistiques 7

Comparaison de deux pourcentages sur échantillons indépendants Test du Khi deux Malade Non Malade Exposés A B n 1 Non Exposés C D n 2 m 1 m 2 n Conditions d utilisation : effectifs calculés Aatt Batt Catt Datt 5 Hypothèses : H0: le pourcentage de malades est le même quelque soit l exposition H1: le pourcentage de malades est différent dans les deux groupes d exposition Calcul de la statistique de test : Khi² = ((Observés Attendus)²/Attendus) avec Effectifs Attendus = Aatt = (n1*m1)/n; Batt = (n1*m2)/n ; Catt = (n2*m1)/n ; Datt=(n2*m2)/n Conclusion : Rejet de l hypothèse H0 si Khi² > 3.84 (p < 0.05) Test du Khi deux avec correction de Yates : effectifs attendus entre 3 et 5 Test exact de Fisher : effectifs < 3 Comparaison de deux moyennes sur échantillons indépendants Test de Student (T test) Conditions d utilisation : égalité des variances (test de Bartlett), na et nb 30 ou X suit une loi normale dans les deux populations Hypothèses : H0 : la moyenne de la variable X est la même dans les échantillons A et B H1 : la moyenne n est pas la même dans les échantillons A et B Calcul de la statistique de test : T = (ma-mb) / ((sa²/na) + (sb²/nb)) Conclusion : Rejet de l hypothèse H0 si T >1.64 (p-value <0.05) Test de Wilcoxon Mann Withney : dans le cas où les échantillons sont petits et la variable non normale. 8

III. PRISE EN MAIN DU LOGICIEL EPI INFO Télécharger Epi Info version 3.5.4 : http://wwwn.cdc.gov/epiinfo/html/downloads.htm Importation d un fichier Excel dans Epi info Analyze Data Classic 1. Faire apparaître le fichier de données : Permet de choisir le format de la base de données que l on veut importer dans Epi Info Exemple:«Excel 97» Aller chercher le fichier à importer dans un répertoire : C:\Vani\DMG\base.xls» Sélectionner la feuille Excel du fichier qui contient les données à importer. Puis vérifier que la case qui dit à Epi info que la 1 ère ligne contient le nom des variables a été cochée 9

2. Décrire un fichier de données Tableau des fréquences simples pour les variables qualitatives Rappel de la commande Tableau de fréquences et des pourcentages Intervalles de confiance des % Moyennes ou médianes pour les variables quantitatives Age Moyenne de 53,7 ans (SD 1 :±7,7ans) Médiane de 55 ans (IQR 2 : 49 ; 60,5) 1 SD Standard Deviation= écart-type dans l échantillon 2 IQR Interquartile Range= 25 ème percentiles et 75 ème percentiles (1 er et 3 ème quartiles) 10

Association statistiques brutes Variables explicatives : Ce sont des variables qui vont expliquer la variable d intérêt Ex : sexe, âge.. Tableau des fréquences croisées pour 2 variables qualitatives Variable d intérêt : C est la variable qu on veut expliquer Ex : fréquence d une pathologie Ici t Pourcentage en colonne : 25,7% des médecins exerçant en secteur 1 sont des femmes contre 25% en secteur 2 Pourcentage en ligne : 12% d hommes médecins exercent dans le secteur 2 contre 11,6% de femmes Les tests statistiques : Les tests comparent : 25,6% versus 25,0% (% en colonne) 12% versus 11,6% (% en ligne) Les effectifs attendus sous H0 sont tous >5 (sinon Epi Info vous avertit) On lit le test p du Chi2 non corrigé bilatéral (2-tailed) 11

Si les effectifs théoriques sont entre 3 et 5, on regarder Chi2 corrigé (Yates) et quand les effectifs théoriques <3, alors il faut regarder le test de Fisher exacte 12

quantitative Tableau des fréquences croisées pour 1 variable qualitative et 1 variable Il y a 148 médecins qui exercent en secteur 1 et 20 qui exercent en secteur 2 Moyenne et écart-type de l âge? Médiane et intervalle interquartiles Comparaison des moyennes par le test d Anova : (54,1 versus 51,3) Valeur du p > 0,05 (p=0.13) Les 2 moyennes d âges sont non significativement différentes entre le secteur 1 et le secteur 2 Comparaison des variances par le test de Barlett (seulement si effectifs<30) Valeur de p > 0,05 (p=0.73) Variances sont non significativement Distribution non normales : Comparaison des médianes par les tests de Wilcoxon Mann-Witney (variable binaire) ou kruskal-wallis (pour les variables à plus de 2 classes) 55,0 versus 53,0 Valeur de p >0,05 (p=0.11) Les Médiane d âges ne diffèrent pas significativement entre les médecins exerçant en secteur 1 et ceux exerçant en secteur 2 13 Guide d aide statistique à la préparation de la thèse -12/12/2013 Esther GUERY, Julien LE BRETON, Emilie FERRAT,