Techniques d enquêtes. Analyse des données. Cours 6. 21/12/02

Documents pareils
Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Relation entre deux variables : estimation de la corrélation linéaire

Traitement des données avec Microsoft EXCEL 2010

Introduction aux Statistiques et à l utilisation du logiciel R

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Chapitre 3. Les distributions à deux variables

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Localisation des fonctions

Principe d un test statistique

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Statistiques Descriptives à une dimension

Logiciel XLSTAT version rue Damrémont PARIS

SPHINX Logiciel de dépouillement d enquêtes

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

TABLE DES MATIERES. C Exercices complémentaires 42

Biostatistiques : Petits effectifs

Statistique Descriptive Élémentaire

Leçon N 4 : Statistiques à deux variables

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Annexe commune aux séries ES, L et S : boîtes et quantiles

Représentation d une distribution

Introduction à l approche bootstrap

Auto-Entreprise : Activités : Eric SOTY - Siret n Formation Bureautique, continue d'adultes. Tél : Fax :

FORMULAIRE DE STATISTIQUES

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

1. Vocabulaire : Introduction au tableau élémentaire

LES DECIMALES DE π BERNARD EGGER

Table des matières. I Mise à niveau 11. Préface

Formation tableur niveau 1 (Excel 2013)

données en connaissance et en actions?

LES MODELES DE SCORE

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

IBM SPSS Statistics Base 20

avec des nombres entiers

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Résumé du Cours de Statistique Descriptive. Yves Tillé

T de Student Khi-deux Corrélation

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Création de maquette web

Corrélation entre deux classements. ρ Le coefficient de rang de Spearman

Probabilités sur un univers fini

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

TESTS D'HYPOTHESES Etude d'un exemple

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Lire ; Compter ; Tester... avec R

ASSOCIATION CANADIENNE DES PAIEMENTS RÈGLE 4 DU STPGV COMMENCEMENT DU CYCLE

IBM SPSS Direct Marketing 21

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

: seul le dossier dossier sera cherché, tous les sousdomaines

La classification automatique de données quantitatives

La maison Ecole d ' Amortissement d un emprunt Classe de terminale ES. Ce qui est demandé. Les étapes du travail

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

La simulation probabiliste avec Excel

La place de SAS dans l'informatique décisionnelle

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

RACCOURCIS CLAVIERS. DEFINITION : Une «combinaison de touches» est un appui simultané sur plusieurs touches.

STRICTEMENT CONFIDENTIEL

Aide-mémoire de statistique appliquée à la biologie

La méthode des scores, particulièrement de la Banque de France

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Introduction à la statistique non paramétrique

Petit lexique de calcul à l usage des élèves de sixième et de cinquième par M. PARCABE, professeur au collège Alain FOURNIER de BORDEAUX, mars 2007

Margill 3.3 Guide de démarrage rapide

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Chapitre 8 L évaluation des obligations. Plan

Loi binomiale Lois normales

Théorie des sondages : cours 5

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

EXCEL TUTORIEL 2012/2013

GUIDE Excel (version débutante) Version 2013

Estimation et tests statistiques, TD 5. Solutions

Codage d information. Codage d information : -Définition-

FICHE 1 Fiche à destination des enseignants

ELEC2753 Electrotechnique examen du 11/06/2012

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

L analyse boursière avec Scilab

EXCEL PERFECTIONNEMENT CALCULS AVANCES

Exposing a test of homogeneity of chronological series of annual rainfall in a climatic area. with using, if possible, the regional vector Hiez.

Apprentissage par renforcement (1a/3)

Algorithmes récursifs

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Parcours FOAD Formation EXCEL 2010

Analyse et interprétation des données

Formulaire n 1 : Identification de la structure

Infolettre #18 : Les graphiques avec Excel 2010

Évaluation de la régression bornée

Petit memo rapide pour vous guider dans la gestion des engagements de vos compétitions FFM

Les nombres entiers. Durée suggérée: 3 semaines

Module 16 : Les fonctions de recherche et de référence

Mesures et incertitudes

Valeur verte des logements d après les bases Notariales BIEN et PERVAL Synthèse

Note de service À : De :

Transcription:

I. Introduction. - Analyse univariée : C est l étude de variables une à une (tendance moyenne centrale : Mode, médiane et dispersion : Variance, écart-type). - Analyse bivariée : Etude des relations entre deux variables. Calculs d indices (Khi², n, etc ). - Analyse multivariée : Analyse de plus de deux variables simultanément. II. Décrire les variables : Le tris à plat. - Profil des réponses (description de la population, quel écart par rapport à la population mère? ). - Distribution des réponses (% par rapport à l ensemble des sujets des réponses). - Y a t il des non réponses? Si oui pourquoi? (question défectueuse, indiscrète, tendancieuse ou oubliée tout simplement). III. Les mesures de tendance centrale. Il faut résumer l ensemble des données : Mode, médiane, moyenne. - Mode (Mo) : La ou les valeurs, modalité(s) la plus fréquente. Les distributions univariées, bivariées ou multivariées sont modales. - Médiane (Med) : On divise une série statistique ordonnée en deux groupes comprenant chacun 50% des données. - La moyenne (M) : C est la somme des valeurs observées divisées par N. Pour déterminer la médiane d une variable qualitative ordinale : - On classe les données par ordre croissant. - Pour une série de n observations, la médiane correspond à la modalité qui occupe le rang n/2 (si le nombre d observations est pair) ou (n+1)/2 si le nombre d observations est impair. Par exemple : On a 25 sujets, on leur propose une tâche de motricité, on code la rapidité d éxécution : Très lent (TL) ; Lent (L), Rapide (R) ou Très Rapide (TR). On commence par classer les données par ordre croissant : TL TL TL TL TL TL L L L L L L L L R R R R R R R TR TR TR TR : Médiane = (n+1)/2 soit 26/2 = 13 http://www.interpsychonet.fr.st 1

IV. La dispersion. 1. Calculer la moyenne. 2. Soustraire la moyenne de chaque score. 3. Elever au carré la différence obtenue pour chaque score. 4. Additionner ces différences au carré ( On obtient la Somme des Carrés : SC). 5. Diviser SC par le nombre de cas : On obtient la variance. 6. Extraire la racine carrée de la variance : On obtient la déviation standard ou écart-type. V. Forme de la distribution. Illustration tirée du logiciel «Sassi.» utilisé par le prof. Coefficient de Kurtosis (G2 de Fisher) : Valeur du G2 Interprétation 0 Courbe normale Proche de 0 Quasi-normale >>> 0 Pointue <<<0 Aplatie Proche de -1.3 Uniforme plate << -1.3 En U. Formule : ( valeur-moyenne) 4-3 Effectif Le coefficient d asymétrie (Skewness) de Fisher (G1) : Valeur du Interprétation G1 G1<0 Plus de dispersion pour les valeurs < à la moyenne que pour les valeurs >. G1 =0 Les valeurs inférieures et supérieures à la moyenne distribuent de la même manière (mode, médiane, moyenne se superposent). G1 > 0 Plus de dispersion pour les valeurs > à la moyenne que pour les valeurs <. Formule ( valeur-moyenne) 3 Effectif Les formules sont un peu plus compliquées que ça, je vous conseille d aller les trouver dans des cours de statistiques, je ne suis pas arrivée à les recopier en entier. VI. Statistiques inférentielles. - Aller plus loin que la description en se basant sur les lois probabilistes. - Utilise un degré de significativité (p <.05 ; p <.01 etc ). http://www.interpsychonet.fr.st 2

Tests paramétriques. Tests non paramétriques. Sujets indépendants T de Student pour El Mesures répétées T de Student pour échantillon par paires. Khi² d ajustement Khi² d association Mann Whitney Test de Wilson. Test du signe. Coefficient De corrélation Nominal Ordinal Intervalle Phi, V de Cramer. Rhô de Spearman. Tan de Kendall R de Peason A. Tester l indépendance de mesures nominales : Le khi². 1. Le tableau de contingence. On étudie le lien entre le style parental sur le jeu auprès d un groupe de 30 enfants âgés de 7 à 8 ans. 1. Un questionnaire a été proposé aux parents afin d évaluer leurs style éducatifs et d affecter les enfants par la suite dans trois catégories. 2. On observe ensuite les enfants jouer et on évalue leur style de jeu dominant : Coopératif ou compétitif. Les réponses sont consignées dans un tableau de contingence. Coopératif Compétitif T Permissif 7 15 22 Intermédiaire 21 9 30 Autoritaire 4 28 32 T 32 52 N =84 2. Tableau d indépendance. On calcule les effectifs théoriques : Coopératif Compétitif T Permissif (33*22)/84 = 83 (22*52)/84 = 13.6 22 Intermédiaire (30*32)/84 = 11.4 (30*52)/84 =18.5 30 Autoritaire (32*32)/84 =12.1 (32*52)/84 = 19.8 32 T 32 52 N =84 Les chiffres correspondant aux effectifs théoriques sont le résultat de la multiplication de l effectif total par ligne * l effectif par colonne divisé par l effectif total. 3. Tableau d écarts à l indépendance. On fait effectif observé effectif théorique (calculé à partir dans le tableau d indépendance). Coopératif Compétitif T Permissif 7-8.3 = -1.3 15-13.6 = 1.4 22 Intermédiaire 24-11.4 = 9.6 9-18.5 = -9.5 30 Autoritaire 4-12.1 = -8.1 8.2-19.8 = 8.2 32 T 32 52 N =84 On constate que la somme des écarts à la moyenne est bien égale à zéro (c est toujours le cas et ça doit toujours l être). 4. Tableau des carrés des écarts à l indépendance. On reprend les valeurs obtenues dans le tableau des écarts à l indépendance, on les élève au carré et on les divise par les effectifs théoriques : http://www.interpsychonet.fr.st 3

Coopératif Compétitif T Permissif (7-8.3)²/8.3 = 0.20 (15-13.6)²/13.6 = 0.34 0.14 Intermédiaire (24-11.4 )²/11.4= (9-18.5)²/18.5 = 4.87 12.95 8.08 Autoritaire (4-12.1)²/12.1 = (8.2-19.8)²/19.8 = 8.81 5.42 3.39 T 13.7 8.4 Khi² calculé = 22.1 (somme des lignes ou des colonnes) Si le Khi² calculé (à l aide du tableau précédent) est supérieur au Khi² lu (dans la table), l effet est significatif. On lit la valeur du Khi² en fonction du degré de liberté et du seuil de significativité choisi. Le Ddl (degré de liberté) se calcule comme suit : (c-1)*(l-1) soit (nombre de colonnes -1) * (nombre de lignes - 1). En ce qui concerne le degré de significativité on choisi souvent 5% soit 0.05 (7 ème colonne en partant de la gauche dans la table). Dans cet exemple, le degré de liberté est de 2, on a choisi un seuil de 5%, on lit la valeur correspond à la ligne 2 et à la colonne 0.05 et on constate qu elle est inférieure à celle obtenue par les calculs. Au seuil de 5%, avec un degré de liberté de 2, on observe un effectif significatif. Conclusion. On observe un lien significatif entre le style éducatif parental et le type de jeu des enfants, le résultat a plus de 99.9% de significativité, l hypothèse a une chance d être erronée dans 0.01% des cas. 5. Condition d application du Khi². Pour un tableau à 4 cases : - Il faut un effectif théorique supérieur à 9. - On applique une correction de Yates (on soustrait 0.5 avant d élever au carré les écarts à l indépendance), qui fait chuter la valeur du Khi². Pou un tableau à plus de 4 cases il n y a pas d effectif théorique inférieur à 1 et moins de 20% de cases où l effectif théorique est inférieur à 5. B. Les corrélations : L exemple du r de Bravais-Pearson. 1. La force du lien. Valeur absolue de corrélation Entre 0 et.20 De 0.20 à.40 De.40 à.70 De.70 à.90 De.90 à 1 lorsqu on corrèle un item avec lui-même). Relation linéaire entre les deux valeurs Nulle à faible Faible à modérée Modérée à élevée Elevée à très élevée Très élevée à parfaite (correspond aux valeurs qu on obtient NB = r est différent du pourcentage de variance expliquée (r2), par exemple si on trouve r =.40, le pourcentage de variance expliquée correspond à r² soit 16% http://www.interpsychonet.fr.st 4

2. Le sens du lien : Positif/Négatif. a. Corrélation nulle, r = 0 Nuage de points b. Corrélation parfaite, r = 1 Droite c. Corrélation très élevée, r = 0.9 Points très rapprochés formant presque une droite d. Corrélation élevée négative, r =.70 Points plus espacés que schéma précédent et sens inversé Les plus hauts sont au début et les plus bas au bout de l axe. e. Corrélation parfaite négative, r=.1 C est une droite inversée. f. Corrélation moyenne, r = 0.6 Les points sont relativement éparpillés. 3. La significativité du lien. Par exemple : Une matrice d inter corrélations. http://www.interpsychonet.fr.st 5

A B C D E F A \.20.14.49***.15.12 B \ \.29* 52***.35**.33* C \ \ \.29* 31* 34** D \ \ \ \.29*.36** E \ \ \ \ \.51*** F \ \ \. \ \ \ On remarque que l item A est mal corrélé donc on le supprime. On marque les corrélations moyennes (bonnes) avec 3 * (***). On marque les corrélations moins bonnes avec 2* (**) On marque les corrélations faibles avec une étoile (*) On marque les corrélations quasi nulles avec rien. Formule : 4. Calculer un r. (valeur de x moyenne de x) (valeur de y moyenne de y) (valeur de x moyenne de x)²* ( valeur de y moyenne de y ) ² La significativité du coefficient de corrélation. - Objectif : Généraliser à l ensemble de la population. - Procédure : o o Déterminer le Ddl (N-2). Lire le seuil de risque correspondant. Si r calculé est supérieur à r lu l effet est significatif. 5. Avec Excel : A B 1 3 3 4 4 5 5 4 6 3 4 3 7 3 7 4 1 5 2 2 On insère une fonction =PEARSON(A1:A10;B1:B10) C. Tester l homogénéité d une échelle : L alpha de Cronbach. Voir polycop donné par le prof en TD. http://www.interpsychonet.fr.st 6

D. Comparer les moyennes : Le test t. Le T test pour échantillons indépendants (la mesure prise sur les unités d un groupe ne doit pas influer sur le résultat de la mesure prise sur les unité de l autre groupe). 1. Objectif. Evaluer si la différence observée entre deux moyennes résulte des fluctuations dues au hasard ou si un autre facteur peut l expliquer. 2. Procédure. On utilisera un modèle probabiliste appelé «distribution t», et on comparera la probabilité de l événement observé avec celle prédite par le modèle probabiliste en supposant que seul joue le hasard. Exemple : La pratique judiciaire professionnelle et la punitivité pénale. Hypothèse : Les sujets issus du milieu judiciaire (Groupe J) sont moins punitifs que les sujets n étant pas acclimatés à ce milieu (Groupe PG). Utilisation d une échelle de punitivité pénale en 10 items (construction et test préalables). On suppose d abord qu il n y a pas de différence (c est l hypothèse nulle : les moyennes des groupes sont les mêmes) et on tente de déterminer si les données sont compatibles avec cette hypothèse en comparant la moyenne de chacun des échantillons. Si la moyenne du Groupe J est nettement différente de celle du groupe PG, on affirmera que la pratique sociale spécialisée est associée au jugement pénal. Avant de généraliser cette conclusion à l ensemble de la population, on effectuera un test d hypothèse sur la différence entre les deux moyennes. 3. Etapes de la recherche. a. La formulation des hypothèses. Dans un test de la différence entre deux moyennes, les hypothèses peuvent être formulées de trois façons selon qu on veut que montrer que la moyenne du premier groupe (J) est différente, inférieure ou supérieure à la moyenne du second groupe (PG). On supposera ici l existence d une différence : Le groupe J devrait avoir un score de punitivité pénale inférieur au groupe PG. Nous procéderons à un test bilatéral. Au seuil de 5% soit 0.05. b. Le choix du seuil de significativité. c. Vérification des conditions d application. - Le test que nous faisons s applique lorsque les échantillons sont de petite taille (inférieur à 30). - Les échantillons doivent avoir été prélevés au hasard et de manière indépendante au sein d une population pour laquelle la caractéristique observée dans chacun des deux groupes correspond au modèle de la loi normale et pour laquelle les écarts types des groupes sont homogènes. http://www.interpsychonet.fr.st 7

d. Le calcul de la V d écart. La V d écart (t) mesure la différence entre les deux moyennes pondérées par un écart type ajusté de façon à tenir compte des écart type de la taille des échantillons. Variance : Moyenne des carrés des écarts-types. Sd = Racine carré de la variance. e. Formule du t : T = Moyenne échantillon Moyenne population (n1-1) s²1 +(n2-1) S²2 * 1 + 1 N1+n2-2 n1 n2 f. La détermination de la valeur critique. On trouve la valeur critique dans une table de valeurs critiques. Cette valeur dépend : - Du seuil de significativité alpha. - Du nombre de degrés de liberté. - De la nature du test (bi ou unilatéral). La courbe de la loi de Student, d où sont tirées les valeurs critiques, ressemble à la courbe de la loi normale. g. La formulation de la règle de décision. La règle de décision, dans un test de la différence entre deux moyennes, est fonction de l hypothèse alternative retenue. On rejette l hypothèse nulle si elle paraît statistiquement incompatibles avec les résultats. h. La décision. Au seuil de signification fixe et en vertu de la règle de décision, on décide de rejeter ou de maintenir l hypothèse nulle, on acceptera l hypothèse alternative et on dira que le résultat est significatif au seuil de alpha. Retour à l exemple : J PG N 8 8 Moyenne 20.1 17.4 Ecart-type 2.4 1.6 Le nombre de Ddl est v = nl + nc 2 soit 8 +8-2 = 14. T = 20.1-17.4 (8-1) 2.4² + (8-1) 1.6² 1 + 1 8+8-2 8 8 Pour v = 14 et alpha = 5%, nous obtenons t critique = 1.76 puisqu il s agit d un test bilatéral. Nous constatons que t = 2.65>1.16 = tc. On rejette donc l hypothèse nulle, le groupe J est plus clément que l hypothèse que le groupe PG. http://www.interpsychonet.fr.st 8