Psy1004 Section 12: Corrélations et régressions

Documents pareils
Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Analyse de la variance Comparaison de plusieurs moyennes

Chapitre 3. Les distributions à deux variables

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Régime de retraite patronal-syndical (Québec) de l'association internationale des machinistes (A.I.M.)

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Relation entre deux variables : estimation de la corrélation linéaire

Cours 9 : Plans à plusieurs facteurs

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Structures algébriques

CHAPITRE VIII : Les circuits avec résistances ohmiques

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Introduction aux Statistiques et à l utilisation du logiciel R

I- Définitions des signaux.

Exercices de dénombrement

L exclusion mutuelle distribuée

Recherche dans un tableau

Régression linéaire. Nicolas Turenne INRA

LES GENERATEURS DE NOMBRES ALEATOIRES

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

CAPTEURS - CHAINES DE MESURES

Evaluation de la variabilité d'un système de mesure

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

LES GARANTIES DU REGIME CONVENTIONNEL DES CADRES DE LA PRODUCTION AGRICOLE

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Chapitre 1 Régime transitoire dans les systèmes physiques

La classification automatique de données quantitatives

1. Création d'un état Création d'un état Instantané Colonnes Création d'un état Instantané Tableau... 4

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

PROSPECTUS N 1 CRÉDIT À LA CONSOMMATION

Initiation à la programmation en Python

Pourquoi l apprentissage?

Rapidolect Les Productions de la Columelle ( ) Page 1

Garde des enfants et droit de visite

EPFL TP n 3 Essai oedomètrique. Moncef Radi Sehaqui Hamza - Nguyen Ha-Phong - Ilias Nafaï Weil Florian

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

CH.6 Propriétés des langages non contextuels

T de Student Khi-deux Corrélation

NOTIONS DE PROBABILITÉS

Comment battre Milos Raonic?

CHAPITRE VI - LES SOLDES COMPTABLES ET LES INDICATEURS DE REVENU

Comparaison de fonctions Développements limités. Chapitre 10

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Par combien de zéros se termine N!?

Gestion de projet - contraintes, chevauchement, attente entre 2 tâches, jalons

Algorithmique avec Algobox

Algorithmique avec Algobox

FORMULAIRE DE STATISTIQUES

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

SYSTEMES LINEAIRES DU PREMIER ORDRE

Utiliser les supports d'exemplaires

Introduction à la statistique non paramétrique

Bonifications pour tâches éducatives

Exemples d utilisation de G2D à l oral de Centrale

D.E.S.C.F - UV 1 - Module 8 Consolidation dans les groupes de sociétés. Corrigé - Cas IG/IP/MEE

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Statistiques Descriptives à une dimension

1 Complément sur la projection du nuage des individus

Rappel. Analyse de Données Structurées - Cours 12. Un langage avec des déclaration locales. Exemple d'un programme

Votre Réseau est-il prêt?

Le chi carré. Le sommaire. Approche quantitative

Cours 02 : Problème général de la programmation linéaire

À l'intention des parents

Retentissement de la réforme de l'ircantec 2008 sur la retraite des Praticiens Hospitaliers.

Théorie et codage de l information

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

MATHÉMATIQUES APPLIQUÉES S4 Exercices

Annexe commune aux séries ES, L et S : boîtes et quantiles

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

Thème 1: MÉNAGES ET CONSOMMATION

Chapitre 1 I:\ Soyez courageux!

Centre d'etudes Nucléaires de Fontenay-aux-Roses Direction des Piles Atomiques Département des Etudes de Piles

1. Introduction Création d'une requête...2

Précision d un résultat et calculs d incertitudes

Mesures et incertitudes

Note:... Q1 :... Q2 :... Q3 :... Q4 :... Bonus :... Total :...

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Europâisches Patentamt European Patent Office Numéro de publication: A1 Office européen des brevets ^ 1

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Analyse en Composantes Principales

Dans l'article précédent, vous avez appris

Chapitre 2. Eléments pour comprendre un énoncé

23. Interprétation clinique des mesures de l effet traitement

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Développements limités. Notion de développement limité

Fonctions de plusieurs variables

Fédération Nationale des Organismes de Gestion des Établissements de l Enseignement Catholique Questions Réponses Le mandat

Identification des incontournables à la démarche Lean

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Transcription:

Psy1004 Section 12: Corrélations et régressions Plan du cours: Varia 12.0: Le Q.I. varie-t-il avec le nombre d'années de scolarité? 12.1: Calculs de l'indice de corrélation 12.2: Exemples de corrélations et solution de 12.0 12.3: Tester l'indice de corrélation 12.4: Calculs de la pente d'une droite de régression 12.5: Tester la pente d'une droite de régression 12.6: Dangers lors du calcul d'une corrélation/droite de régression. Disponible sur: http://mapageweb.umontreal.ca/cousined/home/course/psy1004

Varia Il y aura au prochain cours (le dernier) une période de révision d'environ une heure. Rappel: Faites un graphique des moyennes!!! TP3: Moyenne: PSY1004 A03 - Section 12 p. 2 Écart type: Asymétrie:

Varia Test d'homogénéité des variances et le test t Le test-t tel qu'on l'a vu en classe suppose que les variances sont homogènes (et donc "poolée" ensemble). Cependant, ce n'est pas forcément le cas. SPSS fait le test de deux façons différentes, précédé d'un test d'homogénéité des variances (le test de Levene dans ce cas-ci): Independent Samples Test PSY1004 A03 - Section 12 p. 3 VAR00001 Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper 4.545.041-1.022 32.314-14068.24 13762.059-42100.6 13964.16-1.022 16.000.322-14068.24 13762.059-43242.5 15106.03 Si < α, prendre la ligne du haut, sinon, utiliser la ligne du bas. Méthode vue en classe

temps Plan expérimental vs. Plan corrélationnel (1/4) Jusqu à présent, nous avons vue des méthodes statistiques pour des «plans expérimentaux», i.e. des données collectés dans des conditions déterminées. Ex: la dose d alcool est déterminée par le chercheur, de même que: Le type de véhicule, le nombre de personnages dans la tâche «Où est Charlie?» Etc. PSY1004 A03 - Section 12 p. 4 3000 2000 1000 10 20 30 40 nbperson Comme le nombre de personnage est manipulé par le chercheur, il n y a pas de niveaux intermédiaires non désirés, seul les niveaux voulus sont présents. Condition manipulée par le chercheur

Plan expérimental vs. Plan corrélationnel (2/4) Les plans expérimentaux sont indiqués par des raccourcis: Plan 2 à deux groupes indépendants Plan (4) à mesures répétées Plan 2 x 3 à six groupes indépendants Plan 2 x (5) à deux groupes indépendants etc. Et des méthodes statistiques existent en conséquence: PSY1004 A03 - Section 12 p. 5 Test t à groupes indépendant ANOVA à mesures répétées ANOVA factorielle ANOVA mixte etc.

Plan expérimental vs. Plan corrélationnel (3/4) Il existe des situations où le chercheur ne peut pas manipuler les variables dépendantes comme il veut Ex. Le revenu des parents sur la réussite scolaire: le chercheur ne peut pas décider que tels parents gagnent 50 000$ par an et tels autres 25 000$. Le chercheur ne peux pas répartir les sujets au hasard dans l un ou l autre groupe PSY1004 A03 - Section 12 p. 6 Dans ces cas, on parle d études corrélationnelles, de plan corrélationnel. Très fréquent en psychologie sociale Tout les cas possibles existent.

Plan expérimental vs. Plan corrélationnel (4/4) Dans les études corrélationnelles, on veut savoir si un facteur est associé avec un autre facteur (i.e. s ils corrèlent; voir plus loin). LA méthode statistique pour examiner les associations est la régression/corrélation. PSY1004 A03 - Section 12 p. 7 La régression/corrélation est aussi utilisée pour examiner des données qui proviennent de plans expérimentaux: Une technique très polyvalente. Dans ce cours, on n examine que la régression linéaire (i.e. dont l association forme une ligne droite).

La corrélation Disponible sur: http://mapageweb.umontreal.ca/cousined/home/course/psy1004

12.0: Le Q.I. varie-t-il avec le nombre d'années de scolarité? Exemple 1: le Q.I. en fonction du nombre d'années de scolarité (AS). Est-ce que: Le Q.I. est relié/associé/ corrélé avec AS? Si oui, est-il fortement corrélé? dans quel sens? S'il est corrélé, peut-on dire que les années de scolarité accroissent le Q.I? PSY1004 A03 - Section 12 p. 9 Il nous faut une statistique qui permet d'évaluer l'association entre deux mesures. Un indice de corrélation, qui est appelé r, ou indice de corrélation de Pearson. L'indice doit indiquer la force d'une association, ou l'absence d'une association, et sa direction (positivement corrélé, négativement corrélé).

12.1: Calculs de l'indice de corrélation (1/2) Exemples de corrélations positives: PSY1004 A03 - Section 12 p. 10 r-.09 r.48 r.92 r.99 r.9999 Comment calcule-t-on un indice de corrélation? Il faut deux ensembles de mesures, disons X et Y. a) Pour l'échantillon X, il faut connaître l'écart type b) Pour l'échantillon Y, il faut connaître l'écart type c) Pour les deux échantillons, il faut connaître la covariance: 2 n 1 n 1 XY ( Xi X)( Yi Y) 1 n i 1 d) Finalement, on obtient r avec la formule: r XY n 1 n 1 X XY 2 n 1 Y n 1X n 1Y

12.1: Calculs de l'indice de corrélation (2/2) r XY est toujours une valeur entre 1 et +1: r XY 0 signifie aucune corrélation entre les X et les Y r XY +1 signifie une corrélation parfaite et positive. r XY 1 signifie une corrélation parfaite et négative. PSY1004 A03 - Section 12 p. 11 Mis au carré, r 2 XY s'appelle souvent "la variance expliquée" car la proportion de variabilité dans les X qui entraîne aussi une variabilité dans les Y est quantifiée par le r 2 XY. Le r 2 XY varie entre 0 et +1, soit encore entre 0 et 100%

12.2: Exemples de corrélations (1/3) a) Un petit exemple à la main. Soit les données: Échantillon Calculs (n 3) X Y (X - X) (Y - Y) (X - X) (Y - Y) 15 5-5.00-1.00 5.00 20 6 0.00 0.00 0.00 25 7 5.00 1.00 5.00 Moyenne 20.0 6.0 Écart type 5.0 1.0 Somme 10.00 Divisé par n - 1, covariance 5.00 PSY1004 A03 - Section 12 p. 12 La corrélation est parfaite et positive; 100% de la variance d'un échantillon s'explique par la variance de l'autre (i.e. quand l'un augmente, l'autre aussi). 1 2 n n 1 XY ( Xi X)( Yi Y) n 1 i 1 r XY n 1 n 1 X XY 2 n 1 Y 5.00 5.00 1.00 1

12.2: Exemples de corrélations (2/3) b) Années de scolarité (AS) vs. Q.I. Il semble y avoir une relation assez forte entre ces deux variables. Deux questions sont possibles: 1) Y a-t-il un effet des AS sur le Q.I.? Se serait donc une ANVOVA 21 à 21 groupes indépendants ou PSY1004 A03 - Section 12 p. 13 2) Y a-t-il une association significative entre les AS et le Q.I.? Se serait donc une corrélation r qui doit être significativement différent de zéro. 1) et 2) sont équivalents, sauf qu'avec 2) on peut poser une question supplémentaire: "De combien augmente le Q.I lorsque le nombre d'as augmente de 10?"

12.2: Exemples de corrélations (3/3) c) Soit l'effet de la privation de sommeil (PS) sur le Q.I. Il existe peut-être une relation, mais si présente, elle est: beaucoup plus faible: Le r ici est sans doute plus proche de.20 à.40 (soit un indice relativement faible). PSY1004 A03 - Section 12 p. 14 et négative: En effet, quand la PS augmente, le Q.I. semble baisser. Est-ce que cette corrélation est significative? i.e. existe-t-il bien une association entre PS et Q.I.? Encore une fois, on peut soit faire une ANOVA (5) à mesures répétées ou encore tester si le r est significativement différent de zéro.

La régression Disponible sur: http://mapageweb.umontreal.ca/cousined/home/course/psy1004

12.3: Calculs de la pente d'une droite de régression (1/2) La droite idéale qui passe le mieux par tous les points s'appelle une "droite de régression". Cela suppose que les données se répartissent linéairement. Une information importante de la droite de régression est sa pente, que l'on note souvent par b AS, QI. PSY1004 A03 - Section 12 p. 16 Il existe deux façons simples de calculer la pente de la droite de régression: 2 XY a) à la main: b XY 2 X b) dans le listing de SPSS

12.3: Calculs de la pente d'une droite de régression (2/2) Dans l'exemple simple vu précédemment: L'écart type des X était de 5.00, soit une variance de 25.00, La covariance était de 5.00, Donc, b XY XY X 2 2 5 25 1 5 0.2 PSY1004 A03 - Section 12 p. 17 Autrement dit, à chaque fois que: X augmente de 1 Y augmente de 0.2; X augmente de 5 Y augmente de 1; X augmente de 10 Y augmente de 2; etc. Si on prolongeait la droite jusqu'à X 0, nous aurions que Y vaut 2 (l'ordonnée à l'origine). L'équation complète de la droite de régression est donc Y 0.2 X + 2.

12.4: Tester l'indice de corrélation: Les données Examinons plus en détail l'exemple des AS sur le Q.I. PSY1004 A03 - Section 12 p. 18 Si le chercheur veut uniquement savoir s'il existe un effet des AS sur le Q.I., il va procéder à une ANOVA (voir acétate suivante); s'il veut savoir s'il existe une association et quantifier cette association, il va procéder à une analyse de corrélation (voir acétates suivantes).

12.4: Tester l'indice de corrélation a) l'anova La démarche: a) hypothèse: H 0 : Pas d'effet des AS; H 1 : Effet des AS b) α 5%. c) Test: ANOVA 21 à 21 groupes indépendants (Voir syntaxe ). d) Calculs et résultats: SC dl CM F AS (A) 30831.5 20 1541.6 19.3 Erreur (S A) 15102.3 189 79.9 Total 45933.7 209 PSY1004 A03 - Section 12 p. 19 Interprétation: Combien y a-t-il de sujets par groupe? de sujet au total? "Le nombre d'années de scolarité influe significativement sur le Q.I. (F(20,189)19.29, p <.05). Le Q.I. moyen pour les personnes ayant 9 années de scolarité est de 99.4 alors que pour les personnes ayant 28 années de scolarité, il est de 140.6 en moyenne."

PSY1004 A03 - Section 12 p. 20 12.4: Tester l'indice de corrélation -OU- b) la corrélation La démarche: a) hypothèse: H 0 : Pas d'association entre AS et Q.I. i.e. r AS,QI 0; H 1 : Association entre AS et Q.I. i.e. r AS,QI 0; b) α 5%. c) Test: Corrélation entre Q.I. et AS (Voir syntaxe ), puis test statistique sur la corrélation: ras, QI rejet de H 0 si > s( α) 2 1 r AS, QI n 2 où la valeur critique est lue sur une table t avec n - 2 degrés de libertés (ici, n représente le nombre de données brutes, pas le nombre de niveaux). On trouve donc, pour 208 dl, la valeur critique 1.96. d) Calculs et résultats: Par SPSS, on trouve que r AS,QI.796, d'où r r AS, QI 2 1 AS, QI n 2 0.796 1 0.634 210 2 0.796 0.605 14.4 0.796 0.042 18.95

12.4: Tester l'indice de corrélation et c1) la pente de régression La démarche: a) hypothèse: H 0 : La pente ne diffère pas de zéro i.e. b AS,QI 0; H 1 : La pente diffère de zéro i.e. b AS,QI 0; Aucun test nécessaire: Si l'association entre Q.I. et AS est significative, cela implique automatiquement qu'il existe une pente significative. Puisque la pente est significative (acétate précédente), la pente diffère de zéro. PSY1004 A03 - Section 12 p. 21 Cependant, si notre hypothèse porte sur une pente en particulier, postulée par une théorie, on peut faire un test sur cette valeur. Supposons par exemple qu'une théorie prédise une augmentation de 2 points de Q.I. pour chaque année de scolarité supplémentaire. Il s'agit d'une hypothèse sur la pente

PSY1004 A03 - Section 12 p. 22 12.4: Tester l'indice de corrélation et c2) la pente de régression La démarche: a) hypothèse: H 0 : La pente ne diffère pas de 2.00 i.e. b AS,QI 2.00; H 1 : La pente diffère de 2.0 i.e. b AS,QI 2.00; b) α 5%. c) Test: Corrélation entre Q.I. et AS (Voir syntaxe ), puis test statistique sur la pente de la droite de régression: bas, QI 2.00 rejet de H 0 si > s( α) 2 n 1QI 1 r AS, QI n 1 AS n 2 où la valeur critique est lue sur une table t avec n - 2 degrés de libertés (ici, n représente le nombre de données brutes, pas le nombre de niveaux). On trouve donc, pour 208 dl, la valeur critique 1.96. d) Calculs et résultats: Par SPSS, on trouve que b AS,QI 1.944, d'où n 1 n 1 QI AS b AS, QI 1 r 2.00 2 AS, QI n 2 1.944 2.00 14.82 1.634 6.07 208 0.056 2.44 0.605 14.4 0.056 0.103 0.55

12.4: Tester l'indice de corrélation d) interprétation de la régression Interprétation: "Il existe une association significative entre le nombre d'années de scolarité et le quotient intellectuel ( t(208) 18.95, p <.05). Qui plus est, l'indice de corrélation est assez fort (r 0.796), les années de scolarité expliquant à elles seules près de 65% de la variance. En moyenne, le Q.I. augmente de 1.944 points pour chaque année de scolarité supplémentaire, une valeur qui ne diffère par de 2 ( t(208) 0.55, p >.05)." PSY1004 A03 - Section 12 p. 23

Hétérogénéité des variances Disponible sur: http://mapageweb.umontreal.ca/cousined/home/course/psy1004

12.5: Dangers lors du calcul d'une corrélation/droite de régression. Tout comme pour l'anova, le calcul de l'indice de corrélation r utilise beaucoup la variance dans les données. Si la variance due à l'erreur? expérimentale est mal répartie, l'indice de corrélation peut être difficile à inférer, ainsi que la pente de la droite de régression. PSY1004 A03 - Section 12 p. 25 Cette situation, appelé "hétérogénéité des variances" (entre les différents niveaux) dans une ANOVA a reçu un nom spécial dans les études de corrélation: "hétéroscédasticité". L'hétéroscédasticité est souvent vérifiée visuellement (sans test statistique). Si les données se répartissent dans des catégories, un test de l'homogénéité de la variance peut être utilisé (Bartlett-Box, cf. section 11).