PSYQR19A Statistiques Lotje van der Linden l.vanderlinden@cogsci.nl
Objectifs généraux du cours Analyser les données de TER avec un logiciel statistique Choisir le test approprié pour tester une certaine problématique Appliquer Décrire et interpreter les résultats 2
Arbre de décision 3
Fonctionnement UE Modalité d'évaluation : Examen sur table = 50 % Examen oral individuel = 50 % 15 minutes de présentation de votre TER 4
Emploi du temps Séance Date Thème 1 04/02/2016 Introduction Les statistiques descriptives 2 11/02/2016 Le test t: Comparer 2 moyennes 3 25/02/2016 L'ANOVA simple : Comparer >2 moyennes d'une seule VI 4 03/03/2016 L'ANOVA factorielle : Comparer >2 moyennes de plusiers VI 5 10/03/2016 Continuation ANOVA Preparer le fichier csv 6 17/03/2016 La régression simple et correlation 1 prédicteur 7 24/03/2016 La régression multiple Plusiers prédicteurs 8 31/03/2016 (Les tests non-paramétriques) Révisions 9?? Examen sur table 5
Planning Aujourd'hui : Partie 1 : Théorie La méthodologie expérimentale Les statistiques descriptives Pause Partie 2 : Informatique Introduction logiciel Exercices statistique descriptive TER 6
Méthodologie expérimentale 7
La méthodologie expérimentale Les variables Le cycle de la recherche empirique Deux type de question de recherche Deux types de relation entre les échantillons 8
Les variables Les variables dépendantes (VD) Les variabiles indépendantes (VI) 9
Les VD Ce que l'on mesure les données 3 niveaux de mesures Nominal Ordinal Numérique 10
Les VD Ce que l'on mesure les données 3 niveaux de mesures Nominal : Les différentes valeurs de la VD sont de simples étiquettes Les valeurs ne sont pas "classables" Pas de hiérarchie possible Ex : Quelle est votre couleur préférée? Pas de réponses plus justes que des autres Bleu pas mieux que jaune 11
Les VD Ce que l'on mesure les données 3 niveaux de mesures Nominal Ordinal : Les différentes valeurs de la VD sont "classables". On peut déterminer laquelle "vient avant" l'autre. Pas d'intervalles réguliers entre les différentes valeurs Ex : Aimez-vous les statistiques? 12
Les VD Ce que l'on mesure les données 3 niveaux de mesures Nominal Ordinal Numérique : La différence entre deux valeurs est réguilière Opérations arithmétiques possibles Ex : Les TR, le nombre de réponses correctes, 13
Les VD Avant tout analyse statistiqe : Bien identifier la VD Et son niveau de mesure Pourquoi? Constraint les analyses statistiques possibles et les conclusions qu'on peut en tirer Si on ne considère pas notre VD sur le bon niveau de mesure analyse et conclusions seront fausses Ex : Les numéros des maillots des joueurs de foot Modalités sont des nombres Mais : ce sont des simples étiquettes Pas de hiérarchie Donc : le numéro «moyenne» (ici : 10,25) n'a aucun sens Lord (1953) 14
Les VI Les manipulations Ce que l expérimentateur fait varier pour en étudier l effet sur la VD Modalités : les valeurs que peut prendre une variable Ex : la variable «Sexe» a deux modalités : Féminin ou Masculin Sous-division : Les VI invoquées Existantes dans la nature Elles sont simplement recuillies par l'expérimentateur Ex: le sexe du participant, l'age, etc. Les VI controlées (ou provoquées / manipulées) Crées par l'expérimentateur Ex: groupe de contrôle versus groupe de traitement, etc. 15
Les VI Pour étudier l'effet du caféine sur le temps de réponse (TR), un chercheur teste deux groupes de participants : 1) Un groupe de participants qui ont l'habitude de boire du café 2) Et un groupe de participants qui ne boivent jamais de café. Les participants font une tache sur ordinateur. Ils doivent appuyer sur un bouton le plus rapidement possible quand une cible apparaît sur l'écran. VI : - Café, avec deux modalités : Sans et Avec - Invoquée 16
Les VI Et si l'expérimentateur demande aux participants de venir au labo sans avoir bu de café, et puis les divise en deux groupes : 1) Au groupe 1, il donne a boire une tasse de café jute avant la tache. 2) A l'autre groupe, il donne a boire une tasse de l'eau. VI : - Café, avec deux modalités : Sans et Avec - Provoquée (= manipulée) 17
Les VI Implications sur les conclusions qu'on peut tirer Les VI invoquées disqualifient toute interprétation causale Ici, par ex : Pour la 1ere expérience, on ne peut pas exclure la possibilité que des gens qui sont plus vite boivent plus de café par rapport aux gens qui sont plus lents 18
Le cycle de la recherche empirique Problématique Méthode Données Analyse Interpretation 19
Le cycle de la recherche empirique La probématique Problématique Méthode Données Analyse Interpretation 20
La problématique Deux types de questions de recherche : Différences : Le groupe qui a bu une tasse de café, est-il plus vite sur une tâche de détection par rapport au groupe qui n'a pas bu de café? Comparer deux ou plusieurs échantillons entre eux La VI a plusieurs modalités L'hypothèse concerne une différence entre deux moyennes Relations : Etudier les liens entre les variables étudiées La VI (ici : prédicteur) est une variable continue L'hypothèse concerne une relation entre deux variables La quantité de caféine, est-elle correlée avec le temps de réponse dans le sens ou plus de caféine fait plus vite? 21
Arbre de décision Les derniers TD Les premiers TD 22
Le cycle de la recherche empirique Un exemple Problématique Méthode Données Analyse Interpretation 23
Le cycle de la recherche empirique La problématique : L'alcool, influence-t-il la conduite de voiture?? 24
Le cycle de la recherche empirique La méthodologie Problématique Méthode Données Analyse Interpretation 25
La méthodologie Les VI et VD Plan expérimental à 1 VI à deux modalités 26
La méthodologie Comment distribuer les participants dans les modalités de la VI? 2 possibilités : Deux échantillons indépendants Deux échantillons appariés (= plan à mesures répétées) 27
La méthodologie Comment distribuer les participants dans les modalités de la VI? Deux échantillons indépendants Répartition aléatoire des participant dans chacun des groupes Si n = 8 4 participants dans chaque groupe, au hasard 28
La méthodologie Comment distribuer les participants dans les modalités de la VI? Deux échantillons indépendants 29
La méthodologie Comment distribuer les participants dans les modalités de la VI? Deux échantillons appariés (= plan à mesures répétées) Si n = 8 les 8 participants passent dans toutes les conditions expérimentales Les mêmes participants sont testés deux fois 30
La méthodologie Comment distribuer les participants dans les modalités de la VI? Deux échantillons appariés 31
Arbre de décision 32
Le cycle de la recherche empirique Les données Problématique Méthode Données Analyse Interpretation 33
Les résultats Les données 34
Les données 2 échantillons indépendants Les participants diffèrent entre conditions. Par conséquence, les m (les cerles noirs) peuvent être liées Mais non les observations individuelles (les cercles non remplis) 35
Les données 2 échantillons appariés Pour chaque participant nous avons une observation dans les deux conditions. Par conséquence, on a le droit de lier à la fois les m Et les observations individuelles. 36
Les résultats Que veut-on savoir pour déterminer si une différence est (probablement) significative? Effectif L'effectif A) petit B) grand Dans la Figure B, les estimations des μ sont plus fiables parce que les m sont basées sur plus d'observations. 37
Les résultats Que veut-on savoir pour déterminer si une différence est (probablement) significative? Effectif L'effectif A) petit B) grand Dans la Figure A, la valeur aberrante influence plus les m que dans la Figure B 38
Le cycle de la recherche empirique Que veut-on savoir pour déterminer si une différence est (probablement) significative? L'effectif La variabilité intra conditions La part de variabilité de la VD qui ne peut pas être attribuée aux traitements expérimentaux Ici: la variabilité en compétences de conduite, peu importe la quantité d'alcool Variabilité intra A) peu B) beaucoup Dans la Figure A, les estimations des μ sont plus fiables parce que la variabilité intra conditions est plus petite 39
Le cycle de la recherche empirique Que veut-on savoir pour déterminer si une différence est (probablement) significative? L'effectif La variabilité intra La relation entre les deux échantillons Relation entre les échantillons A) Indépendants B) Mesures répétées 40
Le cycle de la recherche empirique Que veut-on savoir pour déterminer si une différence est (probablement) significative? L'effectif La variabilité intra La relation entre les deux échantillons Le niveau alpha ( ) Si plus libéral augmente les chances de trouver un effet significatif Mais aussi le risque de fausses alarmes Défaut = 0,05 41
Le cycle de la recherche empirique Analyse Problématique Méthode Données Analyse Interpretation 42
Analyse A partir de la semaine prochaine Les plans a mesures répétées ont un avantage statistique par rapport aux plans aux échantillons indépendants 43
Analyse A partir de la semaine prochaine Les plans a mesures répétées ont un avantage statistique par rapport aux plans aux échantillons indépendants 44
Analyse A partir de la semaine prochaine Les plans a mesures répétées ont un avantage statistique par rapport aux plans aux échantillons indépendants Deux échantillons indépendantes Test t (ou ANOVA) spécifique pour groupes indépendants Deux échantillons appariés Test t (ou ANOVA) spécifique pour groupes appariés 45
Le cycle de la recherche empirique Interpretation Dans la partie «Discussion» des articles scientifiques Problématique Méthode Données Analyse Interpretation 46
Les statistiques descriptives 47
Les statistiques descriptives Cherchent à résumer les données Les indices de tendance centrale Les indices de dispersion 48
Les indices de tendance centrale Résumer l'attitude générale de la VD Le mode La médiane La valeur moyenne de la VD Ici : 17 Les 3 indices donnent souvent des résultats voisins Approche non-paramétrique, basé sur des rangs La valeur de la VD qui partage l'effectif en 2 Ici : 17 La moyenne (mean) Valeur de la VD dont la fréquence est maximale L'effectif partiel le plus élevé Ici : 17 Dans une distribution normale : mode, médiane et moyenne sont confondus Mais pas toujours 49
Les indices de dispersion Mesurer la variabilité/ l'hétérogénéité de la VD La moyenne ne suffit pas L'étendue (range) Plus précise que l'étendue L'écart type (standard deviation) Valeur maximale valeur minimale La variance Ex. 2 groupes d'étudiants Cela signifie-t-il la même chose? Est une mesure de la variance L'écart interquartile Comme la médiane approche nonparamétrique, basé sur des rangs 50
Les indices de dispersion Mesurer la variabilité/ l'hétérogénéité de la VD La moyenne ne suffit pas L'étendue (range) Plus précise que l'étendue L'écart type (standard deviation) Valeur maximale valeur minimale La variance Ex. 2 groupes d'étudiants Cela signifie-t-il la même chose? Est une mesure de la variance L'écart interquartile Comme la médiane approche nonparamétrique, basé sur des rangs 51
Les statistiques descriptives Le choix des indices dépend: Du niveau de mesure de la VD (nominal, ordinal, numérique) Tendance centrale Dispersion VD nominale Mode VD ordinale Médiane Écart interquartile VD numérique Distribution symmétrique Pas de valeurs aberrantes Moyenne Variance ou écart type VD numérique Distribution asymmétrique Valeurs aberrantes Médiane Écart interquartile???? VD numérique Distribution bimodale Valeurs aberrantes Les modes (au moins 2)???? 52
Les statistiques descriptives Le choix des indices dépend : Du niveau de mesure de la VD (nominal, ordinal, numérique) De la distribution des données (symétrique ou asymétrique) De la présence des valeurs aberrantes 53
La distribution de fréquence de la VD Comment se distribuent les données? Ex : distribution des notes d'examen 500 étudiants La moins bonne note = 2 La meilleure note = 16 Mais combiens d'étudiants ont eu 2, 3, 4,.. 11,.. 17? La distribtion de fréquences répond à cette question Histogram des fréquences Parfois avec une estimation de la densité superposée 54
La distribution de fréquence de la VD La première étape de l'analyse! La forme de la distribution a des conséquences pour tous les étapes d'analyse qui suivent Déjà au niveau de statistiques descriptives Différentes formes possibles Distribution normale Distribution asymétrique Par ex:t Taille, poids Variables psychologiques : QI Loi du hasard : tirer à pile ou face 1000 fois... Par ex : Temps de réponse Distribution bimodale Par ex : Préférence manuelle 55
Les statistiques descriptives Le choix des indices dépend: De la distribution des données (symétrique ou asymétrique ou bimodale) Tendance centrale Dispersion VD nominale Mode VD ordinale Médiane Écart interquartile VD numérique Distribution symmétrique Pas de valeurs aberrantes Moyenne Variance ou écart type VD numérique Distribution asymmétrique Valeurs aberrantes Médiane Écart interquartile VD numérique Distribution bimodale Valeurs aberrantes Les modes 56
Partie 2 : Informatique 57
Logiciel statistique Logiciel avec interface ou langage de programmation?? Avantages et inconvéniants Interface plus facile à apprendre Mais moins flexible Si un test statistique que vous envisagez pour votre Mémoire n'est pas couvert par JASP, n'hésitez pas à me consulter JASP https://jasp-stats.org/ Gratuit Tous les plateforms (Windows, Mac OS, Linux) 58
Le logiciel JASP 59
Le logiciel JASP Ouvrir un fichier de données Vidéo 1 60
Le logiciel JASP Faire des statistiques descriptives Vidéo 2 61
Exercices 62