Cours 14 Synthèse et révision CRI1600G Automne 2011 Rémi Boivin Maurizio D Elia Les variables Variable : Caractéristique de l unité statistique que l on désire étudier. Une variable peut prendre différentes valeurs selon l unité statistique considérée. Valeur : Les valeurs de la variable sont les différentes quantités numériques ou choix de réponse possibles que l on trouve dans l ensemble des données. Les types de variables Quantitatives Discrète : Variable dont on peut énumérer les valeurs qu elle peut prendre. Continue : Variable dont les données recueillies sont des quantités numériques approximatives ou arrondies. Catégorielles (qualitatives) Nominale : variable dont les différentes modalités correspondent à des noms, sans ordre précis. Ordinale : Variable catégorielle dont les différentes catégories peuvent être classées dans un certain ordre. 1
La notion de causalité Variable dépendante : Variable que l on cherche à expliquer (l effet). Variable indépendante : Variable qui vise à en expliquer une autre (la cause). Corrélation vs causalité Retour sur les types de variables Variable dépendante (Y): variable que l on cherche à expliquer (effet) Variable indépendante (X): variable qui vise à en expliquer une autre (cause) Variable contrôle/intermédiaire (Z): variable qui intervient dans la relation entre d autres variables Quelle est la variable dépendante? Variable dépendante : varie en fonction d autres paramètres (variables indépendantes) Quelques trucs : Les variables indépendantes précèdent la variable dépendante (ex : délinquance juvénile et criminalité adulte) Les traits statiques sont toujours des variables indépendantes, des facteurs externes ne peuvent pas les faire varier (ex : sexe, âge) Poser la question : qu est-ce que je veux prédire? (ex : criminalité et température, Est-ce que la température cause le crime ou est-ce que le crime cause la température?) 2
La causalité Variable indépendante Variable dépendante Variable intervenante Conditions nécessaires à la causalité 1. Les deux concepts (cause et effet) doivent être théoriquement distincts 2. La cause doit précéder l effet 3. Il existe une interprétation possible de la relation 4. Il existe une association statistique entre les deux concepts 5. La relation persiste même si on inclut d autres variables Les mesures de tendance centrale Utilité Permettent de résumer en un seul nombre la valeur la plus représentative d une série statistique., Mode (et classe modale) et médiane 3
Les mesures de tendance centrale Le Mode Le mode d'une série d'observations est la valeur la plus fréquente d'un ensemble de données. Il est généralement utilisé dans le cas des variables nominales. Le mode est rarement employé seul pour mesurer la tendance centrale d une variable continue, parce qu'avec un petit nombre d'observations chaque valeur est unique. Dans ce cas, il n'y a pas de mode. Les mesures de tendance centrale La La médiane correspond à l'observation du milieu, c'est-à-dire la valeur de part et d'autre de laquelle se situe la moitié des observations. Pour la mesurer, on établit la liste des observations individuelles par ordre croissant ou décroissant. Les mesures de tendance centrale La La moyenne représente la mesure la plus courante de tendance centrale des observations. Elle se calcule en additionnant les valeurs observées de chaque individu divisées par le nombre de sujets observés. = 4
Normale et Mode Asymétrique négative Asymétrique positive Mode Mode Normale et Mode Asymétrique négative Asymétrique positive Mode Mode 2011-12-14 La forme des distributions Normale et Mode Kurtose des distributions Leptokurtique et Mode Symétrie des distributions Platikurtique et Mode La symétrie des distributions La symétrie Mode = médiane = moyenne Symétrie des distributions L asymétrie Négative: mode > médiane > moyenne Concentration de fortes valeurs Positive: mode < médiane < moyenne Concentration de faibles valeurs 5
L applatissement Normale Mésokurtique: courbe normale (cloche) Kurtose des distributions et Mode Leptokurtique et Mode Platikurtique Leptokurtique: courbe élancée haute concentration de cas qui prennent les valeurs égales ou proches de la moyenne peu de variation : distribution relativement homogène Platikurtique: courbe plate les cas s éloignent de la moyenne forte variation : distribution relativement hétérogène et Mode Interprétation des coefficients relatifs à la forme Asymétrie (skewness) Coefficient d asymétrie utilisé pour vérifier si la distribution est normale On utilise le rapport entre le coefficient sur son erreur type (standard error) On rejet la normalité si le ratio est inférieur à -2 ou supérieur à +2 Distribution normale = skew=0 Applatissement (kurtosis) Coefficient d applatissement utilisé pour vérifier si la distribution est normale On utilise le rapport entre le coefficient sur son erreur type (standard error) On rejet la normalité si le ratio est inférieur à -2 ou supérieur à +2 Distribution normale = kurtosis =0 Les analyses bivariées Étudient la relation entre deux variables (variable dépendante et indépendante) Permettent non seulement de déterminer si deux variables sont associées (signification), mais également de déterminer le sens et la force de cette relation. 6
Les types d analyses bivariées Le type de test utilisé dépend du type de variables utilisées. Variable 1 Variable 2 Test de moyenne Quantitative Qualitative (Nominale ou ordinale) Tableau croisé Qualitative (Nominale ou ordinale) Qualitative (Nominale ou ordinale) Corrélation Quantitative Quantitative Trois éléments à vérifier 1- Vérifier si la relation est significative S il n y a aucune relation.c est fini. Pas besoin d aller vérifier #2 et #3 2- Examiner le sens de la relation Relation positive ou négative 3- Constater la force de la relation Faible, modérée ou forte La signification La signification (seuil de tolérance) nous indique si nos variables sont associées ou non (hasard) Le seuil de tolérance est souvent représenté par la lettre p ou par sig. Est-ce que ma relation entre X et Y est statistiquement significative? Existe-t-il une relation entre ces deux variables? Lorsque p< 0,05, nous pouvons affirmer qu il existe une relation statistiquement significative entre nos deux variables. Nos risques de nous tromper en affirmant qu il y a une relation entre nos deux variables sont inférieurs à 5%. Dans le cadre du cours, si p > 0,05, alors il n existe pas de relation significative entre nos 2 variables. 7
Le sens de la relation S il existe une relation, est-ce que X influe négativement ou positivement sur Y? Relation positive : Plus un individu consomme de l alcool, plus il risque de faire des niaiseries Relation négative : Plus un individu consomme de l alcool, moins celui-ci a d inhibitions La force de la relation Est-ce que l impact de X sur Y est fort, modéré ou faible? Valeur Force du lien statistique 0 Absence de relation Entre 0,05 et 0,10 Très faible Entre 0,10 et 0,20 Faible Entre 0,20 et 0,40 Modérée Entre 0,40 et 0,80 Forte Entre 0.80 et 1 Louche (Colinéarité) Le coefficient de force qualifie la relation et établit si la différence est attribuable à la taille de l échantillon ou non. Il importe de connaitre le domaine d étude pour identifier la force de la relation Un coefficient de force de plus de 0,80 indique la colinéarité les deux variables mesurent le même phénomène 8
Le choix d'analyses statistiques: Arbre décisionnel Statistiques descriptives Statistiques bivariées Statistiques multivariées Une variable catégorielle et une variable continue (ou ordinale)? Deux variables catégorielles Deux variables ordinales ou continues Plusieurs prédicteurs continus ou dichotomiques Mesures de tendance centrale et de dispersion Famille des Tests de moyenne Famille des tableaux de contingence Famille des corrélations Conditions de recherche Variances comparables Distributions normales Échelle intervalle et n>30 Variances non-comparables Distributions non-normales Échelle ordinale ou n<30 Nombre de groupes à comparer Nombre de groupes à comparer Distributions Logique sous-jacente de Prédiction Plus de Plus de Distributions normales Distributions non normales ou variables ordinales Variable dépendante continue T de Student Oneway ANOVA U de Mann Whitney Kruskal Wallis R de Pearson Rho de Spearman Régression linéaire multiple Les postulats d utilisation Des postulats d utilisation sont associés à chaque type de test. Les postulats sont un ensemble de règles à respecter dans l utilisation des statistiques pour assurer la validité des résultats. Quand les postulats d utilisation ne sont pas respectés, cela mène à une fausse sensibilité du test. Vérification des postulats avant de réaliser les tests et d analyser les résultats. Les tableaux croisés 9
Le tableau croisé et le Chi-deux Utilités Permet de tester le lien d indépendance entre 2 variables qualitatives. Tableau croisé (ou de contingence): montre la distribution des effectifs des deux variables. Chi-deux ou Chi-carré (Χ 2 ) : statistique utilisée pour vérifier si la relation entre les deux variables est significative. 28 Le tableau croisé et le Chi-deux Postulats d utilisation Avoir deux variables qualitatives (nominales ou ordinales) Avoir un minimum de cinq observations dans chaque case (intersection)(n 5). 29 Les mesures d association (ou de force) en tableau croisé Le Phi : Mesure dérivé du Chi-deux. On se rappelle que la valeur du Chi est directement influencée par le nombre de sujets et la force de la relation. Le phi élimine l effet de la taille de l échantillon en divisant le Chi carré par n, et en extrayant la racine carrée. Phi aussi appelé Pearson's coefficient of mean-square contingency. Il est utilisable dans le cas de tableaux 2x2. Pour un tableau de plus de 2x2, la valeur du phi dépasse 1, et le rend moins intéressant. 10
Les mesures d association (ou de force) en tableau croisé Le V de Cramer : Le V de Cramer est la mesure d association la plus populaire basée sur une variation du Chi deux. Il varie de 0 à 1, et est donc facile à utiliser et à interpréter. Il est utilisable dans le cas de tableaux de plus de 2x2 (donc 2xK ou KxK). Les tests de moyenne Les tests de différences de moyennes Lorsque l on vise à associer une variable qualitative à une variable quantitative (ou ordinale à plus de 4 catégories) Permet de comparer deux distributions pour savoir si la différence perçue entre les deux distributions est significative ou si elle est due uniquement au hasard. Il existe deux séries de critères utiles afin de choisir le bon test à utiliser Le critère paramétrique / non-paramétrique Le critère du nombre de groupes à comparer 11
Le critère paramétrique Les postulats d utilisation La distribution de la variable quantitative est normale. ( vérifiez avec l histogramme) Le nombre de sujets est supérieur à 30 (au total, pas par groupe) Homogénéité des variances (comparables) (Levene non significatif) Échantillon aléatoire indépendant (inutile dans le cas de vos TP) La force de la relation Le test de T donne la signification mais non la force de la relation Le Eta 2 est le coefficient d association (ou de force) des tests de moyennes paramétriques. Le coefficient de force des tests de moyenne paramétriques: le Eta 2 Il mesure la force de l association entre la variable qualitative et la variable quantitative Il varie entre 0 et 1 Il donne une indication de la proportion de la variance expliquée On l obtient en utilisant la commande «comparer des moyennes» (voir vignettes SPSS) 12
Le sens de la relation Pour les tests de moyennes (comme pour les tableaux de contingence) on ne parle pas de relation positive ou négative. Le sens de la relation analysé à l aide des moyennes de vos groupes. Par exemple : les garçons commettent plus de violence physique que les filles. Le Oneway ANOVA (test F) Aussi appelé analyse de variance simple ou à un facteur Il vise à comparer les moyennes non pas deux groupes mais bien trois groupes ou plus Concrètement, est-ce que trois groupes (ex : mineurs, jeunes adultes, aînés) ont des moyennes différentes à une échelle de troubles du comportement? La signification et les tests à posteriori (post hoc) Lorsque le test F est significatif, il nous indique que la moyenne d au moins 1 groupe se distingue significativement des autres. Mais il ne permet pas d établir si toutes les moyennes sont différentes. Nous devons utiliser une autre série d analyses afin de connaître plus en détail quels groupes sont significativement différents desquels. Il faut alors réaliser des tests post hoc. 13
Arbre décisionnel: Tests de différences de moyennes Une variable catégorielle et une variable continue (ou ordinale)? Famille des Tests de moyenne Questions à se poser: Les variances sont-elles comparables? La distribution est-elle normale? Combien de sujets sont disponibles pour l'analyse? Réponses: Réponses: Variances comparables Variances non-comparables Distributions normales et Distributions non-normales n>30 ou n<30 Si on répond non à une de ces questions, on s oriente vers des tests non paramétriques Nombre de groupes à comparer? Nombre de groupes à comparer? Plus de 2 groupes Plus de 2 groupes Test de t Oneway ANOVA U de Mann Whitney Kruskal Wallis Les tests non-paramétriques U de Mann-Whitney Détermine si les médianes de sont différentes. Kruskal Wallis Détermine si les médianes de 3 ou + groupes sont différentes. ET LES TROIS GRANDES QUESTIONS... 1. Existe-t-il un lien? On regarde la signification du U de Mann Whitney ou celle du Kruskal-Wallis. 2. Si oui, quel est la force de ce lien? Il n y a pas de coefficient de force avec les tests non paramétriques (chanceux). 3. Quel est le sens? (ou qu est-ce que ça veut dire en langage clair) On regarde les médianes. 14
Les corrélations Le choix d'analyses statistiques: Arbre décisionnel Statistiques descriptives Statistiques bivariées Statistiques multivariées Une variable catégorielle et une variable continue (ou ordinale)? Deux variables catégorielles Deux variables ordinales ou continues Plusieurs prédicteurs continus ou dichotomiques Mesures de tendance centrale et de dispersion Famille des Tests de moyenne Famille des tableaux de contingence Famille des corrélations Conditions de recherche Variances comparables Distributions normales Échelle intervalle et n>30 Variances non-comparables Distributions non-normales Échelle ordinale ou n<30 Nombre de groupes à comparer Nombre de groupes à comparer Distributions Logique sous-jacente de Prédiction Plus de Plus de Distributions normales Distributions non normales ou variables ordinales Variable dépendante continue T de Student Oneway ANOVA U de Mann Whitney Kruskal Wallis R de Pearson Rho de Spearman Régression linéaire multiple Paramétrique ou non paramétrique? Paramétrique = R de Pearson Non paramétrique = Rho de Spearman Le choix de l analyse de corrélation dépend surtout de: De la nature des variables De la distribution des variables 15
Les postulats d utilisation du R de Pearson (Coefficient paramétrique) Nécessite 2 variables quantitatives (discrètes ou continues) Les 2 distributions doivent être normales La relation doit être linéaire Exemple de relations non-linéaires: Le lien entre Stress et Performance Entre Quantité d alcool dans le sang et Débit verbal Absence de valeur(s) extrême(s) Les valeurs extrêmes peuvent influencer les résultats (c est particulièrement vrai en corrélation) On doit agir face aux valeurs extrêmes Cependant, on doit aussi les voir comme une information nouvelle et pertinente Qui sont vos valeurs extrêmes, comment constituent-ils l exception à la règle dans votre modèle? Interprétations du R de Pearson Varie entre -1 et 1 Si R est POSITIF : alors les deux variables varient dans le même sens, on dit alors que la relation est positive. En d autres mots, quand la VI augmente la VD augmentera aussi Si R est NÉGATIF : alors les deux variables varient en sens contraire, on dit alors que la relation est négative. En d autres mots, quand la VI augmente la VD diminue Rho de Spearman Le coefficient de corrélation de rang (appelé coefficient de Spearman) examine s'il existe une relation entre le rang des observations pour deux caractères X et Y, ce qui permet de détecter l'existence de relations (croissante ou décroissante), quelle que soit leur forme précise (linéaire, exponentielle, puissance,...). On notera également qu'il est préférable au coefficient de Pearson lorsque les distributions X et Y sont dissymétriques et/ou comportent des valeurs exceptionnelles. Ce coefficient est donc très utile lorsque l'analyse du nuage de point révèle une forme curvilinéaire (non linéaire)dans une relation qui semble mal s'ajuster à une droite. Il varie de -1 à 1 et s interprète de la même façon que le R de Pearson. 16
En bref R de Pearson et Rho de Spearman Existe-t-il un lien entre mes 2 variables quantitatives? Je regarde la signification du R ou du Rho. Si oui, quel est la force de ce lien? Je regarde la valeur du R de Pearson ou le rho de Spearman. Quel est le sens (ou qu est-ce que ça veut dire)? Je regarde le + ou et je réfléchis aux 3 hypothèses. 17