2011-12-14. Cours 14. Synthèse et révision CRI1600G Automne 2011 Rémi Boivin Maurizio D Elia

Documents pareils
Relation entre deux variables : estimation de la corrélation linéaire

TABLE DES MATIERES. C Exercices complémentaires 42

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Lire ; Compter ; Tester... avec R

IBM SPSS Statistics Base 20

Introduction aux Statistiques et à l utilisation du logiciel R

Corrélation entre deux classements. ρ Le coefficient de rang de Spearman

Régression linéaire. Nicolas Turenne INRA

Principe d un test statistique

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Chapitre 3. Les distributions à deux variables

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Modèle GARCH Application à la prévision de la volatilité

Rapport d'expérience final

Evaluation de la variabilité d'un système de mesure

Statistiques Descriptives à une dimension

TESTS D'HYPOTHESES Etude d'un exemple

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Résumé du Cours de Statistique Descriptive. Yves Tillé

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Analyse Financière Les ratios

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

Chapitre 8 L évaluation des obligations. Plan

LES MODELES DE SCORE

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Introduction à la Statistique Inférentielle

Traitement des données avec Microsoft EXCEL 2010

L assurance de la qualité à votre service

Annexe commune aux séries ES, L et S : boîtes et quantiles

Optimisation des ressources des produits automobile première

La gestion du personnel

Observation des modalités et performances d'accès à Internet

CARACTERISTIQUE D UNE DIODE ET POINT DE FONCTIONNEMENT

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Qu est-ce-qu un Warrant?

Cours 9 : Plans à plusieurs facteurs

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Aide-mémoire de statistique appliquée à la biologie

CHAPITRE 2. Les variables

SOMMAIRE. B5.1 Première approche

Dossier d'étude technique

Quelles sont les entreprises qui ont recours au commerce électronique?

Le chi carré. Le sommaire. Approche quantitative

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Données longitudinales et modèles de survie

LES DIFFERENTS TYPES DE MESURE

Introduction. Préambule. Le contexte

Cycle de formation certifiante Sphinx

INF6304 Interfaces Intelligentes

Introduction à l approche bootstrap

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Becca Distribution Inc

Swaps de volatilité et modélisation GARCH : Evaluation et application à l indice TMP du marché financier marocain

Statistique Descriptive Élémentaire

Biostatistiques : Petits effectifs

Introduction à la statistique non paramétrique

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

TSTI 2D CH X : Exemples de lois à densité 1

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Monia Amami Franck Brulhart Raymond Gambini Pierre-Xavier Meschi

Table des matières. I Mise à niveau 11. Préface

FICHE TECHNIQUE CARACTERISTIQUES TECHNIQUES DE L'AEDPLUS

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Demande de prestations AI pour adultes: Allocation pour impotent AI

Degré de confiance pour les indicateurs de performance : degré de fiabilité du processus de production et écart significatif 1

CAPTEURS - CHAINES DE MESURES

Localisation des fonctions

T de Student Khi-deux Corrélation

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

1 Complément sur la projection du nuage des individus

Representation of domestic workers

FOIRE AUX QUESTIONS. Le Conseil Général de l Oise précise qu à ce jour, aucune donnée chiffrée n est disponible pour répondre à cette question.

Le guide de référence de l acheteur de décisionnel intégré pour les éditeurs et fournisseurs de solutions SaaS

Collecter des informations statistiques

Options et Swap sur intérêt

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Représentation d une distribution

choisir H 1 quand H 0 est vraie - fausse alarme

Dérivés Financiers Contrats à terme

Able Informatique bvba Zakske 16 B-8000 Brugge Belgique Téléphone :

Fonctions homographiques

À l'intention des parents

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

Compte rendu de LA37 B, TP numéro 1. Evolution de la température et du degrée d'hydratation

Sauvegarde dans un environnement virtuel

Scénario: Données bancaires et segmentation de clientèle

NON-LINEARITE ET RESEAUX NEURONAUX

Notions et définitions utiles


FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre Student Assessment and Program Evaluation Branch

Transcription:

Cours 14 Synthèse et révision CRI1600G Automne 2011 Rémi Boivin Maurizio D Elia Les variables Variable : Caractéristique de l unité statistique que l on désire étudier. Une variable peut prendre différentes valeurs selon l unité statistique considérée. Valeur : Les valeurs de la variable sont les différentes quantités numériques ou choix de réponse possibles que l on trouve dans l ensemble des données. Les types de variables Quantitatives Discrète : Variable dont on peut énumérer les valeurs qu elle peut prendre. Continue : Variable dont les données recueillies sont des quantités numériques approximatives ou arrondies. Catégorielles (qualitatives) Nominale : variable dont les différentes modalités correspondent à des noms, sans ordre précis. Ordinale : Variable catégorielle dont les différentes catégories peuvent être classées dans un certain ordre. 1

La notion de causalité Variable dépendante : Variable que l on cherche à expliquer (l effet). Variable indépendante : Variable qui vise à en expliquer une autre (la cause). Corrélation vs causalité Retour sur les types de variables Variable dépendante (Y): variable que l on cherche à expliquer (effet) Variable indépendante (X): variable qui vise à en expliquer une autre (cause) Variable contrôle/intermédiaire (Z): variable qui intervient dans la relation entre d autres variables Quelle est la variable dépendante? Variable dépendante : varie en fonction d autres paramètres (variables indépendantes) Quelques trucs : Les variables indépendantes précèdent la variable dépendante (ex : délinquance juvénile et criminalité adulte) Les traits statiques sont toujours des variables indépendantes, des facteurs externes ne peuvent pas les faire varier (ex : sexe, âge) Poser la question : qu est-ce que je veux prédire? (ex : criminalité et température, Est-ce que la température cause le crime ou est-ce que le crime cause la température?) 2

La causalité Variable indépendante Variable dépendante Variable intervenante Conditions nécessaires à la causalité 1. Les deux concepts (cause et effet) doivent être théoriquement distincts 2. La cause doit précéder l effet 3. Il existe une interprétation possible de la relation 4. Il existe une association statistique entre les deux concepts 5. La relation persiste même si on inclut d autres variables Les mesures de tendance centrale Utilité Permettent de résumer en un seul nombre la valeur la plus représentative d une série statistique., Mode (et classe modale) et médiane 3

Les mesures de tendance centrale Le Mode Le mode d'une série d'observations est la valeur la plus fréquente d'un ensemble de données. Il est généralement utilisé dans le cas des variables nominales. Le mode est rarement employé seul pour mesurer la tendance centrale d une variable continue, parce qu'avec un petit nombre d'observations chaque valeur est unique. Dans ce cas, il n'y a pas de mode. Les mesures de tendance centrale La La médiane correspond à l'observation du milieu, c'est-à-dire la valeur de part et d'autre de laquelle se situe la moitié des observations. Pour la mesurer, on établit la liste des observations individuelles par ordre croissant ou décroissant. Les mesures de tendance centrale La La moyenne représente la mesure la plus courante de tendance centrale des observations. Elle se calcule en additionnant les valeurs observées de chaque individu divisées par le nombre de sujets observés. = 4

Normale et Mode Asymétrique négative Asymétrique positive Mode Mode Normale et Mode Asymétrique négative Asymétrique positive Mode Mode 2011-12-14 La forme des distributions Normale et Mode Kurtose des distributions Leptokurtique et Mode Symétrie des distributions Platikurtique et Mode La symétrie des distributions La symétrie Mode = médiane = moyenne Symétrie des distributions L asymétrie Négative: mode > médiane > moyenne Concentration de fortes valeurs Positive: mode < médiane < moyenne Concentration de faibles valeurs 5

L applatissement Normale Mésokurtique: courbe normale (cloche) Kurtose des distributions et Mode Leptokurtique et Mode Platikurtique Leptokurtique: courbe élancée haute concentration de cas qui prennent les valeurs égales ou proches de la moyenne peu de variation : distribution relativement homogène Platikurtique: courbe plate les cas s éloignent de la moyenne forte variation : distribution relativement hétérogène et Mode Interprétation des coefficients relatifs à la forme Asymétrie (skewness) Coefficient d asymétrie utilisé pour vérifier si la distribution est normale On utilise le rapport entre le coefficient sur son erreur type (standard error) On rejet la normalité si le ratio est inférieur à -2 ou supérieur à +2 Distribution normale = skew=0 Applatissement (kurtosis) Coefficient d applatissement utilisé pour vérifier si la distribution est normale On utilise le rapport entre le coefficient sur son erreur type (standard error) On rejet la normalité si le ratio est inférieur à -2 ou supérieur à +2 Distribution normale = kurtosis =0 Les analyses bivariées Étudient la relation entre deux variables (variable dépendante et indépendante) Permettent non seulement de déterminer si deux variables sont associées (signification), mais également de déterminer le sens et la force de cette relation. 6

Les types d analyses bivariées Le type de test utilisé dépend du type de variables utilisées. Variable 1 Variable 2 Test de moyenne Quantitative Qualitative (Nominale ou ordinale) Tableau croisé Qualitative (Nominale ou ordinale) Qualitative (Nominale ou ordinale) Corrélation Quantitative Quantitative Trois éléments à vérifier 1- Vérifier si la relation est significative S il n y a aucune relation.c est fini. Pas besoin d aller vérifier #2 et #3 2- Examiner le sens de la relation Relation positive ou négative 3- Constater la force de la relation Faible, modérée ou forte La signification La signification (seuil de tolérance) nous indique si nos variables sont associées ou non (hasard) Le seuil de tolérance est souvent représenté par la lettre p ou par sig. Est-ce que ma relation entre X et Y est statistiquement significative? Existe-t-il une relation entre ces deux variables? Lorsque p< 0,05, nous pouvons affirmer qu il existe une relation statistiquement significative entre nos deux variables. Nos risques de nous tromper en affirmant qu il y a une relation entre nos deux variables sont inférieurs à 5%. Dans le cadre du cours, si p > 0,05, alors il n existe pas de relation significative entre nos 2 variables. 7

Le sens de la relation S il existe une relation, est-ce que X influe négativement ou positivement sur Y? Relation positive : Plus un individu consomme de l alcool, plus il risque de faire des niaiseries Relation négative : Plus un individu consomme de l alcool, moins celui-ci a d inhibitions La force de la relation Est-ce que l impact de X sur Y est fort, modéré ou faible? Valeur Force du lien statistique 0 Absence de relation Entre 0,05 et 0,10 Très faible Entre 0,10 et 0,20 Faible Entre 0,20 et 0,40 Modérée Entre 0,40 et 0,80 Forte Entre 0.80 et 1 Louche (Colinéarité) Le coefficient de force qualifie la relation et établit si la différence est attribuable à la taille de l échantillon ou non. Il importe de connaitre le domaine d étude pour identifier la force de la relation Un coefficient de force de plus de 0,80 indique la colinéarité les deux variables mesurent le même phénomène 8

Le choix d'analyses statistiques: Arbre décisionnel Statistiques descriptives Statistiques bivariées Statistiques multivariées Une variable catégorielle et une variable continue (ou ordinale)? Deux variables catégorielles Deux variables ordinales ou continues Plusieurs prédicteurs continus ou dichotomiques Mesures de tendance centrale et de dispersion Famille des Tests de moyenne Famille des tableaux de contingence Famille des corrélations Conditions de recherche Variances comparables Distributions normales Échelle intervalle et n>30 Variances non-comparables Distributions non-normales Échelle ordinale ou n<30 Nombre de groupes à comparer Nombre de groupes à comparer Distributions Logique sous-jacente de Prédiction Plus de Plus de Distributions normales Distributions non normales ou variables ordinales Variable dépendante continue T de Student Oneway ANOVA U de Mann Whitney Kruskal Wallis R de Pearson Rho de Spearman Régression linéaire multiple Les postulats d utilisation Des postulats d utilisation sont associés à chaque type de test. Les postulats sont un ensemble de règles à respecter dans l utilisation des statistiques pour assurer la validité des résultats. Quand les postulats d utilisation ne sont pas respectés, cela mène à une fausse sensibilité du test. Vérification des postulats avant de réaliser les tests et d analyser les résultats. Les tableaux croisés 9

Le tableau croisé et le Chi-deux Utilités Permet de tester le lien d indépendance entre 2 variables qualitatives. Tableau croisé (ou de contingence): montre la distribution des effectifs des deux variables. Chi-deux ou Chi-carré (Χ 2 ) : statistique utilisée pour vérifier si la relation entre les deux variables est significative. 28 Le tableau croisé et le Chi-deux Postulats d utilisation Avoir deux variables qualitatives (nominales ou ordinales) Avoir un minimum de cinq observations dans chaque case (intersection)(n 5). 29 Les mesures d association (ou de force) en tableau croisé Le Phi : Mesure dérivé du Chi-deux. On se rappelle que la valeur du Chi est directement influencée par le nombre de sujets et la force de la relation. Le phi élimine l effet de la taille de l échantillon en divisant le Chi carré par n, et en extrayant la racine carrée. Phi aussi appelé Pearson's coefficient of mean-square contingency. Il est utilisable dans le cas de tableaux 2x2. Pour un tableau de plus de 2x2, la valeur du phi dépasse 1, et le rend moins intéressant. 10

Les mesures d association (ou de force) en tableau croisé Le V de Cramer : Le V de Cramer est la mesure d association la plus populaire basée sur une variation du Chi deux. Il varie de 0 à 1, et est donc facile à utiliser et à interpréter. Il est utilisable dans le cas de tableaux de plus de 2x2 (donc 2xK ou KxK). Les tests de moyenne Les tests de différences de moyennes Lorsque l on vise à associer une variable qualitative à une variable quantitative (ou ordinale à plus de 4 catégories) Permet de comparer deux distributions pour savoir si la différence perçue entre les deux distributions est significative ou si elle est due uniquement au hasard. Il existe deux séries de critères utiles afin de choisir le bon test à utiliser Le critère paramétrique / non-paramétrique Le critère du nombre de groupes à comparer 11

Le critère paramétrique Les postulats d utilisation La distribution de la variable quantitative est normale. ( vérifiez avec l histogramme) Le nombre de sujets est supérieur à 30 (au total, pas par groupe) Homogénéité des variances (comparables) (Levene non significatif) Échantillon aléatoire indépendant (inutile dans le cas de vos TP) La force de la relation Le test de T donne la signification mais non la force de la relation Le Eta 2 est le coefficient d association (ou de force) des tests de moyennes paramétriques. Le coefficient de force des tests de moyenne paramétriques: le Eta 2 Il mesure la force de l association entre la variable qualitative et la variable quantitative Il varie entre 0 et 1 Il donne une indication de la proportion de la variance expliquée On l obtient en utilisant la commande «comparer des moyennes» (voir vignettes SPSS) 12

Le sens de la relation Pour les tests de moyennes (comme pour les tableaux de contingence) on ne parle pas de relation positive ou négative. Le sens de la relation analysé à l aide des moyennes de vos groupes. Par exemple : les garçons commettent plus de violence physique que les filles. Le Oneway ANOVA (test F) Aussi appelé analyse de variance simple ou à un facteur Il vise à comparer les moyennes non pas deux groupes mais bien trois groupes ou plus Concrètement, est-ce que trois groupes (ex : mineurs, jeunes adultes, aînés) ont des moyennes différentes à une échelle de troubles du comportement? La signification et les tests à posteriori (post hoc) Lorsque le test F est significatif, il nous indique que la moyenne d au moins 1 groupe se distingue significativement des autres. Mais il ne permet pas d établir si toutes les moyennes sont différentes. Nous devons utiliser une autre série d analyses afin de connaître plus en détail quels groupes sont significativement différents desquels. Il faut alors réaliser des tests post hoc. 13

Arbre décisionnel: Tests de différences de moyennes Une variable catégorielle et une variable continue (ou ordinale)? Famille des Tests de moyenne Questions à se poser: Les variances sont-elles comparables? La distribution est-elle normale? Combien de sujets sont disponibles pour l'analyse? Réponses: Réponses: Variances comparables Variances non-comparables Distributions normales et Distributions non-normales n>30 ou n<30 Si on répond non à une de ces questions, on s oriente vers des tests non paramétriques Nombre de groupes à comparer? Nombre de groupes à comparer? Plus de 2 groupes Plus de 2 groupes Test de t Oneway ANOVA U de Mann Whitney Kruskal Wallis Les tests non-paramétriques U de Mann-Whitney Détermine si les médianes de sont différentes. Kruskal Wallis Détermine si les médianes de 3 ou + groupes sont différentes. ET LES TROIS GRANDES QUESTIONS... 1. Existe-t-il un lien? On regarde la signification du U de Mann Whitney ou celle du Kruskal-Wallis. 2. Si oui, quel est la force de ce lien? Il n y a pas de coefficient de force avec les tests non paramétriques (chanceux). 3. Quel est le sens? (ou qu est-ce que ça veut dire en langage clair) On regarde les médianes. 14

Les corrélations Le choix d'analyses statistiques: Arbre décisionnel Statistiques descriptives Statistiques bivariées Statistiques multivariées Une variable catégorielle et une variable continue (ou ordinale)? Deux variables catégorielles Deux variables ordinales ou continues Plusieurs prédicteurs continus ou dichotomiques Mesures de tendance centrale et de dispersion Famille des Tests de moyenne Famille des tableaux de contingence Famille des corrélations Conditions de recherche Variances comparables Distributions normales Échelle intervalle et n>30 Variances non-comparables Distributions non-normales Échelle ordinale ou n<30 Nombre de groupes à comparer Nombre de groupes à comparer Distributions Logique sous-jacente de Prédiction Plus de Plus de Distributions normales Distributions non normales ou variables ordinales Variable dépendante continue T de Student Oneway ANOVA U de Mann Whitney Kruskal Wallis R de Pearson Rho de Spearman Régression linéaire multiple Paramétrique ou non paramétrique? Paramétrique = R de Pearson Non paramétrique = Rho de Spearman Le choix de l analyse de corrélation dépend surtout de: De la nature des variables De la distribution des variables 15

Les postulats d utilisation du R de Pearson (Coefficient paramétrique) Nécessite 2 variables quantitatives (discrètes ou continues) Les 2 distributions doivent être normales La relation doit être linéaire Exemple de relations non-linéaires: Le lien entre Stress et Performance Entre Quantité d alcool dans le sang et Débit verbal Absence de valeur(s) extrême(s) Les valeurs extrêmes peuvent influencer les résultats (c est particulièrement vrai en corrélation) On doit agir face aux valeurs extrêmes Cependant, on doit aussi les voir comme une information nouvelle et pertinente Qui sont vos valeurs extrêmes, comment constituent-ils l exception à la règle dans votre modèle? Interprétations du R de Pearson Varie entre -1 et 1 Si R est POSITIF : alors les deux variables varient dans le même sens, on dit alors que la relation est positive. En d autres mots, quand la VI augmente la VD augmentera aussi Si R est NÉGATIF : alors les deux variables varient en sens contraire, on dit alors que la relation est négative. En d autres mots, quand la VI augmente la VD diminue Rho de Spearman Le coefficient de corrélation de rang (appelé coefficient de Spearman) examine s'il existe une relation entre le rang des observations pour deux caractères X et Y, ce qui permet de détecter l'existence de relations (croissante ou décroissante), quelle que soit leur forme précise (linéaire, exponentielle, puissance,...). On notera également qu'il est préférable au coefficient de Pearson lorsque les distributions X et Y sont dissymétriques et/ou comportent des valeurs exceptionnelles. Ce coefficient est donc très utile lorsque l'analyse du nuage de point révèle une forme curvilinéaire (non linéaire)dans une relation qui semble mal s'ajuster à une droite. Il varie de -1 à 1 et s interprète de la même façon que le R de Pearson. 16

En bref R de Pearson et Rho de Spearman Existe-t-il un lien entre mes 2 variables quantitatives? Je regarde la signification du R ou du Rho. Si oui, quel est la force de ce lien? Je regarde la valeur du R de Pearson ou le rho de Spearman. Quel est le sens (ou qu est-ce que ça veut dire)? Je regarde le + ou et je réfléchis aux 3 hypothèses. 17