Comment savoir s il existe un lien entre deux variables? Ou Si les différences entre différents paramètres sont du au hasard?

Documents pareils
T de Student Khi-deux Corrélation

Principe d un test statistique

FORD C-MAX + FORD GRAND C-MAX CMAX_Main_Cover_2013_V3.indd /08/ :12

TESTS D'HYPOTHESES Etude d'un exemple

Relation entre deux variables : estimation de la corrélation linéaire

Corrélation entre deux classements. ρ Le coefficient de rang de Spearman

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Informations sur les Bourses Sanitaires et Sociales. du Conseil Régional de Picardie 2012/2013

Le chi carré. Le sommaire. Approche quantitative

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Résultats d Etude. L étude de marché. Résultats d Etude N 1889 : Conciergerie privée. Testez la fiabilité de votre projet.

Chapitre 3. Les distributions à deux variables

AIDES FORMATION / ACCES A LA QUALIFICATION. Région Département Local

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Analyse des coûts. 1 ère année DUT GEA, 2005/2006 Analyse des coûts

Estimation et tests statistiques, TD 5. Solutions

Leçon N 4 : Statistiques à deux variables

Merci pour le temps que vous avez consacré à remplir ce questionnaire de satisfaction. Mme Latifa BENAOUDIA-BRIKI

COMMENT GAGNER DE L ARGENT AUX PARIS FOOT

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

REGLEMENT RELATIF AUX AIDES REGIONALES EN FAVEUR DES ELEVES ET ETUDIANTS EN FORMATIONS SOCIALES, PARAMEDICALES ET DE SANTE

Analyse de la variance Comparaison de plusieurs moyennes

LA VIDÉOSURVEILLANCE SANS FIL

Lois de probabilité. Anita Burgun

Protection individuelle

REGLEMENT D INTERVENTION BOURSES D ETUDES POUR LES FORMATIONS SANITAIRES ET SOCIALES

applicable à compter de la rentrée de septembre 2014 Vu les articles L451-3 et D451-7 du code de l action sociale et des familles,

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Analyse des correspondances avec colonne de référence

Il y a trois types principaux d analyse des résultats : l analyse descriptive, l analyse explicative et l analyse compréhensive.

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Est-ce que les parents ont toujours raison? Épisode 49

VI. Tests non paramétriques sur un échantillon

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Enquête. De satisfaction. D utilisation des bus de ville. De Colomiers

La cuisine de rue à Montréal : enjeux et réflexions

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Internet, de l'impensable à l'indispensable

AVENIR EMPRUNTEUR. Etude Personnalisée. Caractéristiques du (des) prêt(s) Cotisations ASSURE 1 ASSURE 2. Votre conseiller

Démarche «Bien manger au restaurant scolaire»

Cours de Tests paramétriques

LA RÉDUCTION DU TEMPS DE TRAVAIL : UNE COMPARAISON DE LA POLITIQUE DES «35 HEURES» AVEC LES POLITIQUES D AUTRES PAYS MEMBRES DE L OCDE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

REGLEMENT D ATTRIBUTION DES BOURSES D ETUDES AUX ELEVES ET ETUDIANTS EN FORMATIONS DU SECTEUR SANITAIRE ET SOCIAL

CAPTEURS - CHAINES DE MESURES

Incitants fiscaux à l épargne et piste d amélioration

Chapitre 2/ La fonction de consommation et la fonction d épargne

Enquête sur la mobilité Fête de la Pomme 2008 CRIE de Modave

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.


Vous incarnez un surdoué en informatique qui utilise son ordinateur afin de pirater des comptes bancaires un peu partout dans le monde et s en mettre

Estimations 2014 des consommations de produits psychoactifs à 17 ans

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Tel mobiles partie.

Gaz à effet de serre émis et consommations énergétiques inhérentes. à l habitation et aux déplacements d

Premier degré (public et privé) : géré par le service d action sociale des directions des services départementaux

Site Web de paris sportifs

REGLEMENT REGIONAL DES BOURSES POUR LES ELEVES ET ETUDIANT(E)S INSCRITS EN FORMATION SOCIALE, PARAMEDICALE ET MAÏEUTIQUE

La pratique du coaching en France. Baromètre 2010

Introduction aux Statistiques et à l utilisation du logiciel R

Pas d'intensification des monopoles dans le secteur de l'assurance. Hans Künzle CEO Nationale Suisse Membre du comité directeur de l'asa

Une école au Togo, épisode 1/4

ACOUPHEN ENVIRONNEMENT GROUPEMENT COORDONNE PAR LA COMMUNE DE MONTESSON ETUDE REALISEE POUR LE COMPTE DU : RAPPORT D ETUDE RA A

P1 : Corrigés des exercices

DELIBERATION DU CONSEIL REGIONAL

CHRONOGRAPHE DEUX COMPTEURS OS11

Suites numériques 4. 1 Autres recettes pour calculer les limites

NOTE D'INFORMATION SUR L'ÉMISSION OBLIGATAIRE DE $.US 1 MILLIARD SUR 10 ANS (JANVIER 2015)

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Solutions complètes de vidéosurveillance. au secteur pétrolier et gazier

Mécanique du point : forces Newtoniennes (PCSI)

La transition école travail et les réseaux sociaux Monica Del Percio

Indicateur du coût de la rentrée étudiante à Poitiers

Dossier Le ménage. Le bonheur chez soi et le partage des tâches font bon ménage!

TUYAUX ASTUCES & CONSEILS. Crédits et Emprunts

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

LA CIBLE Ce que nous savons des 9-13 ans

Une école adaptée à tous ses élèves

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

! " # $ % & '! % & & # # # # % & (

Guide méthodologique

Ce document a été mis en ligne par le Canopé de l académie de Montpellier pour la Base Nationale des Sujets d Examens de l enseignement professionnel.

Comment les pratiques en milieu scolaire agissent-elles au regard des inégalités sociales de santé? Regard sur trois continents

STATISTIQUES DESCRIPTIVES

B Le diplôme est-il un bon passeport pour l'emploi?

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

NOUVEAU. Cadets de la Rapière. Circuit national Jeunesse. Tournoi par équipes. 40 ans à

L interprétation des résultats de recherche dans le cadre de l approche quantitative

Probabilités sur un univers fini

Aperçu et raison d être du programme d études

Toutes les rubriques doivent être renseignées. Si vous n'êtes pas concerné, portez la mention «néant».

Transcription:

Comment savoir s il existe un lien entre deux variables? Ou Si les différences entre différents paramètres sont du au hasard? Cours réalisé par Benjamin Putois Novembre 2008 bputois@gmail.com Cas: échelle nominale On utilise le Chi² 1

Exemple: le fait de donner naissance à un garçon dépend-il de la consommation de choux des parents? Exemple: le fait de donner En naissance d autres termes, à un existe-t-il garçon une corrélation dépend-il entre les naissances de la et la consommation de de choux? choux des parents? Garçon 50%? Fille 2

On pose deux hypothèses: HO- hypothèse nulle: le fait d avoir des garçons ou des filles ne dépend pas de la consommation de choux H1-hypothèse alternative: le fait d avoir des garçons ou des filles dépend de la consommation de choux On pose deux hypothèses: H0: la fait d avoir des garçons ou des filles ne dépendpas de la consommation de choux C est-à-dire que le fait d avoir des filles ou des garçons dépend du hasard, que les parents mangent ou pas des choux! 3

On pose deux hypothèses: H0: la fait d avoir des garçons ou des filles ne dépendant pas de la consommation de choux C est-à-dire que le fait d avoir des filles ou des garçons dépend duhasard,quelesparentsmangentoupasdeschoux! Si H0 est vrai alors Quand les parents mangent du choux : Probabilité (Sexe de l enfant)=50% Quand les parents ne mangent pas de choux :Probabilité (Sexe de l enfant)=50% Si H0 est vrai alors Quand les parents mangent du choux : Probabilité (Sexe de l enfant)=50% Quand les parents ne mangent pas de choux :Probabilité (Sexe de l enfant)=50% Plus la probabilité (i.e. la chance) d avoir un garçon quand les parents mangent du choux est grande alors plus H1 est vraie. 4

Notons: P(garçon/choux) : la probabilité d avoir un garçon si les parents mangent des choux P(garçon/nonchoux) : la probabilité d avoir un garçon si les parents ne mangent pas de choux P(fille/choux) : la probabilité d avoir une fille si les parents mangent des choux P(fille/nonchoux) : la probabilité d avoir une fille si les parents ne mangent pas de choux Si H0 est vraie alors P(garçon/choux)=25% P(garçon/nonchoux)= 25% P(fille/choux) =25% P(fille/nonchoux) = 25% On ne teste que H0 car il existe énormément de possibilité que ces probabilités soient différentes de zéro (une infinité)! Remarque: on dit que H0 est une hypothèse statistique exacte. 5

Si H0 est vraie alors P(garçon/choux)=25% P(garçon/nonchoux)= 25% P(fille/choux) =25% P(fille/nonchoux) = 25% Remarquons, dans cet exemple, aussi que H0 dépend de non-pas une condition (garçon/choux) mais de 4 conditions! Nous avons récolté les données d un couple de 200 jeunes parents: *** Garçon 57 58 Fille 20 65 Distribution d effectif Garçon 57 58 115 Fille 20 65 85 77 123 200 Calcul des effectifs marginaux *** données fictives 6

Nous avons récolté les données d un couple de 200 jeunes parents: Garçon 57 58 115 Fille 20 65 85 Distribution d effectif 77 123 200 Garçon 57/200= 28,5% Fille 20/200= 10% Distribution de fréquence 58/200= 29% 65/200= 32,5% 57,5% 42,5% 38,5% 61,5% 100% Que nous disent les fréquences conditionnelles? Garçon 57 58 115 Fille 20 65 85 Distribution d effectif 77 123 200 Garçon 57/77= 74% Fille 20/77= 26% 58/123= 47% 65/123= 53% 100% 100% Distribution de fréquence conditionnelle en fonction de la consommation de choux 7

Que nous disent les fréquences conditionnelles? Garçon 57 58 115 Fille 20 65 85 77 123 200 Distribution d effectif Garçon 57/77= 74% Fille 20/77= 26% 58/123= 47% 65/123= 53% 100% 100% Distribution de fréquence conditionnelle en fonction de la consommation de choux 74% des couples qui consomment du choux ont des garçons! 53% des couples qui ne consomment pas de choux ont une fille! Que nous disent les fréquences conditionnelles? Garçon 57 58 115 Fille 20 65 85 77 123 200 Distribution d effectif Garçon 57/115= 49,5% Fille 20/85= 23,5% Non choux 58/115= 50,5% 65/85= 76,5% 100% 100% Distribution de fréquence conditionnelle en fonction du sexe de l enfant 8

Que nous disent les fréquences conditionnelles? Garçon 57 58 115 Fille 20 65 85 77 123 200 Distribution d effectif Garçon 57/115= 49,5% Fille 20/85= 23,5% Non choux 58/115= 50,5% 65/85= 76,5% 100% 100% Distribution de fréquence conditionnelle en fonction du sexe de l enfant Les couples qui ont eu un garçon et qui mangent des choux sont aussi fréquents que ceux qui n en mangent pas. Les ¾ des couples qui ont eu une fille ne mangent pas de choux! Quelles auraient du être les observations, s il n y avait pas de relation entre manger des choux et le sexe de l enfant? Garçon 50% 50% Fille 50% 50% 100% 100% Distribution de fréquences conditionnelles théoriques 9

Je peux voir mes données que sous une seule variable: N Eff marginaux 77 123 200 Eff attendu 100 100 200 Garço n Eff. margi nal Eff. Atten du 115 100 Fille 85 100 N 200 200 Garçon?? 115 Fille?? 85 Je peux voir le croisement de mes facteurs 77 123 200 C est ce qui m intéresse pour faire des corrélation Comment calculé les observations attendues sous H0? Garçon?? 115 Fille?? 85 77 123 200 Je pars des effectifs marginaux de chaque effet simple Distribution de fréquences conditionnelles théoriques Garçon 115*77/200= 44,275 Fille 85*77/200= 32,725 115*123/200= 70,725 85*123/200= 52,275 Distribution des effectifs théoriques ou attendue sous H0 115 85 77 123 200 Produit en croix 10

Effectifs observés Garçon 57 58 Fille 20 65 Effectifs attendus sous H0 Garçon 44,275 70,725 Fille 32,725 52,275 Plus les différences entre les deux tableaux sont grandes, plus les observations s écartent du hasard, plus j ai des chances que H0 soit fausse Dit autrement: Plus les différences entre les deux tableaux sont faibles, plus les observations s approchent du hasard, plus j ai des chances que H1 soit vraie (c est-à-dire que la relation entre les deux variables ne soit pas du au hasard. Effectifs observés Garçon 57 58 Fille 20 65 COMMENT FAIRE CALCULER LA DIFFERENCE ENTRE CES DEUX DISTRIBUTIONS? Effectifs attendus sous H0 Garçon 44,275 70,725 Fille 32,725 52,275 11

Effectifs observés Effectifs attendus sous H0 Garçon 57 58 Fille 20 65 Garçon 44,275 70,725 Fille 32,725 52,275 COMMENT FAIRE CALCULER LA DIFFERENCE ENTRE CES DEUX DISTRIBUTIONS? 1. Je calcule chaque différence. Effectifs observés Garçon 57 58 Fille 20 65 COMMENT FAIRE CALCULER LA DIFFERENCE ENTRE CES DEUX DISTRIBUTIONS? 1. Je calcule chaque différence. Effectifs attendus sous H0 Garçon 44,275 70,725 Fille 32,725 52,275 Garçon 57-44,275= 12,725 Fille 20-32,725= -12,725 58-70,725= -12,725 65-52,275= 12,725 Vous pouvez vérifier que la somme des différences est bien égale à zéro! 12

Pourquoi faisons-nous une soustraction? Une différence = une distance x1 Lyon M Paris x2 Reims La distance Lyon-Paris = x1-m La distance Reims-Paris= x2-m Garçon 57-44,275= 12,725 Fille 20-32,725= -12,725 Garçon 12,725²= Fille -12,725²= 58-70,725= -12,725 65-52,275= 12,725-12,725²= 12,725²= COMMENT FAIRE CALCULER LA DIFFERENCE ENTRE CES DEUX DISTRIBUTIONS? 1. Je calcule chaque différence. 2. Je met les différences au carré 13

Pourquoi met-on au carré? x1 Lyon La distance Lyon-Paris = x1-m La distance Reims-Paris= x2-m Distance négative M Paris x2 Distance positive Reims Le résultat de ce calcul donnera un nombre négatif pour la distance Paris-Lyon et un nombre positif pour la distance Paris-Reims! Un moyen de pouvoir les rendre comparable est d utiliser la fonction puissance! Vous arrive-t-il souvent de dire des distances négatives? Garçon (57-44,275)²= Fille (20-32,725)²= Garçon /44,275= 3,657 Fille /32,725= 4,948 (58-70,725)²= (65-52,275)²= /70,725= 2,289 /52,275= 3,097 COMMENT FAIRE CALCULER LA DIFFERENCE ENTRE CES DEUX DISTRIBUTIONS? 1. Je calcule chaque différence. 2. Je met les différences au carré 3. Je pondère chacun des carrés des distance par sa valeur d origine 14

Pourquoi je pondère par les observations théoriques ou attendues? 397km 777km M x1 x2 Paris Macon Marseille 4071km 4490km M x1 x2 New-York Las Vegas Los Angeles Les trajets en France et aux Etats-Unis sont-ils comparables? [Macon-Marseille]: 777-397=380 [Las Vegas-Los Angeles]: 4490-4071=419 Faire Macon-Marseille pour un français est équivalent au trajet LasVegas-Losangeles pour un américain partant de leur capitale respectives! Pourquoi je pondère par les observations théoriques ou attendues? 397km 777km M x1 x2 Paris Macon Marseille 4071km 4490km M x1 x2 New-York Las Vegas Los Angeles Les trajets en France et aux Etats-Unis sont-ils comparables? [Macon-Marseille]pondérée: (777-397)/397=380/397= 1.05 [Las Vegas-Los Angeles]pondérée: (4490-4071)/4071=419/4071= 0.09 Une broutille pour un américain! Pondérer, c est mettre un rapport de grandeur! Une petite différence pour les uns, peuvent être un grande pour les autres 15

Garçon (57-44,275)²= Fille (20-32,725)²= Garçon /44,275= 3,657 Fille /32,725= 4,948 (58-70,725)²= (65-52,275)²= /70,725= 2,289 /52,275= 3,097 3,657+ 2,289+ 4,948+ 3,097= 13,99 Chi²_calculé= 13,99 COMMENT FAIRE CALCULER LA DIFFERENCE ENTRE CES DEUX DISTRIBUTIONS? 1. Je calcule chaque différence. 2. Je met les différences au carré 3. Je pondère chacun des carrés des distance par sa valeur d origine 4. Je fais la somme de mes différences au carré pondérées Chi²_calculé=13,99 Seuil de significativité (de confiance), alpha:.05 5. Je me fixe un seuil de significativité 16

Chi²_calculé=13,99 Seuil de significativité:.05 ddl = (L-1)(C-1)=(2-1)*(2-1)=1 5. Je me fixe un seuil de significativité 6. Je cherche le nombre de degré de liberté (ddl) Chi²_calculé=13,99 Seuil de significativité, alpha=.05 ddl = (L-1)(C-1)=(2-1)*(2-1)=1 Chi²_théorique=3.84 5. Je me fixe un seuil de significativité 6. Je cherche le nombre de degré de liberté (ddl) 7. Je cherche le chi² seuil (i.e. théorique) Remarque: si alpha=.001 alors Chi²_théorique=10.83 17

Chi²_calculé=13.99 Seuil de significativité, alpha=.05 ddl = (L-1)(C-1)=(2-1)*(2-1)=1 alpha=.05, Chi²_théorique=3.84 alpha=.001 alors Chi²_théorique=10.83 Règle: Si Chi²_calculé > Chi²_théorique Alors rejet de H0 Si Chi²_calculé <= Chi²_théorique Alors non-rejet de H0 Ici: 13.99>10.83 5. Je me fixe un seuil de significativité 6. Je cherche le nombre de degré de liberté (ddl) 7. Je cherche le chi² seuil (i.e. théorique) 8. Je compare la valeur absolue du Chi²_calculé et Chi²_théorique Chi²_calculé=13.99 Seuil de significativité, alpha=.05 ddl = (L-1)(C-1)=(2-1)*(2-1)=1 alpha=.05, Chi²_théorique=3.84 alpha=.001 alors Chi²_théorique=10.83 Règle: Si Chi²_calculé > Chi²_théorique Alors rejet de H0 5. Je me fixe un seuil de significativité 6. Je cherche le nombre de degré de liberté (ddl) 7. Je cherche le chi² seuil (i.e. théorique) 8. Je compare la valeur absolue du Chi²_calculé et Chi²_théorique 9. Je conclue Si Chi²_calculé <= Chi²_théorique Alors non-rejet de H0 Ici: 13.99>10.83 Donc nous rejetons H0, in extenso, nous acceptons H1! Il y a une relation entre nos deux variables. Nous pouvons affirmer qu il y a une corrélation entre les naissances et la consommationdeschouxdesparentsà99,9%dechancedenepasnoustromper. 18

Donc nous rejetons H0, in extenso, nous acceptons H1! Il y a une relation entre nos deux variables. Nous pouvons affirmer qu il y a une corrélation entre les naissances et la consommation des choux des parents à 99,9% de chance de ne pas nous tromper. Mais attention: la corrélation n est pas Causalité On a toujours tendance à envisager une relation causale entre nos variables. Pourtant, plusieurs types de relations causales peuvent expliquer le lien entre À et B: A cause B ou B cause A (la poule ou l œuf) Les deux variables ont une cause commune, par exemple lorsque les deux sont causées par une troisième variable. Ex: le redoublement est lié à l échec scolaire car les deux sont liées à l origine sociale. Mais on peut aussi dire qu il existe un intermédiaire causal: une variable provoque un évènement, lui-même étant la cause d une variable: le redoublement provoque l échec scolaire, lui-même favorisant les décisions d abandon scolaire. Etc. Utilisation du Khi²: Si je souhaite connaître le lien (la corrélation) entre deux variables nominales. Donnée observée Donnée théorique Si zéro alors pas de différence entre O et Y Plus le Chi² est proche de zéro plus la corrélation est faible Plus la valeur absolue du Chi² est éloigné de zéro, plus la corrélation est forte Donc H0 est vraisemblable 19

Utilisation du Khi²: Si je souhaite connaître le lien (la corrélation) entre deux variables nominales. 1. Je fais la différence 2. Je met au carré 3. Je pondère 4. Je somme Utilisation du Khi²: Si je souhaite connaître le lien (la corrélation) entre deux variables nominales. Etapes: 1. Je pose des hypothèses (H0: hasard / H1: corrélation) 2. Je récolte des données et je calcul les effectifs marginaux dans le cas de mesure bivariée 3. Je trouve les données attendues sous H0 4. Je calcul le chi2 1. Je calcule chaque différence 2. Je met les différences au carré 3. Je pondère chacun des carrés des distance par sa valeur d origine 4. Je fais la somme de mes différences au carré pondérées 5. Je me fixe un seuil de significativité, un seuil de confiance 6. Je cherche le nombre de degré de liberté (ddl) 7. Je cherche le chi²_seuil (i.e. théorique) 8. Je compare la valeur absolue du Chi²_calculé et Chi²_seuil 9. Je conclue Attention: Une corrélation n est pas causalité 20