Comment savoir s il existe un lien entre deux variables? Ou Si les différences entre différents paramètres sont du au hasard? Cours réalisé par Benjamin Putois Novembre 2008 bputois@gmail.com Cas: échelle nominale On utilise le Chi² 1
Exemple: le fait de donner naissance à un garçon dépend-il de la consommation de choux des parents? Exemple: le fait de donner En naissance d autres termes, à un existe-t-il garçon une corrélation dépend-il entre les naissances de la et la consommation de de choux? choux des parents? Garçon 50%? Fille 2
On pose deux hypothèses: HO- hypothèse nulle: le fait d avoir des garçons ou des filles ne dépend pas de la consommation de choux H1-hypothèse alternative: le fait d avoir des garçons ou des filles dépend de la consommation de choux On pose deux hypothèses: H0: la fait d avoir des garçons ou des filles ne dépendpas de la consommation de choux C est-à-dire que le fait d avoir des filles ou des garçons dépend du hasard, que les parents mangent ou pas des choux! 3
On pose deux hypothèses: H0: la fait d avoir des garçons ou des filles ne dépendant pas de la consommation de choux C est-à-dire que le fait d avoir des filles ou des garçons dépend duhasard,quelesparentsmangentoupasdeschoux! Si H0 est vrai alors Quand les parents mangent du choux : Probabilité (Sexe de l enfant)=50% Quand les parents ne mangent pas de choux :Probabilité (Sexe de l enfant)=50% Si H0 est vrai alors Quand les parents mangent du choux : Probabilité (Sexe de l enfant)=50% Quand les parents ne mangent pas de choux :Probabilité (Sexe de l enfant)=50% Plus la probabilité (i.e. la chance) d avoir un garçon quand les parents mangent du choux est grande alors plus H1 est vraie. 4
Notons: P(garçon/choux) : la probabilité d avoir un garçon si les parents mangent des choux P(garçon/nonchoux) : la probabilité d avoir un garçon si les parents ne mangent pas de choux P(fille/choux) : la probabilité d avoir une fille si les parents mangent des choux P(fille/nonchoux) : la probabilité d avoir une fille si les parents ne mangent pas de choux Si H0 est vraie alors P(garçon/choux)=25% P(garçon/nonchoux)= 25% P(fille/choux) =25% P(fille/nonchoux) = 25% On ne teste que H0 car il existe énormément de possibilité que ces probabilités soient différentes de zéro (une infinité)! Remarque: on dit que H0 est une hypothèse statistique exacte. 5
Si H0 est vraie alors P(garçon/choux)=25% P(garçon/nonchoux)= 25% P(fille/choux) =25% P(fille/nonchoux) = 25% Remarquons, dans cet exemple, aussi que H0 dépend de non-pas une condition (garçon/choux) mais de 4 conditions! Nous avons récolté les données d un couple de 200 jeunes parents: *** Garçon 57 58 Fille 20 65 Distribution d effectif Garçon 57 58 115 Fille 20 65 85 77 123 200 Calcul des effectifs marginaux *** données fictives 6
Nous avons récolté les données d un couple de 200 jeunes parents: Garçon 57 58 115 Fille 20 65 85 Distribution d effectif 77 123 200 Garçon 57/200= 28,5% Fille 20/200= 10% Distribution de fréquence 58/200= 29% 65/200= 32,5% 57,5% 42,5% 38,5% 61,5% 100% Que nous disent les fréquences conditionnelles? Garçon 57 58 115 Fille 20 65 85 Distribution d effectif 77 123 200 Garçon 57/77= 74% Fille 20/77= 26% 58/123= 47% 65/123= 53% 100% 100% Distribution de fréquence conditionnelle en fonction de la consommation de choux 7
Que nous disent les fréquences conditionnelles? Garçon 57 58 115 Fille 20 65 85 77 123 200 Distribution d effectif Garçon 57/77= 74% Fille 20/77= 26% 58/123= 47% 65/123= 53% 100% 100% Distribution de fréquence conditionnelle en fonction de la consommation de choux 74% des couples qui consomment du choux ont des garçons! 53% des couples qui ne consomment pas de choux ont une fille! Que nous disent les fréquences conditionnelles? Garçon 57 58 115 Fille 20 65 85 77 123 200 Distribution d effectif Garçon 57/115= 49,5% Fille 20/85= 23,5% Non choux 58/115= 50,5% 65/85= 76,5% 100% 100% Distribution de fréquence conditionnelle en fonction du sexe de l enfant 8
Que nous disent les fréquences conditionnelles? Garçon 57 58 115 Fille 20 65 85 77 123 200 Distribution d effectif Garçon 57/115= 49,5% Fille 20/85= 23,5% Non choux 58/115= 50,5% 65/85= 76,5% 100% 100% Distribution de fréquence conditionnelle en fonction du sexe de l enfant Les couples qui ont eu un garçon et qui mangent des choux sont aussi fréquents que ceux qui n en mangent pas. Les ¾ des couples qui ont eu une fille ne mangent pas de choux! Quelles auraient du être les observations, s il n y avait pas de relation entre manger des choux et le sexe de l enfant? Garçon 50% 50% Fille 50% 50% 100% 100% Distribution de fréquences conditionnelles théoriques 9
Je peux voir mes données que sous une seule variable: N Eff marginaux 77 123 200 Eff attendu 100 100 200 Garço n Eff. margi nal Eff. Atten du 115 100 Fille 85 100 N 200 200 Garçon?? 115 Fille?? 85 Je peux voir le croisement de mes facteurs 77 123 200 C est ce qui m intéresse pour faire des corrélation Comment calculé les observations attendues sous H0? Garçon?? 115 Fille?? 85 77 123 200 Je pars des effectifs marginaux de chaque effet simple Distribution de fréquences conditionnelles théoriques Garçon 115*77/200= 44,275 Fille 85*77/200= 32,725 115*123/200= 70,725 85*123/200= 52,275 Distribution des effectifs théoriques ou attendue sous H0 115 85 77 123 200 Produit en croix 10
Effectifs observés Garçon 57 58 Fille 20 65 Effectifs attendus sous H0 Garçon 44,275 70,725 Fille 32,725 52,275 Plus les différences entre les deux tableaux sont grandes, plus les observations s écartent du hasard, plus j ai des chances que H0 soit fausse Dit autrement: Plus les différences entre les deux tableaux sont faibles, plus les observations s approchent du hasard, plus j ai des chances que H1 soit vraie (c est-à-dire que la relation entre les deux variables ne soit pas du au hasard. Effectifs observés Garçon 57 58 Fille 20 65 COMMENT FAIRE CALCULER LA DIFFERENCE ENTRE CES DEUX DISTRIBUTIONS? Effectifs attendus sous H0 Garçon 44,275 70,725 Fille 32,725 52,275 11
Effectifs observés Effectifs attendus sous H0 Garçon 57 58 Fille 20 65 Garçon 44,275 70,725 Fille 32,725 52,275 COMMENT FAIRE CALCULER LA DIFFERENCE ENTRE CES DEUX DISTRIBUTIONS? 1. Je calcule chaque différence. Effectifs observés Garçon 57 58 Fille 20 65 COMMENT FAIRE CALCULER LA DIFFERENCE ENTRE CES DEUX DISTRIBUTIONS? 1. Je calcule chaque différence. Effectifs attendus sous H0 Garçon 44,275 70,725 Fille 32,725 52,275 Garçon 57-44,275= 12,725 Fille 20-32,725= -12,725 58-70,725= -12,725 65-52,275= 12,725 Vous pouvez vérifier que la somme des différences est bien égale à zéro! 12
Pourquoi faisons-nous une soustraction? Une différence = une distance x1 Lyon M Paris x2 Reims La distance Lyon-Paris = x1-m La distance Reims-Paris= x2-m Garçon 57-44,275= 12,725 Fille 20-32,725= -12,725 Garçon 12,725²= Fille -12,725²= 58-70,725= -12,725 65-52,275= 12,725-12,725²= 12,725²= COMMENT FAIRE CALCULER LA DIFFERENCE ENTRE CES DEUX DISTRIBUTIONS? 1. Je calcule chaque différence. 2. Je met les différences au carré 13
Pourquoi met-on au carré? x1 Lyon La distance Lyon-Paris = x1-m La distance Reims-Paris= x2-m Distance négative M Paris x2 Distance positive Reims Le résultat de ce calcul donnera un nombre négatif pour la distance Paris-Lyon et un nombre positif pour la distance Paris-Reims! Un moyen de pouvoir les rendre comparable est d utiliser la fonction puissance! Vous arrive-t-il souvent de dire des distances négatives? Garçon (57-44,275)²= Fille (20-32,725)²= Garçon /44,275= 3,657 Fille /32,725= 4,948 (58-70,725)²= (65-52,275)²= /70,725= 2,289 /52,275= 3,097 COMMENT FAIRE CALCULER LA DIFFERENCE ENTRE CES DEUX DISTRIBUTIONS? 1. Je calcule chaque différence. 2. Je met les différences au carré 3. Je pondère chacun des carrés des distance par sa valeur d origine 14
Pourquoi je pondère par les observations théoriques ou attendues? 397km 777km M x1 x2 Paris Macon Marseille 4071km 4490km M x1 x2 New-York Las Vegas Los Angeles Les trajets en France et aux Etats-Unis sont-ils comparables? [Macon-Marseille]: 777-397=380 [Las Vegas-Los Angeles]: 4490-4071=419 Faire Macon-Marseille pour un français est équivalent au trajet LasVegas-Losangeles pour un américain partant de leur capitale respectives! Pourquoi je pondère par les observations théoriques ou attendues? 397km 777km M x1 x2 Paris Macon Marseille 4071km 4490km M x1 x2 New-York Las Vegas Los Angeles Les trajets en France et aux Etats-Unis sont-ils comparables? [Macon-Marseille]pondérée: (777-397)/397=380/397= 1.05 [Las Vegas-Los Angeles]pondérée: (4490-4071)/4071=419/4071= 0.09 Une broutille pour un américain! Pondérer, c est mettre un rapport de grandeur! Une petite différence pour les uns, peuvent être un grande pour les autres 15
Garçon (57-44,275)²= Fille (20-32,725)²= Garçon /44,275= 3,657 Fille /32,725= 4,948 (58-70,725)²= (65-52,275)²= /70,725= 2,289 /52,275= 3,097 3,657+ 2,289+ 4,948+ 3,097= 13,99 Chi²_calculé= 13,99 COMMENT FAIRE CALCULER LA DIFFERENCE ENTRE CES DEUX DISTRIBUTIONS? 1. Je calcule chaque différence. 2. Je met les différences au carré 3. Je pondère chacun des carrés des distance par sa valeur d origine 4. Je fais la somme de mes différences au carré pondérées Chi²_calculé=13,99 Seuil de significativité (de confiance), alpha:.05 5. Je me fixe un seuil de significativité 16
Chi²_calculé=13,99 Seuil de significativité:.05 ddl = (L-1)(C-1)=(2-1)*(2-1)=1 5. Je me fixe un seuil de significativité 6. Je cherche le nombre de degré de liberté (ddl) Chi²_calculé=13,99 Seuil de significativité, alpha=.05 ddl = (L-1)(C-1)=(2-1)*(2-1)=1 Chi²_théorique=3.84 5. Je me fixe un seuil de significativité 6. Je cherche le nombre de degré de liberté (ddl) 7. Je cherche le chi² seuil (i.e. théorique) Remarque: si alpha=.001 alors Chi²_théorique=10.83 17
Chi²_calculé=13.99 Seuil de significativité, alpha=.05 ddl = (L-1)(C-1)=(2-1)*(2-1)=1 alpha=.05, Chi²_théorique=3.84 alpha=.001 alors Chi²_théorique=10.83 Règle: Si Chi²_calculé > Chi²_théorique Alors rejet de H0 Si Chi²_calculé <= Chi²_théorique Alors non-rejet de H0 Ici: 13.99>10.83 5. Je me fixe un seuil de significativité 6. Je cherche le nombre de degré de liberté (ddl) 7. Je cherche le chi² seuil (i.e. théorique) 8. Je compare la valeur absolue du Chi²_calculé et Chi²_théorique Chi²_calculé=13.99 Seuil de significativité, alpha=.05 ddl = (L-1)(C-1)=(2-1)*(2-1)=1 alpha=.05, Chi²_théorique=3.84 alpha=.001 alors Chi²_théorique=10.83 Règle: Si Chi²_calculé > Chi²_théorique Alors rejet de H0 5. Je me fixe un seuil de significativité 6. Je cherche le nombre de degré de liberté (ddl) 7. Je cherche le chi² seuil (i.e. théorique) 8. Je compare la valeur absolue du Chi²_calculé et Chi²_théorique 9. Je conclue Si Chi²_calculé <= Chi²_théorique Alors non-rejet de H0 Ici: 13.99>10.83 Donc nous rejetons H0, in extenso, nous acceptons H1! Il y a une relation entre nos deux variables. Nous pouvons affirmer qu il y a une corrélation entre les naissances et la consommationdeschouxdesparentsà99,9%dechancedenepasnoustromper. 18
Donc nous rejetons H0, in extenso, nous acceptons H1! Il y a une relation entre nos deux variables. Nous pouvons affirmer qu il y a une corrélation entre les naissances et la consommation des choux des parents à 99,9% de chance de ne pas nous tromper. Mais attention: la corrélation n est pas Causalité On a toujours tendance à envisager une relation causale entre nos variables. Pourtant, plusieurs types de relations causales peuvent expliquer le lien entre À et B: A cause B ou B cause A (la poule ou l œuf) Les deux variables ont une cause commune, par exemple lorsque les deux sont causées par une troisième variable. Ex: le redoublement est lié à l échec scolaire car les deux sont liées à l origine sociale. Mais on peut aussi dire qu il existe un intermédiaire causal: une variable provoque un évènement, lui-même étant la cause d une variable: le redoublement provoque l échec scolaire, lui-même favorisant les décisions d abandon scolaire. Etc. Utilisation du Khi²: Si je souhaite connaître le lien (la corrélation) entre deux variables nominales. Donnée observée Donnée théorique Si zéro alors pas de différence entre O et Y Plus le Chi² est proche de zéro plus la corrélation est faible Plus la valeur absolue du Chi² est éloigné de zéro, plus la corrélation est forte Donc H0 est vraisemblable 19
Utilisation du Khi²: Si je souhaite connaître le lien (la corrélation) entre deux variables nominales. 1. Je fais la différence 2. Je met au carré 3. Je pondère 4. Je somme Utilisation du Khi²: Si je souhaite connaître le lien (la corrélation) entre deux variables nominales. Etapes: 1. Je pose des hypothèses (H0: hasard / H1: corrélation) 2. Je récolte des données et je calcul les effectifs marginaux dans le cas de mesure bivariée 3. Je trouve les données attendues sous H0 4. Je calcul le chi2 1. Je calcule chaque différence 2. Je met les différences au carré 3. Je pondère chacun des carrés des distance par sa valeur d origine 4. Je fais la somme de mes différences au carré pondérées 5. Je me fixe un seuil de significativité, un seuil de confiance 6. Je cherche le nombre de degré de liberté (ddl) 7. Je cherche le chi²_seuil (i.e. théorique) 8. Je compare la valeur absolue du Chi²_calculé et Chi²_seuil 9. Je conclue Attention: Une corrélation n est pas causalité 20