TESTS D HYPOTHÈSE FONDÉS SUR LE χ² http://fr.wikipedia.org/wiki/eugénisme
Logo du Second International Congress of Eugenics 1921. «Comme un arbre, l eugénisme tire ses constituants de nombreuses sources et les organise en une entité harmonieuse.»
Petite histoire de l eugénisme Ensemble des méthodes et pratiques visant à transformer le patrimoine génétique de l espèce humaine, dans le but de le faire tendre vers un idéal déterminé. L'étymologie du mot «eugénisme» est grecque : eu («bien») et gennaô («engendrer»), ce qui signifie littéralement «bien naître». Ce néologisme a été utilisé pour la première fois en 1883 par le britannique Francis Galton, cousin de Charles Darwin.
Petite histoire de l eugénisme Toute l ambition de Galton est de montrer le caractère héréditaire des «capacités naturelles» de l homme et d en comprendre le mécanisme de transmission dans le but avoué de découvrir les moyens d améliorer la «race humaine» sur le modèle de l élevage animal. Dès 1869, il lui paraît ainsi «tout à fait possible de produire une race humaine surdouée par des mariages judicieux pendant plusieurs générations consécutives».
Petite histoire de l eugénisme Karl Pearson, le principal disciple de Galton continua l œuvre de son mentor, en s appuyant sur une approche statistique dont il raffina les méthodes pour en faire une discipline à part entière: la biométrie. Sur le plan scientifique, il participa ainsi à l émergence de la génétique des populations mais fut progressivement marginalisé par le développement de la génétique mendélienne.
KARL PEARSON
Le papier historique de K. Pearson
Le papier historique de K. Pearson On the criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling
Le papier historique de K. Pearson On the criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling
Quels types de «Probable» peut-on avoir envie de tester? (1900)
Quels types de «Probable» peut-on avoir envie de tester? (1900)
Quels types de «Probable» peut-on avoir envie de tester? (2010) 8 rouges à lèvres On connaît le rouge à lèvres préféré de chaque consommatrice Rose brillant Rose mat Rouge brillant Rouge mat Brun brillant Brun mat Données Spé Stat, Promo 2010-2011 Prune brillant Prune mat
Quels types de «Probable» peut-on avoir envie de tester? (2010) Quelle question a-t-on naturellement envie de se poser? Comment formaliser cette question?
Quels types de «Probable» peut-on avoir envie de tester? (2010) Chaque consommatrice associe à chaque rouge à lèvres une ou plusieurs images représentant un état émotionnel
Quels types de «Probable» peut-on avoir envie de tester? (2010) Quelle question a-t-on naturellement envie de se poser? Comment formaliser cette question?
Tests d hypothèses fondés sur le χ² Le χ² d ajustement «Peut-on admettre l hypothèse qu une distribution observée s ajuste à une distribution théorique?» Le χ² d indépendance «Peut-on admettre l hypothèse que deux caractères sont indépendants?»
Objectif d un test d hypothèse Une hypothèse statistique est une assertion, notée H 0, portant sur une population étudiée Objectif : au vu d un échantillon observé, prendre une décision concernant l hypothèse H 0 H 0 est très peu plausible rejet de H 0 H 0 est plausible acceptation (non rejet) de H 0 Plausible : it can be reasonably supposed
Le χ² d ajustement Question : «Peut-on admettre l hypothèse qu une distribution observée s ajuste à une distribution théorique?» Loi normale? Loi binomiale?
Exemple historique : les pois de G. Mendel http://fr.wikipedia.org/wiki/gregor_mendel
Exemple historique : les pois de G. Mendel Il choisit d étudier l hérédité de pois comestibles présentant sept caractères dont chacun peut se retrouver sous deux formes alternatives, aisément identifiables : Forme et couleur de la graine, couleur de l enveloppe, forme et couleur de la gousse, position des fleurs et longueur de la tige.
Exemple historique : les pois de G. Mendel La première expérience qu il décrira dans son article consiste à étudier les résultats d hybridation obtenus pour l une des paires de caractères seulement. Par exemple, la «forme du pois» qui existe selon deux variantes : graine ronde (lisse) ou graine anguleuse (ridée). Il étudie successivement des lignées pures différant par un seul caractère puis deux et enfin trois.
Exemple historique : les pois de G. Mendel 2 caractères étudiés couleur = Jaune, vert forme = Rond, anguleux En conclusion, Mendel propose que les caractéristiques héréditaires des vivants sont gouvernées chacune par une double commande (une paire d'allèles) et que seule une sur deux est transmise au descendant par chaque parent.
Exemple historique : les pois de G. Mendel C est le fondement de la génétique qui va démarrer au début du XXe siècle. Du même coup, avec les premiers pas d une biologie quantitative se développeront les statistiques. A vous de jouer maintenant
Exemple historique : les pois de G. Mendel Expérimentation sur 556 plantes (J,R) (J,a) (v,r) (v,a) Effectifs observés 315 108 101 32 Comment formaliser le problème afin d arriver aux conclusions de G. Mendel?
Loi Multinomiale : généralisation de la loi Binomiale Contexte : succession de n épreuves indépendantes à K issues possibles épreuve 1 épreuve 2... épreuve n E 1 réalisé ou E 2 réalisé oụ. E 1 réalisé ou E 2 réalisé oụ. E 1 réalisé ou E 2 réalisé oụ. E K réalisé E K réalisé E K réalisé
Loi Multinomiale : généralisation de la loi Binomiale Issue : N p k k = = nombre de réalisation de E k probabilité que E k se réalise (N 1,,N k ) ~ M ( n, p 1, p 2,, p k ) épreuve 1 épreuve 2... épreuve n E 1 réalisé ou E 2 réalisé oụ. E 1 réalisé ou E 2 réalisé oụ. E 1 réalisé ou E 2 réalisé oụ. E K réalisé E K réalisé E K réalisé
Exemple historique : les pois de G. Mendel Expérimentation sur 556 plantes (J,R) (J,a) (v,r) (v,a) Effectifs observés 315 108 101 32 Formulation des hypothèses testées H 0 : «Les effectifs observés sont issus d un modèle multinomial (556, 9/16, 3/16, 3/16, 1/16)» H A : «Les effectifs observés ne sont pas issus de ce modèle multinomial»
Exemple historique : les pois de G. Mendel Calcul des effectifs attendus (ou théoriques) - lorsque H 0 est vraie - type de pois probabilité effectifs attendus (J,r) (J,a) (V,r) (V,a) 9/16 3/16 3/16 1/16 9/16 x 556 = 3/16 x 556 = 3/16 x 556 = 1/16 x 556 = (ou théoriques) 312.75 104.25 104.25 34.75 effectifs observés 315 108 101 32 Les effectifs observés sont-ils «peu ou très» éloignés de ceux que l on observe sous l hypothèse d une loi multinomiale?
Un problème de comparaison de 2 distributions effectifs 320 240 160 distribution théorique ( modèle multinomial ) distribution observée 80 0 (J,R) (J,a) (v,r) (v,a) Type de pois
Calcul d un indicateur d écart D entre les 2 distributions distribution théorique distribution observée 556 x 9/16 556 x 3/16 556 x 3/16 556 x 1/16 315 108 101 32 distribution théorique distribution observée nπ nπ... 1 2 n n... 1 2 nπ I n I D observé i 1 I ( n ) = i nπi = nπ i 2
Exemple historique : les pois de G. Mendel D observé 2 ( 315 312.75) ( 32 34.75) = + + 312.75 34.75 2 = 0.43 Problème : comment juger de l importance de l écart entre les distributions théorique et observée? (i.e. de la validité de l hypothèse H 0 ) Nécessité d une distribution de référence
Population (toutes les plantes) Tirage d un grand nombre d échantillons de taille n modèle théorique ( multinomial ) 556 9 3 3 1 16 16 16 16...... Calcul de l indicateur D D 1 D 2 D t Résultat : lorsque n : D = Σ I i = 1 _ (N i nπ i ) 2 nπ i ~ χ 2 (I-1)
D observé et distribution de référence
Valeur critique et risque de rejet à tort de H 0 0.3 0.25 0.2 0.15 Règle de décision 0.1 0.05 0 95% 5% D critique χ = I 2 ( 1) (0.95) D Si D critique < D observé Alors rejet de H 0 au seuil de risque de 5 % Sinon on garde H 0 Acceptation de H 0 Rejet de H 0
Calcul de la P critique associée à H 0 0.3 0.25 0.2 P critique = P [ D > D observé ] 0.15 0.1 0.05 0 D D observé D observé P critique élevée P critique faible H 0 plausible H 0 peu plausible Probabilité que sous H 0 la statistique de test prenne une valeur au moins aussi extrême que celle observée
Exemple historique : les pois de G. Mendel 0.3 0.25 0.2 χ 2 (4-1) = 3 P critique [ D > 0. ] = P 43 0.15 = 0.925 0.1 0.05 0 D observé = 0.43 2 4 6 8 10 12 14 Données compatibles avec H 0 H 0 très (trop?) plausible Le risque de rejet à tort de H 0 est élevé
Ajustement à une loi normale 150 100 Exemple : distribution des notes au 50 0 BAC en mathématiques. (échantillon de 909 observations) 0 5 10 15 20 25 Note en math au BAC H 0 : «Les effectifs observés sont issus d une loi normale» Démarche : - utilisation des données centrées-réduites - densité normale découpage en classes d effectif identique
Calcul des effectifs théoriques <-1.282 [-1.282.-0.842] [-.842;-.524] [-.524;-.253] [-.253;0] [0;.253] [.253;.524] [.524;.842] [.842;1.282] >1.282 Observé 70 125 98 75 113 84 87 83 79 95 Théorique 90,83 90,88 91,12 90,90 90,78 90,78 90,90 91,12 90,88 90,83 Chi2 4,78 12,81 0,52 2,78 5,44 0,51 0,17 0,72 1,55 0,19 91.12 = P [ -0.842 < U < -0.524 ] x 909 = ( P [U < -0.524 ] - P [ U < -0.842 ] ) x 909 = ( F U (-0.524) - F U (-0.842) ) x 909 = ( 0.3-0.2 ) x 909 F U (-0.524) F U (- 0.842) N (0,1) -4-3 -2-1 0 1 2 3 4 U
Calcul d un indicateur d écart entre les 2 distributions D observé = I i= 1 ( O T ) i T i i 2 D observé = 29.47 Résultat : lorsque n : D = I i= 1 2 ( N n ˆ π ) 2 i n ˆ π i i ~ χ ( I p 1) Où : p = nombre de paramètres du modèle théorique estimés à partir de l échantillon ( µ et σ )
Application à l exemple 0.16 0.14 0.12 0.1 0.08 0.06 χ 2 (10-2 - 1) = 7 P critique = P [ D > 29.47 ] = 4.96 10-5 0.04 0.02 0 0 5 10 15 20 25 D observé = 29.47 Données incompatibles avec H 0 Normalité pas acceptable
Le χ² d indépendance
Le χ² d indépendance Question : «Peut-on admettre l hypothèse que deux variables qualitatives sont indépendantes?» Question très différente de celle de l ajustement Test basé sur le même principe (χ²) : «comparaison de 2 distributions»
Tocher, J.F. (1908) Pigmentation survey of school children in Scotland. Biometrika, 6, 129-235 district écossais échantillon de 3883 enfants 2 variables : «sexe», «couleur des cheveux»
Annals of Eugenics
Tocher, J.F. (1908) Pigmentation survey of school children in Scotland. Biometrika, 6, 129-235 district écossais échantillon de 3883 enfants 2 variables : «sexe», «couleur des cheveux» couleur des cheveux blond roux châtain brun noir de jais sexe garçon 592 119 849 504 36 2100 fille 544 97 677 451 14 1783 1136 216 1526 955 50 3883
Les hypothèses testées H 0 : la «couleur des cheveux» est indépendante du «sexe» de l enfant H A : la «couleur des cheveux» n est pas indépendante du «sexe» de l enfant affirmation concernant la population étudiée
Le tableau de contingence = tableau croisé permettant d étudier la liaison entre 2 variables qualitatives à I et J modalités 1 1 j J Σ n i = J j= 1 n ij i n ij n i n j = I i= 1 n ij I Σ n j n n = I J i= 1 j= 1 n ij
Caractérisation de la situation d indépendance Indépendance de 2 événements A et B [ A B] = P[ A B] P[ B] ou P[ A B] P[ A] P[ B] P = Indépendance de 2 variables aléatoires X et Y sur la population P [ (X = i ) ( Y = j ) ] = P [(X = i )] P [(Y = j )] ( i, j ) où X = «sexe» et Y = «couleur des cheveux» π ij = π i π j ( i, j )
Démarche Formulation mathématique de l hypothèse testée H 0 : π ij = π i π j ( i, j ) Démarche Comparaison effectifs observés (O ij ) effectifs théoriques (T ij )
Démarche Effectifs attendus (T ij ) dans l échantillon en cas d indépendance T ij = n π ij sous H 0 T ij = n π i π j Estimation des probabilités à partir des fréquences observées dans l échantillon πˆ πˆ i j = = n i n n j n T ij = n n i n n j n T ij = n n i j n ( i, j)
Calcul d un indicateur d écart entre les effectifs observés et théoriques D observé = I J i= 1 j= 1 ( O T ) ij T ij ij 2 Loi de la statistique D sous H 0 Lorsque n : D ~ χ 2 ( I 1)( J 1)
Application à l exemple blond roux châtain brun noir Effectifs observés G F 592 119 849 504 36 544 97 677 451 14 2100 1783 1136 216 1526 955 50 3883 Effectifs théoriques G F 614.37 116.82 825.29 516.48 27.04 521.63 99.18 700.71 438.52 22.96 2100 1783 1136 216 1526 955 50 3883 D observé =10.47
Application à l exemple 0.2 0.15 χ 2 (2-1)(5-1) = 4 0.1 0.05 P critique = P[ D > 10.47 ] = 0.033 0 0 5 10 15 20 D observé = 10.47 Données peu compatibles avec H 0 Indépendance peu plausible
Contribution au χ² Question quelles sont les observations responsables de l écart à l indépendance? Tableau des contributions (en %) G F ( (O ij - T ij ) 2 ) T ij CTR (i,j) = D blond roux châtain brun noir 7.74 0.38 6.49 2.87 28.37 9.17 0.48 7.64 3.44 33.43 33.43 = (14-23 ) 2 ( ) 23 10.47
Les costumes sont de Donald Cardwell Les décors sont de Roger Hart Les transparents sont de Emmanuel Périnel et Sébastien Lê La mise en scène est de Sébastien Lê