TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme



Documents pareils
Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

VI. Tests non paramétriques sur un échantillon

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

PEUT- ON SE PASSER DE LA NOTION DE FINALITÉ?

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Compréhension de lecture

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

T de Student Khi-deux Corrélation

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités conditionnelles Loi binomiale

Feuille d exercices 2 : Espaces probabilisés

Andréa. Aurore. Lisa-Marie

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Analyse de la variance Comparaison de plusieurs moyennes

LES GENERATEURS DE NOMBRES ALEATOIRES

LA TRANSMISSION DES CARACTÈRES

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

DIAGNOSTIC SOLAIRE ÉVALUEZ VOTRE SENSIBILITÉ ET VOTRE RISQUE AU SOLEIL! INSTITUT FRANÇAIS SOLEIL & SANTÉ.

Fluctuation d une fréquence selon les échantillons - Probabilités

Je découvre le diagramme de Venn

4 Distributions particulières de probabilités

Comment prouver que les végétaux ont besoin d eau, de minéraux, d air et de lumière pour se développer normalement?

Introduction à l approche bootstrap

1 les caractères des êtres humains.

Calculs de probabilités conditionelles

SERIE 1 Statistique descriptive - Graphiques

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Lunettes et Maquillage TECHNIQUE MAQUILLAGE

Exercices de génétique classique partie II

Nos mondes imaginaires. mes caractéristiques physiques

Item 169 : Évaluation thérapeutique et niveau de preuve

Lois de probabilité. Anita Burgun

PROBABILITÉS CONDITIONNELLES

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti

P1 : Corrigés des exercices

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

TSTI 2D CH X : Exemples de lois à densité 1

Principe d un test statistique

Relation entre deux variables : estimation de la corrélation linéaire

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Calcul élémentaire des probabilités

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

TESTS D'HYPOTHESES Etude d'un exemple

6 ème. Rallye mathématique de la Sarthe 2013/ ère épreuve de qualification : Problèmes Jeudi 21 novembre 2013

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Exercices de dénombrement

Conseils au masculin, l harmonie des couleurs et des proportions selon Byraub

Les probabilités. Chapitre 18. Tester ses connaissances

IPL SHR MED-120C+ Super Hair Removal, dépilation permanente

IV. La ressemblance entre apparentés

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

FICHE PEDAGOGIQUE 17

USB-Sticks. à partir de 50 pièces Modèle Couleur Mémoire Emballage Logo 512 MB 1 GB 128 MB 256 MB 1 GB 64 MB

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

ATTENTION AU DÉPART! GUIDE DE QUESTIONS DU MENEUR DE JEU.

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

CNAM léments de cours Bonus-malus et Crédibilité

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE

Once the installation is complete, you can delete the temporary Zip files..

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Utilisez les mots-ressources pour identifier les parties de la tête selon les numéros.

Chapitre 6 : coloniser de nouveaux milieux

Bonjour. J' adore " Star Wars" un film de siences- fiction et je déteste les princesses.

Classe de première L

Loi binomiale Lois normales

La création de vêtements, éléments de génétiques, et de maquillage.

MATHÉMATIQUES. Mat-4104

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Probabilités. Une urne contient 3 billes vertes et 5 billes rouges toutes indiscernables au toucher.

Guide de rédaction d un protocole de recherche clinique à. l intention des chercheurs évoluant en recherche fondamentale

Il y a trois types principaux d analyse des résultats : l analyse descriptive, l analyse explicative et l analyse compréhensive.

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

PORTE-CLÉS EN CUIR VOTRE CLÉ POUR ACCROCHER.

2. Détermination de la teneur en eau

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Les probabilités. Guide pédagogique Le présent guide sert de complément à la série d émissions intitulée Les probabilités produite par TFO.

Probabilités Loi binomiale Exercices corrigés

Ces conseils vous sont offerts par Retrouvez tous nos produits et nos astuces sur notre site.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Objets Combinatoires élementaires

IUT de Laval Année Universitaire 2008/2009. Fiche 1. - Logique -

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Jean Dubuffet AUTOPORTRAIT II

Cette Leçon va remplir ces attentes spécifiques du curriculum :

La nouvelle planification de l échantillonnage

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Étiquettes approuvées pour les porcs

INFORMATION GÉNÉTIQUE et REPRODUCTION SEXUÉE

TABLE DES MATIERES. C Exercices complémentaires 42

Table des matières: Guidelines Fonds de Pensions

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Transcription:

TESTS D HYPOTHÈSE FONDÉS SUR LE χ² http://fr.wikipedia.org/wiki/eugénisme

Logo du Second International Congress of Eugenics 1921. «Comme un arbre, l eugénisme tire ses constituants de nombreuses sources et les organise en une entité harmonieuse.»

Petite histoire de l eugénisme Ensemble des méthodes et pratiques visant à transformer le patrimoine génétique de l espèce humaine, dans le but de le faire tendre vers un idéal déterminé. L'étymologie du mot «eugénisme» est grecque : eu («bien») et gennaô («engendrer»), ce qui signifie littéralement «bien naître». Ce néologisme a été utilisé pour la première fois en 1883 par le britannique Francis Galton, cousin de Charles Darwin.

Petite histoire de l eugénisme Toute l ambition de Galton est de montrer le caractère héréditaire des «capacités naturelles» de l homme et d en comprendre le mécanisme de transmission dans le but avoué de découvrir les moyens d améliorer la «race humaine» sur le modèle de l élevage animal. Dès 1869, il lui paraît ainsi «tout à fait possible de produire une race humaine surdouée par des mariages judicieux pendant plusieurs générations consécutives».

Petite histoire de l eugénisme Karl Pearson, le principal disciple de Galton continua l œuvre de son mentor, en s appuyant sur une approche statistique dont il raffina les méthodes pour en faire une discipline à part entière: la biométrie. Sur le plan scientifique, il participa ainsi à l émergence de la génétique des populations mais fut progressivement marginalisé par le développement de la génétique mendélienne.

KARL PEARSON

Le papier historique de K. Pearson

Le papier historique de K. Pearson On the criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling

Le papier historique de K. Pearson On the criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling

Quels types de «Probable» peut-on avoir envie de tester? (1900)

Quels types de «Probable» peut-on avoir envie de tester? (1900)

Quels types de «Probable» peut-on avoir envie de tester? (2010) 8 rouges à lèvres On connaît le rouge à lèvres préféré de chaque consommatrice Rose brillant Rose mat Rouge brillant Rouge mat Brun brillant Brun mat Données Spé Stat, Promo 2010-2011 Prune brillant Prune mat

Quels types de «Probable» peut-on avoir envie de tester? (2010) Quelle question a-t-on naturellement envie de se poser? Comment formaliser cette question?

Quels types de «Probable» peut-on avoir envie de tester? (2010) Chaque consommatrice associe à chaque rouge à lèvres une ou plusieurs images représentant un état émotionnel

Quels types de «Probable» peut-on avoir envie de tester? (2010) Quelle question a-t-on naturellement envie de se poser? Comment formaliser cette question?

Tests d hypothèses fondés sur le χ² Le χ² d ajustement «Peut-on admettre l hypothèse qu une distribution observée s ajuste à une distribution théorique?» Le χ² d indépendance «Peut-on admettre l hypothèse que deux caractères sont indépendants?»

Objectif d un test d hypothèse Une hypothèse statistique est une assertion, notée H 0, portant sur une population étudiée Objectif : au vu d un échantillon observé, prendre une décision concernant l hypothèse H 0 H 0 est très peu plausible rejet de H 0 H 0 est plausible acceptation (non rejet) de H 0 Plausible : it can be reasonably supposed

Le χ² d ajustement Question : «Peut-on admettre l hypothèse qu une distribution observée s ajuste à une distribution théorique?» Loi normale? Loi binomiale?

Exemple historique : les pois de G. Mendel http://fr.wikipedia.org/wiki/gregor_mendel

Exemple historique : les pois de G. Mendel Il choisit d étudier l hérédité de pois comestibles présentant sept caractères dont chacun peut se retrouver sous deux formes alternatives, aisément identifiables : Forme et couleur de la graine, couleur de l enveloppe, forme et couleur de la gousse, position des fleurs et longueur de la tige.

Exemple historique : les pois de G. Mendel La première expérience qu il décrira dans son article consiste à étudier les résultats d hybridation obtenus pour l une des paires de caractères seulement. Par exemple, la «forme du pois» qui existe selon deux variantes : graine ronde (lisse) ou graine anguleuse (ridée). Il étudie successivement des lignées pures différant par un seul caractère puis deux et enfin trois.

Exemple historique : les pois de G. Mendel 2 caractères étudiés couleur = Jaune, vert forme = Rond, anguleux En conclusion, Mendel propose que les caractéristiques héréditaires des vivants sont gouvernées chacune par une double commande (une paire d'allèles) et que seule une sur deux est transmise au descendant par chaque parent.

Exemple historique : les pois de G. Mendel C est le fondement de la génétique qui va démarrer au début du XXe siècle. Du même coup, avec les premiers pas d une biologie quantitative se développeront les statistiques. A vous de jouer maintenant

Exemple historique : les pois de G. Mendel Expérimentation sur 556 plantes (J,R) (J,a) (v,r) (v,a) Effectifs observés 315 108 101 32 Comment formaliser le problème afin d arriver aux conclusions de G. Mendel?

Loi Multinomiale : généralisation de la loi Binomiale Contexte : succession de n épreuves indépendantes à K issues possibles épreuve 1 épreuve 2... épreuve n E 1 réalisé ou E 2 réalisé oụ. E 1 réalisé ou E 2 réalisé oụ. E 1 réalisé ou E 2 réalisé oụ. E K réalisé E K réalisé E K réalisé

Loi Multinomiale : généralisation de la loi Binomiale Issue : N p k k = = nombre de réalisation de E k probabilité que E k se réalise (N 1,,N k ) ~ M ( n, p 1, p 2,, p k ) épreuve 1 épreuve 2... épreuve n E 1 réalisé ou E 2 réalisé oụ. E 1 réalisé ou E 2 réalisé oụ. E 1 réalisé ou E 2 réalisé oụ. E K réalisé E K réalisé E K réalisé

Exemple historique : les pois de G. Mendel Expérimentation sur 556 plantes (J,R) (J,a) (v,r) (v,a) Effectifs observés 315 108 101 32 Formulation des hypothèses testées H 0 : «Les effectifs observés sont issus d un modèle multinomial (556, 9/16, 3/16, 3/16, 1/16)» H A : «Les effectifs observés ne sont pas issus de ce modèle multinomial»

Exemple historique : les pois de G. Mendel Calcul des effectifs attendus (ou théoriques) - lorsque H 0 est vraie - type de pois probabilité effectifs attendus (J,r) (J,a) (V,r) (V,a) 9/16 3/16 3/16 1/16 9/16 x 556 = 3/16 x 556 = 3/16 x 556 = 1/16 x 556 = (ou théoriques) 312.75 104.25 104.25 34.75 effectifs observés 315 108 101 32 Les effectifs observés sont-ils «peu ou très» éloignés de ceux que l on observe sous l hypothèse d une loi multinomiale?

Un problème de comparaison de 2 distributions effectifs 320 240 160 distribution théorique ( modèle multinomial ) distribution observée 80 0 (J,R) (J,a) (v,r) (v,a) Type de pois

Calcul d un indicateur d écart D entre les 2 distributions distribution théorique distribution observée 556 x 9/16 556 x 3/16 556 x 3/16 556 x 1/16 315 108 101 32 distribution théorique distribution observée nπ nπ... 1 2 n n... 1 2 nπ I n I D observé i 1 I ( n ) = i nπi = nπ i 2

Exemple historique : les pois de G. Mendel D observé 2 ( 315 312.75) ( 32 34.75) = + + 312.75 34.75 2 = 0.43 Problème : comment juger de l importance de l écart entre les distributions théorique et observée? (i.e. de la validité de l hypothèse H 0 ) Nécessité d une distribution de référence

Population (toutes les plantes) Tirage d un grand nombre d échantillons de taille n modèle théorique ( multinomial ) 556 9 3 3 1 16 16 16 16...... Calcul de l indicateur D D 1 D 2 D t Résultat : lorsque n : D = Σ I i = 1 _ (N i nπ i ) 2 nπ i ~ χ 2 (I-1)

D observé et distribution de référence

Valeur critique et risque de rejet à tort de H 0 0.3 0.25 0.2 0.15 Règle de décision 0.1 0.05 0 95% 5% D critique χ = I 2 ( 1) (0.95) D Si D critique < D observé Alors rejet de H 0 au seuil de risque de 5 % Sinon on garde H 0 Acceptation de H 0 Rejet de H 0

Calcul de la P critique associée à H 0 0.3 0.25 0.2 P critique = P [ D > D observé ] 0.15 0.1 0.05 0 D D observé D observé P critique élevée P critique faible H 0 plausible H 0 peu plausible Probabilité que sous H 0 la statistique de test prenne une valeur au moins aussi extrême que celle observée

Exemple historique : les pois de G. Mendel 0.3 0.25 0.2 χ 2 (4-1) = 3 P critique [ D > 0. ] = P 43 0.15 = 0.925 0.1 0.05 0 D observé = 0.43 2 4 6 8 10 12 14 Données compatibles avec H 0 H 0 très (trop?) plausible Le risque de rejet à tort de H 0 est élevé

Ajustement à une loi normale 150 100 Exemple : distribution des notes au 50 0 BAC en mathématiques. (échantillon de 909 observations) 0 5 10 15 20 25 Note en math au BAC H 0 : «Les effectifs observés sont issus d une loi normale» Démarche : - utilisation des données centrées-réduites - densité normale découpage en classes d effectif identique

Calcul des effectifs théoriques <-1.282 [-1.282.-0.842] [-.842;-.524] [-.524;-.253] [-.253;0] [0;.253] [.253;.524] [.524;.842] [.842;1.282] >1.282 Observé 70 125 98 75 113 84 87 83 79 95 Théorique 90,83 90,88 91,12 90,90 90,78 90,78 90,90 91,12 90,88 90,83 Chi2 4,78 12,81 0,52 2,78 5,44 0,51 0,17 0,72 1,55 0,19 91.12 = P [ -0.842 < U < -0.524 ] x 909 = ( P [U < -0.524 ] - P [ U < -0.842 ] ) x 909 = ( F U (-0.524) - F U (-0.842) ) x 909 = ( 0.3-0.2 ) x 909 F U (-0.524) F U (- 0.842) N (0,1) -4-3 -2-1 0 1 2 3 4 U

Calcul d un indicateur d écart entre les 2 distributions D observé = I i= 1 ( O T ) i T i i 2 D observé = 29.47 Résultat : lorsque n : D = I i= 1 2 ( N n ˆ π ) 2 i n ˆ π i i ~ χ ( I p 1) Où : p = nombre de paramètres du modèle théorique estimés à partir de l échantillon ( µ et σ )

Application à l exemple 0.16 0.14 0.12 0.1 0.08 0.06 χ 2 (10-2 - 1) = 7 P critique = P [ D > 29.47 ] = 4.96 10-5 0.04 0.02 0 0 5 10 15 20 25 D observé = 29.47 Données incompatibles avec H 0 Normalité pas acceptable

Le χ² d indépendance

Le χ² d indépendance Question : «Peut-on admettre l hypothèse que deux variables qualitatives sont indépendantes?» Question très différente de celle de l ajustement Test basé sur le même principe (χ²) : «comparaison de 2 distributions»

Tocher, J.F. (1908) Pigmentation survey of school children in Scotland. Biometrika, 6, 129-235 district écossais échantillon de 3883 enfants 2 variables : «sexe», «couleur des cheveux»

Annals of Eugenics

Tocher, J.F. (1908) Pigmentation survey of school children in Scotland. Biometrika, 6, 129-235 district écossais échantillon de 3883 enfants 2 variables : «sexe», «couleur des cheveux» couleur des cheveux blond roux châtain brun noir de jais sexe garçon 592 119 849 504 36 2100 fille 544 97 677 451 14 1783 1136 216 1526 955 50 3883

Les hypothèses testées H 0 : la «couleur des cheveux» est indépendante du «sexe» de l enfant H A : la «couleur des cheveux» n est pas indépendante du «sexe» de l enfant affirmation concernant la population étudiée

Le tableau de contingence = tableau croisé permettant d étudier la liaison entre 2 variables qualitatives à I et J modalités 1 1 j J Σ n i = J j= 1 n ij i n ij n i n j = I i= 1 n ij I Σ n j n n = I J i= 1 j= 1 n ij

Caractérisation de la situation d indépendance Indépendance de 2 événements A et B [ A B] = P[ A B] P[ B] ou P[ A B] P[ A] P[ B] P = Indépendance de 2 variables aléatoires X et Y sur la population P [ (X = i ) ( Y = j ) ] = P [(X = i )] P [(Y = j )] ( i, j ) où X = «sexe» et Y = «couleur des cheveux» π ij = π i π j ( i, j )

Démarche Formulation mathématique de l hypothèse testée H 0 : π ij = π i π j ( i, j ) Démarche Comparaison effectifs observés (O ij ) effectifs théoriques (T ij )

Démarche Effectifs attendus (T ij ) dans l échantillon en cas d indépendance T ij = n π ij sous H 0 T ij = n π i π j Estimation des probabilités à partir des fréquences observées dans l échantillon πˆ πˆ i j = = n i n n j n T ij = n n i n n j n T ij = n n i j n ( i, j)

Calcul d un indicateur d écart entre les effectifs observés et théoriques D observé = I J i= 1 j= 1 ( O T ) ij T ij ij 2 Loi de la statistique D sous H 0 Lorsque n : D ~ χ 2 ( I 1)( J 1)

Application à l exemple blond roux châtain brun noir Effectifs observés G F 592 119 849 504 36 544 97 677 451 14 2100 1783 1136 216 1526 955 50 3883 Effectifs théoriques G F 614.37 116.82 825.29 516.48 27.04 521.63 99.18 700.71 438.52 22.96 2100 1783 1136 216 1526 955 50 3883 D observé =10.47

Application à l exemple 0.2 0.15 χ 2 (2-1)(5-1) = 4 0.1 0.05 P critique = P[ D > 10.47 ] = 0.033 0 0 5 10 15 20 D observé = 10.47 Données peu compatibles avec H 0 Indépendance peu plausible

Contribution au χ² Question quelles sont les observations responsables de l écart à l indépendance? Tableau des contributions (en %) G F ( (O ij - T ij ) 2 ) T ij CTR (i,j) = D blond roux châtain brun noir 7.74 0.38 6.49 2.87 28.37 9.17 0.48 7.64 3.44 33.43 33.43 = (14-23 ) 2 ( ) 23 10.47

Les costumes sont de Donald Cardwell Les décors sont de Roger Hart Les transparents sont de Emmanuel Périnel et Sébastien Lê La mise en scène est de Sébastien Lê