Faculté de Médecine Pierre et Marie Curie PAES

Documents pareils
Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

TESTS D'HYPOTHESES Etude d'un exemple

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Estimation et tests statistiques, TD 5. Solutions

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Principe d un test statistique

TSTI 2D CH X : Exemples de lois à densité 1

Probabilités conditionnelles Loi binomiale

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Texte Agrégation limitée par diffusion interne

Exercices sur le chapitre «Probabilités»

Lois de probabilité. Anita Burgun

Loi binomiale Lois normales

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Probabilités sur un univers fini

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Chapitre 2 Le problème de l unicité des solutions

Biostatistiques : Petits effectifs

Représentation d une distribution

T de Student Khi-deux Corrélation

Limites finies en un point

Correction du baccalauréat ES/L Métropole 20 juin 2014

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Calculs de probabilités conditionelles

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Nombre dérivé et tangente

Chapitre 6. Fonction réelle d une variable réelle

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Probabilités III Introduction à l évaluation d options

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

M2 IAD UE MODE Notes de cours (3)

Document d orientation sur les allégations issues d essais de non-infériorité

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Introduction à l approche bootstrap

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Item 169 : Évaluation thérapeutique et niveau de preuve

Probabilités sur un univers fini

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités (méthodes et objectifs)

Calcul élémentaire des probabilités

I. Cas de l équiprobabilité

I. Ensemble de définition d'une fonction

Simulation de variables aléatoires

Relation entre deux variables : estimation de la corrélation linéaire

Moments des variables aléatoires réelles

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Cours de Probabilités et de Statistique

Raisonnement par récurrence Suites numériques

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Qu est-ce qu une probabilité?

III- Raisonnement par récurrence

Que faire lorsqu on considère plusieurs variables en même temps?

23. Interprétation clinique des mesures de l effet traitement

TABLE DES MATIERES. C Exercices complémentaires 42

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Analyse de la variance Comparaison de plusieurs moyennes

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Statistique : Résumé de cours et méthodes

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Comparaison de fonctions Développements limités. Chapitre 10

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

O, i, ) ln x. (ln x)2

Probabilités. C. Charignon. I Cours 3

Introduction à la statistique non paramétrique

Fonctions homographiques

Cours de Tests paramétriques

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

La classification automatique de données quantitatives

Chaînes de Markov au lycée

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

MODELES DE DUREE DE VIE

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Programmes des classes préparatoires aux Grandes Ecoles

Introduction aux Statistiques et à l utilisation du logiciel R

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Cours Fonctions de deux variables

PRECISION - REJET DE PERTURBATIONS T.D. G.E.I.I.

6. Les différents types de démonstrations

Coefficients binomiaux

Cryptographie et fonctions à sens unique

MATHS FINANCIERES. Projet OMEGA

OSGOODE HALL LAW SCHOOL Université York MÉMOIRE PRIVILÉGIÉ ET CONFIDENTIEL

Probabilités conditionnelles Exercices corrigés

Hedging delta et gamma neutre d un option digitale

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Une réponse (très) partielle à la deuxième question : Calcul des exposants critiques en champ moyen

Interactions des rayonnements avec la matière

VI. Tests non paramétriques sur un échantillon

Compression Compression par dictionnaires

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Transcription:

Faculté de Médecine Pierre et Marie Curie PAES UE4 : Evaluation des méthodes d analyse appliquées aux sciences de la vie Cours 5 : 4 Février 2013 A-J Valleron Hôpital Saint Antoine http://aj.valleron.free.fr/ajv 1 AJ Valleron, 2013 1

5 ème Cours : principaux tests statistiques document de cours : http://aj.valleron.free.fr/ajv/livre_ue4_cours.html livre AJV : fiches 16, 17, 19, 20, 24 (Mc Nemar), 29 Test de l hypothèse m A =m B puissance du test en fonc7on de l hypothèse alterna7ve. Calcul du nombre de sujets nécessaires Test non paramétrique Tests concernant la valeur théorique d un paramètre Tests concernant la comparaison de deux popula7ons Moyennes (cf cours 4) Propor7ons Tests du chi- deux test d «adéqua7on» à une distribu7on théorique Test de Mc Nemar pour comparer des données appariées test du logrank de comparaison de courbes de survies 2 AJ Valleron, 2013 2

étapes de l ETC Choisir un critère principal de jugement. (+ +) ( exemple : durée moyenne de survie) Déterminer la valeur Δ de différence entre les 2 groupes jugée intéressante à démontrer, si elle existe. Déterminer le risque β consenti de ne pas voir Δ, si elle existe. Calculer n Randomiser Analyser en intention de traiter. 3 AJ Valleron, 2013 3

Critère principal de jugement Dans la suite de CE cours, on choisira la survie moyenne. On pourrait choisir beaucoup d autres critères: exemple: % de patients avec survie > 12 mois, etc 0,4! 0,35! 0,3! 0,25! 0,2! 0,15! 0,1! 0,05! 0! 0! 4! 8! 12! 16! 20! 24! 28! 32! Survie après B (mois)! 36! 40! 44! 48! 4 AJ Valleron, 2013 4

Pratique du test de comparaison (critère : valeur moyenne) On se demande si deux traitements (A et B) ont des efficacités différentes. Le critère est la survie moyenne après traitement. La survie d un sujet traité par A est une v.a. X A (de moyenne µ A) On veut savoir si µ A et µ B diffèrent. pour résoudre ce problème, on dispose de deux échantillons sur lesquels on calcule m A et m B. ces données mènent elles à rejeter l hypothèse µ A = µ B? 5 AJ Valleron, 2013 5

6 AJ Valleron, 2013 6

On traite deux échantillons de n patients par A et B ; les survies moyennes calculées sont m A et m B ; d= m A m B. A partir de quelle valeur de d va-t on conclure que les survies moyennes µ A et µ B diffèrent? C est-à-dire : conclure que (Δ= µ A -µ B 0) Ou (identique) rejeter (Δ = µ A -µ B =0) 7 AJ Valleron, 2013 7

bon sens : Si d est nul, ou très petit, on n a pas envie de conclure que Δ est différent de zéro. Si d est très grand, on peut penser que Δ est différent de zéro. La théorie des tests permet de définir une valeur d lim séparant les «petites» et les «grandes» valeurs de d. 8 AJ Valleron, 2013 8

Formulation du Test (cas du test d efficacité) Dans un test d efficacité, on cherche à savoir si les traitements ont des efficacités différentes. D où le choix de H 0 : Δ =0 et H 1 : Δ 0 Si on rejette H0, on conclut à l efficacité du traitement. Le test garantira que le risque de dire que deux traitements sont différents, alors qu ils sont identiques est «faible» (risque de 1ère espèce) 5% Quand la différence d entre les moyennes observées de survie sera «grande» on rejetera H 0. 9 AJ Valleron, 2013 9

Test Bilatéral vs Unilatéral Hypothèse nulle : Δ = 0 Hypothèse alternative : test bilatéral : Δ 0 test unilatéral : Δ > 0 NB : pas de test unilatéral au concours, sauf si explicitement précisé. 10 AJ Valleron, 2013 10

loi de D = M A - M B E(D) = E(M A ) - E (M B ) = µ A - µ B = Δ D fluctue autour de la «vraie» valeur inconnue Δ Si l hypothèse nulle est vraie, Δ= 0 11 AJ Valleron, 2013 11

Si l 'hypothèse nulle est vraie,δ = 0 D fluctue autour de 0 et z = m A m B σ A 2 n A + σ 2 B n B = σ A 2 n A une loi normale réduite. z est inf érieur à 1,96 d + σ 2 B n B suit 95 fois sur100 Rappel: dans tous les exercices et QCM, arrondir 1,96 à 2 12 AJ Valleron, 2013 12

test comparant deux moyennes +++ «langage statisticien» NB: Comme on ne connait pas σ 2 A et σ 2 B, calculer z = m A m B s A 2 - Si z est compris entre -1,96 et +1,96 (= u 5% ), - la différence n est pas significative - on ne peut rejeter l hypothèse nulle - si z< -1,96 ou z>1,96, - la différence est significative, - on rejette l hypothèse nulle 2 n A + s B n B = d s d on les remplace par leurs estimations s A 2 et s B 2 n A et n B >30 le degré de signification p est cherché en comparant z à u p (par exemple, si z=-2,6, on a p=1%) 13 AJ Valleron, 2013 13

test comparant deux moyennes + + + langage normal calculer z = m A m B 2 2 s A n A + s B n B = d s d n A et n B >30 - Si z est compris entre -1,96 et +1,96 (= u 5% ), On ne peut dire que les deux traitements différent en moyenne - si z< -1,96 ou z>1,96, Les deux traitements diffèrent en moyenne (si z=-2,6, p= 1%) 14 AJ Valleron, 2013 14

comparaison de 2 moyennes +++ risques de 1ère et seconde espèce On rejette H 0 lorsque z > 1,96. Ceci, quand l hypothèse nulle est vraie, a une probabilité 5%. Le risque de 1ère espèce vaut toujours α = 5%. β dépend de Δ Δ est la différence (inconnue) entre les moyennes µα et µ Β (les «vraies» valeurs des moyennes selon la terminologie du polycopié) 15 AJ Valleron, 2013 15

Les 3 questions type + + + On compare deux traitements A et B. Deux groupes de 50 patients reçoivent A et B. Le critère de comparaison est la survie moyenne. On trouve comme estimations de la variance autour de 100 mois 2 dans les 2 groupes. 1. donner la valeur d lim de différence entre les deux moyennes à partir de laquelle on rejette l hypothèse nulle. 2. évaluer la puissance de cet essai sous différentes hypothèses d efficacité. 3. Donner le nombre de sujets par groupe qu on auarit dû employer dans cet essai thérapeutique AJ Valleron, 2013 16

c est la distribution de D sous H0 qui définit la zone de rejet On cherche à partir la valeur I d lim I pour laquelle z = 1,96 (en pratique on arrondit toujours à 2) Pour les valeurs de d < - d lim, ou > +d lim, on rejettera H 0 et on conclura : «les deux traitements sont différents» Dans cet exemple, d lim vaut 4. 17 AJ Valleron, 2013 17

1: à partir de quelle différence d lim entre les deux survies moyennes conclut on A B? Lorsque : z = m A m B s A 2 2 n A + s B n B = d s d >1,96 Donc, quand 18 d >1,96 s 2 A 2 + s B 2 100 n n 50 + 100 50 = 4 A B AJ Valleron, 2013 18

2 - Puissance de l expérience = 1-β +++ C est la probabilité de détecter que A et B sont d efficacité différente s ils le sont. C est donc la probabilité pour que z >1,96 quand A et B sont différents : équivalent : c est la probabilité pour que d > d lim = 4. Cette probabilité dépend de Δ 19 AJ Valleron, 2013 19

cas Δ = 1ms Δ = 1ms, donc Δ 0 La probabilité de trouver z >1,96 quand Δ = 1ms est (à très peu près) la même que lorsque Δ =0, c est à dire 5%. Puissance = 5% risque β = 95% 20 AJ Valleron, 2013 20

Distribution de D sous H 1 (Δ=3) On cherche la probabilité de rejeter H0 C est la probabilité pour que D> d lim z = (4-3)/2 = 0,5 On lit dans la table u 62% = 0,5 Puissance = 31% 21 AJ Valleron, 2013 21

Distribution de D sous H 1 (Δ=7) On cherche la probabilité de rejeter H0 C est la probabilité pour que D> d lim Ici z = (7-4)/2 = 1,5 On lit dans la table u 13% = 1,5 Puissance = 100% - 13%/2 = 93,5% 22 AJ Valleron, 2013 22

3 - Calcul du nombre de sujets nécessaires 1- il faut fixer la différence Δ i jugée intéressante. (( exple Δ i = 6mois )) 2- il faut fixer la puissance que l on désire (( exemple P = 90%, c. à d. β= 10% )) 23 AJ Valleron, 2013 23

La «différence intéressante» à démontrer Supposons que le critère de comparaison de deux traitements A et B soit la survie moyenne. Si µ A >µ B, le traitement A sera préferré au traitement B. On pose Δ = µ A -µ B Si Δ >0, et si la conclusion de l essai n est pas A>B, on a un défaut de puissance. Ce défaut pourrait être surmonté par un essai portant sur plus de sujets. Si Δ = 1 heure de survie, on ne regretterait sûrement pas le défaut de puissance. Si Δ = 2 ans de survie, on regretterait sûrement le défaut de puissance. On appelle Différence Intéressante Δ ι à démontrer la valeur de Δ à partir de laquelle on regretterait le défaut de puissance de l essai. très difficile à déterminer dans la pratique donné dans l énoncé dans les problèmes 24 AJ Valleron, 2013 24

Principe du calcul du nombre de sujets nécessaires dans un test de comparaison de moyennes Le nombre de sujets doit être tel que si la différence entre traitements vaut la valeur Δ ι jugée intéressante, la différence d entre les deux moyennes observées sur les échantillons ait une probabilité forte 1-β de tomber dans la zone de rejet de l hypothèse nulle ( car c est là qu on déclarera à juste titre que A B). 1-β = P (puissance) 25 AJ Valleron, 2013 25

ddp de d sous H0 d lim Zône de rejet Zône de rejet d ddp de d sous H1 d lim d 26 AJ Valleron, 2013 26

On calcule d lim (valeur limite pour rejeter H 0 ) de deux façons On rejette H 0 quand Pour que la Puissance soit P = 1 - β, il faut que d > d lim = 1,96 s A 2 2 n + s B n 2 s d lim = Δ 1 u A 2β n + s 2 B n où u 2β est lu dans la table "aux deux extrémités " 27 AJ Valleron, 2013 27

Nbre de sujets nécessaires ++++ n > (1,96 +u 2β )2 Δ i 2 (2s 2 ) s 2 est l estimation de la variance du critère dans les deux groupes. Avec 2 groupes de n sujets calculés ainsi : il y a seulement probabilité β pour que - dans le cas où la différence d efficacité moyenne est égale, ou supérieure à Δ i - le test statistique ne rejette pas H 0 et que, par conséquent on ne déclare pas les traitements différents. 28 AJ Valleron, 2013 28

application numérique Δ i = 6 mois β = 10% z 1-β = 1,28 s 2 =200 n = 3,28 2 x (200+200) / 36 = 120 29 AJ Valleron, 2013 29

Principes de construction communs à tous les tests 1 : poser le problème : On cherche si les données observées sur l échantillon permettent de conclure que : A. Les traitements A et B ont des efficacités différentes B. La valeur d un paramètre (moyenne, médiane, proportion, variance, ) d une population estimée sur un échantillon diffère d une valeur «théorique» donnée à l avance. C. La distribution de probabilité d une variable diffère d un modèle théorique donné à l avance. D. La quantité X et la quantité Y sont «corrélées» entre elles E. Les sujets qui ont telle caractéristique ont plus souvent que les autres telle autre caractéristique 30 AJ Valleron, 2013 30

Principes de construction communs à tous les tests 2 : en déduire l hypothèse nulle qui devrait être rejetée pour pouvoir conclure dans le sens espéré : A : Pour conclure : Les traitements A et B ont des efficacités différentes Il faut rejeter H0 : «les traitements sont de même efficacité» 31 AJ Valleron, 2013 31

Principes de construction communs à tous les tests 2 : en déduire l hypothèse nulle qui devrait être rejetée pour pouvoir conclure dans le sens espéré : B : Pour conclure : La valeur d un paramètre (moyenne, médiane, proportion, variance, ) d une population estimée sur un échantillon diffère d une valeur «théorique» donnée à l avance Il faut rejeter H0 : «le paramètre a la valeur théorique donnée» 32 AJ Valleron, 2013 32

Principes de construction communs à tous les tests 2 : en déduire l hypothèse nulle qui devrait être rejetée pour pouvoir conclure dans le sens espéré : C. Pour conclure : La distribution de probabilité d une variable diffère d un modèle théorique donné à l avance. Il faut rejeter l hypothèse nulle H0 : «l échantillon provient d une population où la variable suit le modèle XXX» 33 AJ Valleron, 2013 33

Principes de construction communs à tous les tests 2 : en déduire l hypothèse nulle qui devrait être rejetée pour pouvoir conclure dans le sens espéré : D. Pour conclure : La quantité X et la quantité Y sont «corrélées» entre elles. Il faut rejeter l hypothèse nulle H0 : X et Y sont indépendantes. 34 AJ Valleron, 2013 34

Principes de construction communs à tous les tests 2 : en déduire l hypothèse nulle qui devrait être rejetée pour pouvoir conclure dans le sens espéré : E. Pour conclure : Les sujets qui ont telle caractéristique ont plus souvent que les autres telle autre caractéristique Il faut rejeter l hypothèse nulle H0 : «les sujets qui ont, et ceux qui n ont pas, telle caractéristique ont aussi souvent l autre caractéristique» 35 AJ Valleron, 2013 35

Principes de construction communs à tous les tests 3 : déterminer le critère utilisé dans le test Déterminer un critère dont on connaît la distribution quand H0 est vraie (cours 4 : le critère était z). Identifier la zone de rejet de H 0 Le critère a 5 chances sur 100 d y tomber si H 0 est vraie Il a P chances sur 100 d y tomber si H 0 n est pas vraie ( P = puissance = 1 β avec β = risque de seconde 36 espèce) AJ Valleron, 2013 36

Principes de construction communs à tous les tests 4 : faire les calculs, conclure. Si le critère tombe dans la zone de rejet, dire : Les données permettent de rejeter l hypothèse nulle (et le degré de signification vaut ) Ou : on a mis en évidence une différence significative entre et (degré de signification) Si le critère ne tombe pas dans la zone de rejet, dire : Les données ne permettent pas de rejeter l hypothèse nulle Ou : on n a pas mis en évidence de différence entre les deux groupes, d écart à la loi théorique testée, une relation entre els 2 variables, etc 37 AJ Valleron, 2013 37

Tests concernant la valeur théorique d un paramètre La probabilité π d un événement est-elle différente de π 0? Cas traité au cours 4 (Loi de Mendel avec π 0 =3/4) La moyenne µ de la variable X est elle différente d une valeur donnée µ 0? Cas traité ici : séries appariées, avec µ 0 =0 + + La variance de la variable X est elle différente d une valeur donnée σ 02? Cas traité ici: test de la loi de Poisson 38 AJ Valleron, 2013 38

Séries appariées Méthode des couples - On se demande si la valeur moyenne d un paramètre change après un traitement : X est la valeur «avant», Y est la valeur «après», D = Y X est la différence. E(D) = µ. - On a un échantillon de n couples de valeurs M = (D 1 + D 2 +. +D n )/n et E(M) = µ - Hypothèse nulle : E(D) = µ = 0 On calcule la moyenne d des n différences et on estime leur variance s d 2 : Si H 0 est vraie, on a u = n d'où le test : rejeter H 0 si u >1,96 d s d 2 < 1,96 95 fois sur 100 39 AJ Valleron, 2013 39

Exemples d application de la méthode des «couples» (appariement) Deux correcteurs notent-t ils en moyenne différemment? On fait noter n copies par A et B. On note pour chaque copie d = x A x B. Met on en évidence une différence entre les deux correcteurs? N sujets sont traités. On dose un paramètre biologique avant et après leur traitement On note pour chaque sujet d = x A x B. Met on en évidence une différence avant et après traitement? N sujets reçoivent un traitement dermatologique par A, soit sur un côté du visage, soit par B sur un autre. On tire au sort le côté. x A et x B sont les 2 résultats. On note pour chaque sujet d = x A x B. Meton en évidence une différence d efficacité selon le traitement? 40 AJ Valleron, 2013 40

Test de la valeur d une variance (exemple de la méthode de construction d un test) Résultat (à ne pas mémoriser) : Si X a une distribution normale de moyenne µ et de variance σ 2, l estimation S 2 de la variance σ 2 est distribuée approximativement normalement, sa moyenne vaut σ 2 et sa variance vaut 2 σ 4 /n. Condition de validité : n>30 41 AJ Valleron, 2013 41

Exercice : On suppose que X est distribué selon une loi de Poisson de paramètre 50. Donner l intervalle de pari au risque 5% de l estimation de la variance de X qui sera trouvée sur un échantillon de 200 sujets. Il suffit d écrire que S 2 est de moyenne 50 et de variance 2 x 50 2 /200 = 50 2 /100 = 5 2 D où 50 1,96 x 5< S 2 < 50 + 1,96 x 5 ( au risque 5% près), soit 40 <s 2 <60 On a appliqué les résultats : - Moyenne = variance = paramètre de la loi de Poisson - Loi de Poisson de paramètre >30 est approximativement normale 42 AJ Valleron, 2013 42

Test de la valeur d une variance On se demande si X suit une loi de Poisson de paramètre 50. On a un échantillon de 200 valeurs ; on calcule l estimation s 2 et on trouve s 2 = 67. Réponse: H 0 est : X suit la loi de Poisson 67 tombe dans la zone de rejet de H 0 (dia précédente). Le degré de signification est obtenu par u = (67 50) /5 = 3,4 d où p=0,001 43 AJ Valleron, 2013 43

À propos du test précédent : Retenir le raisonnement général. On a des données observées sur un échantillon (ici, s 2 = 67 sur n =200) On sait qu un autre échantillon de 200 mènerait à une autre valeur de s 2. On a noté S 2 la v.a. variance sur un échantillon de 200 ( 67 est une réalisation de S 2 ) On ne se demande pas si 67 est différent de 50! (il l est). On se demande s il en diffère «significativement». On pose l hypothèse nulle (ici, c est σ 2 = 50). On calcule la distribution de S2 si l hypothèse nulle est vraie, et on en déduit la zone de rejet : zone dans laquelle S2 a 5 chances sur 100 de tomber quand H0 est vraie. Quand l observation y tombe (comme ici) : on conclut non pas que H0 est vraie, mais qu on est malchanceux, mais qu elle est fausse. 44 AJ Valleron, 2013 44

Comparaison de deux populations (valeur moyenne de X) On a trouvé qu on rejetait l hypothèse nulle µ A - µ B =0 quand ( si n A et n B >30) z = m A m B s A 2 2 n A + s B n B = d s d >1,96 45 AJ Valleron, 2013 45

Comparaison de deux populations (proportion d un caractère) : 1 Exemple : On suppose que, après le traitement A, une proportion π A de sujets survit >1an ; et qu après B, cette proportion est π B. On observe sur 2 échantillons de n A et n B sujets les proportions p A et p B. Quand (*) peut on conclure que π A π B? (*) = à partir de quelle différence entre pa et pb?. 46 AJ Valleron, 2013 46

Comparaison de deux populations (proportion d un caractère) : 2 Quand peut on conclure que π A π B? On pose comme hypothèse nulle π A = π B P A est la proportion de survies> 1an dans un échantillon de n A sujets traités par A (id pour P B ) E(P A -P B ) = π A - π B (=0 si H 0 vraie) Var(P)= Var (P A ) + Var (P B )= π A (1 - π A ) / n A + π B (1 π B )/ n B 47 AJ Valleron, 2013 47

Comparaison de deux populations (proportion d un caractère) : 3 Quand peut on conclure que π A π B? On observe une proportion p A de survies > 1an dans l échantillon de n A sujets traités par A (et p B dans l échantillon traité par B) on rejette H 0 si : d = p u p = A p B p A (1 p A ) + p (1 p ) >1,96 B B n A n B conditions de validité à vérifier NB : cette formule est approchée mais donne des résultats numériques très voisins de la formule donnée dans 48 le polycopié (cf p. 117 du livre) AJ Valleron, 2013 48

Test non paramètrique de Wilcoxon de comparaison de 2 distributions Un test non paramétrique permet de ne pas faire d hypothèse sur la distribution du paramètre étudié Par exemple, le test de comparaison de moyennes suppose n>30 afin d appliquer le théorème central limite Le test de Wilcoxon(*) sera applicable avec n<30. (*) strictement : test de Mann Whitney Wilcoxon. 49 AJ Valleron, 2013 49

Les deux distributions dont sont issus les échantillons A et B diffèrentelles? A : 7, 12, 15, 34, 45, 46, 57, 78,82,83 B : 44, 67, 88, 89, 90, 95, 99, 121, 123,169 On rassemble en ordre croissant les valeurs provenant de A et B : 7, 12, 15, 34, 44, 45, 46, 57, 67, 78,82,83, 88, 89, 90, 95, 99, 121, 123, 169 Rangs de A : 1,2,3,4,6,7,8,10,11,12 Rangs de B : 5, 9, 13, 14, 15, 16,17,18,19,20 50 AJ Valleron, 2013 50

Principe des tests de rangs pour comparer deux distributions A et B Hypothèse nulle H 0 {les distributions sont identiques} Deux échantillons de n A et n B sujets. On suppose n A <n B. On range par ordre croissant les n=n A +n B sujets. Si H 0 est vraie, les n A valeurs sont au hasard parmi les n. Leur rang moyen est proche du rang moyen des n B valeurs 51 AJ Valleron, 2013 51

Test de Wilcoxon ++ On suppose n A n B ; et n A, n B 10 On note T la somme des rangs obtenus par A. ((dans l exemple particulier, T=64)) Z = T + 0,5 n A (n A + n B +1) / 2 N (0,1) sous H 0 n A n B (n A + n B +1) /12 ((ici, z= - 41,5/13,2 =- 3,1 <-1,96 On rejette donc H 0. et comme z< -2,57 le degré de signification est de 1%) 52 AJ Valleron, 2013 52

Tests du chi-deux 53 AJ Valleron, 2013 53

Loi du χ2 (Chi-deux) à n ddl Soit Z 1, Z 2, ------ Z n, n variables aléatoires indépendantes distribuées chacune selon une loi normale de moyenne 0 et de variance 1. Soit K n, la variable aléatoire définie par K n = Z 1 2 + Z 2 2 ----- + Z n 2 E(Kn) = n (car E(Z i2 ) = 1 ) La loi de probabilité de Kn est appelée loi du Chi-deux à n degrés de liberté (ddl) 54 AJ Valleron, 2013 54

1 0.8 0.6 0.4 0.2 1 0.8 0.6 0.4 0.2 0.5 0.4 0.3 0.2 0.1 1 2 3 4 5 2 4 6 8 2 4 6 8 10 0.1 0.08 0.06 0.04 0.02 0.1 0.08 0.06 0.04 0.02 5 10 15 20 25 10 20 30 40 50 distribution de probabilité des chi-deux : en haut à 1, 2 et 3 ddl ; en bas : à 10 et 20 ddl Pr(K1>3,84)=Pr(K2>5,99)=Pr(K3>7,82)=5% 55 AJ Valleron, 2013 55

Variable qualitative à k classes On suppose qu un individu peut appartenir à k catégories différentes qui sont dans la population en proportions π 1, π 2,..., π k. Par exemple : «guéris», «stationnaires», «aggravés». On tire au sort un échantillon de n sujets et on observe N 1, N 2,..., N k sujets dans les k catégories. N 1, N 2,..., N k sont des v.a. E(N i ) = n π i = c i 56 AJ Valleron, 2013 56

Résultat permettant de construire le test d adéquation à une distribution théorique donnée Q = i ( N c ) 2 i i c i suit une loi du chi deux à k-1 ddl Condition de validité : c 5 57 AJ Valleron, 2013 57

Exemple de «test d adéquation» du chi-deux tester si un couple de gènes suit la 2ème Loi de Mendel 2ème loi de Mendel : (Aa, Bb) x (Aa, Bb) avec A et B dominants. à la 2ème génération, on attend : 3/4 A et 1/4 a et 3/4 B et 1/4 b Si les gènes sont indépendants, on attend : 9/16 AB, 3/16 Ab, 3/16 ab, 1/16 ab 58 AJ Valleron, 2013 58

Exemple pratique de test de la seconde loi de Mendel. On trouve à la 2ème génération, sur 200 descendants : - 125 AB - 40 Ab - 20 ab - 15 ab On teste H 0 : «la 2ème loi de Mendel est vraie» contre H 1 : «elle n est pas vraie». 59 AJ Valleron, 2013 59

Détermination de la zone de rejet de H 0 Si H 0 est vraie, la quantité Q = i ( N c ) 2 i c i i avec c 1 = 200 x 9 / 16 = 112,5 a 5 chances sur 100 de dépasser 7,815 (chi-deux à 4-1 = 3 ddl). 60 AJ Valleron, 2013 60

Sous H 0, K3 a 5 chances sur 100 d être supérieur à 7,815 (table) (125 112, 5 ) 2 112, 5 + (40 37, 5)2 37, 5 + ( 20 37, 5)2 37, 5 + (15 12, 5)2 12, 5 = 1,4 + 0,2 + 8,2 + 0,5 = 10,3 on rejette H 0 La 2ème loi de Mendel n est pas vérifiée (p=0,02). 61 AJ Valleron, 2013 61

QCM On se demande si une variable aléatoire est distribuée selon une loi normale de moyenne 120 et d écart-type 10. On tire au sort un échantillon de 100 valeurs de cette v.a.. On en trouve 40 inférieures à 120 ; 44 comprises entre 120,1 et 129,9 ; 16 supérieures à 129,9. A- le test à utiliser est celui du chi-deux à 1 ddl. B- le test à utiliser est celui du chi-deux à 2 ddl. C- le test à utiliser est celui du chi-deux à 3 ddl. D- le chi-deux est compris entre 4,5 et 5,5 E - le chi-deux est compris entre 5,5 et 6,5 AJ Valleron, 2013 62

QCM On se demande si une variable aléatoire est distribuée selon une loi normale de moyenne 120 et d écart-type 10. On tire au sort un échantillon de 100 valeurs de cette v.a.. On en trouve 40 inférieures à 120 ; 44 comprises entre 120,1 et 129,9 ; 16 supérieures à 129,9. A- le test à utiliser est celui du chi-deux à 1 ddl. B- le test à utiliser est celui du chi-deux à 2 ddl. C- le test à utiliser est celui du chi-deux à 3 ddl. D- le chi-deux est compris entre 4,5 et 5,5 E - le chi-deux est compris entre 5,5 et 6,5 B D AJ Valleron, 2013 63

QCM (suite) A- on peut rejeter l hypothèse de la distribution normale de moyenne 120 et écart type 10. (p=0.05) B- on peut rejeter l hypothèse de la distribution normale de moyenne 120 et écart type 10. (p<0.01) C- on ne peut pas rejeter l hypothèse de la distribution normale de moyenne 120 et écart type 10. D- l hypothèse de la distribution normale de moyenne 120 et écart type 10 est prouvée, au risque 5% près. E- l hypothèse de la distribution normale de moyenne 120 et écart type 10 est prouvée, au risque 1% près. AJ Valleron, 2013 64

QCM (suite) A- on peut rejeter l hypothèse de la distribution normale de moyenne 120 et écart type 10. (p=0.05) B- on peut rejeter l hypothèse de la distribution normale de moyenne 120 et écart type 10. (p<0.01) C- on ne peut pas rejeter l hypothèse de la distribution normale de moyenne 120 et écart type 10. D- l hypothèse de la distribution normale de moyenne 120 et écart type 10 est prouvée, au risque 5% près. E- l hypothèse de la distribution normale de moyenne 120 et écart type 10 est prouvée, au risque 1% près. C AJ Valleron, 2013 65

Test de Mc Nemar Problème type : Pour évaluer un traitement, on prend n couples de sujets très ressemblants (du point de vue de leur réponse à la maladie). On tire au sort celui qui reçoit A et celui qui reçoit B. Le critère est S (succès) ou E (échec). Il y a : en notant en 1 er le résultat de A et en 2 ème celui de B a SE, b ES, c SS et d EE. La proportion observée de succès par A est (a + c)/ N La proportion observée de succès par B est (b + c)/ N Exemple (n= 40) : a = 4, b =8, c = 18, d = 10 Ces résultats permettent ils de dire que A B? 66 AJ Valleron, 2013 66

Test de Mc Nemar 1- pour savoir si A et B sont différents, les paires concordantes ( d et e) n apportent pas d information 2- pour savoir si A B, il faut savoir si a et b diffèrent «significativement» 3- L hypothèse nulle à tester est A = B. 4- Si cette hypothèse nulle était vraie, sachant qu il y a a + b «désaccords», on s attend en moyenne à (a+b)/2 cas où A>B et (a+b)/2 cas 67 où A<B AJ Valleron, 2013 67

5- d où le test : comparer les effectifs observés {a,b} aux effectifs attendus sous H0 {(a+b)/2, (a+b)/2} test du chi-deux à 2-1 = 1 ddl 6- chi deux = (o i c i ) 2 = c i (a a + b 2 )2 ( a + b + 2 ) 7- on rejette H0 si chi-deux > 3,84 (puis on calcule le degré de signification): on dit les traitements diffèrent (p= xxx). Condition de validité : c 5) (b a + b 2 )2 ( a + b = 2 ) (a b) 2 (a + b) 68 AJ Valleron, 2013 68

Test de Mac Nemar On veut comparer la satisfaction des patients après 2 somnifères A et B. 40 patients ont utilisé ces 2 somnifères a = 4 satisfaits par A et mécontents de B b = 8 satisfaits par B et mécontents de B c = 18 satisfaits par A et B d = 10 mécontents de A et B. Est ce que l on peut considérer qu il ya plus de patients satisfaits par un somnifère que par 69 l autre? AJ Valleron, 2013 69

Résolution du problème précédent L effectif théorique est (4 + 8)/2= 6 ( 5) La valeur du chi-deux est 1,3 (<3,84) On ne peut dire avec cette observation qu il ya plus de satisfaits par A que par B. NB: formulation prudente: le teste manque peut être de puissance on aurait peut être vu une différence si on avait étudié 200 sujets. 70 AJ Valleron, 2013 70

Application du test du chi deux à la comparaison de survies 71 AJ Valleron, 2013 71

Le Chi-deux dans le test du Logrank de comparaison de survies Vocabulaire des études de survie : début de l étude date de point recrutement recul perdu de vue 72 AJ Valleron, 2013 72

N d' entrée du âge date de malade dans sexe diagnostic l' étude événements survenus avant la date de point 01 60, M 07/01/94 DCD, HC, 09/07/95. 05 58, M 12/01/94 Tjrs en vie 06 65, F 12/01/94 PV, 15/01/95 07 66, F 13/01/94 DCD, Acct, 21/07/94 08 84, F 13/01/94 DCD, HC, 15/08/95 09 70, M 14/01/94 DCD, HC, 15/08/95 10 61, M 14/01/94 DCD, CV, 10/12/95 11 68, F 15/01/94 Toujours en vie.. 151 75, M 03/02/95 DCD, HC, 19/12/95 152 71, M 03/02/95 Tjrs en vie 153 82, F 05/02/95 Tjrs en vie 154 69, M 06/02/95 PV, 17/08/95.. 286 60, M 02/11/95 Tjrs en vie 287 54, M 03/11/95 Tjrs en vie (1-01-96) 73 AJ Valleron, 2013 73

? DCD? DCD t n-1 t n - le temps 0 est celui de l entrée du sujet dans l étude - 7 sont en vie au début de l année n-1 de leur suivi - 3 sujets sont censurés à l année n - Sujet 3 car recul insuffisant (il n atteint pas l année n) - Sujets 5 et 7 car perdus de vue. Définition : on dit d un sujet qu il est censuré à un instant T si on ne connaît pas son histoire au delà de l instant T. 74 AJ Valleron, 2013 74

Survie actuarielle +++ ( application directe des probabilités conditionnelles) S 1 :probabilité de survivre 1 an S 2/1 :probabilité de survivre 2 ans chez les malades ayant survécu 1 an S 3/2 :probabilité de survivre 3 ans chez les malades ayant survécu 2 ans S 4/3 :probabilité de survivre 4 ans chez les malades ayant survécu 3 ans S 4 = S 1 S 2/1 S 3/2 S 4/3 75 AJ Valleron, 2013 75

«censure» Définition : tout phénomène qui interdit à l instant t de connaître la date de l événement auquel on s intéresse. Exemples: Ce malade est en vie, 34 mois après son traitement : sa date de décés est censurée Ce malade a eu un accident de la route: on ne saura pas quand il serait mort de sa maladie Ce malade a changé d adresse. On ne sait pas s il est toujours vivant Ces sujets sont «censurés» AJ Valleron, 2013 76

NB : par exception les lettres capitales X, D, C désignent ici des effectifs, non des v.a. Ne pas mémoriser : mais comprendre le raisonnement.. X n-1 est le nombre de sujets à risque au début de l année n D n est le nombre de sujets DCD pendant l année n. C n est le nombre de sujets censurés pendant l année n. On suppose qu ils s étalent au cours de l année Donc, ils sont à risque de DC en moyenne une demi-année. S n/ n 1 = 1 X n 1 D n C n 2 AJ Valleron, 2013 77

Formules de la survie actuarielle ( ne pas mémoriser) S n = (1 D 1 X 0 C 1 2 ) (1 D 2 X 1 C 2 2 )... (1 D n X n 1 C n 2 ) # ' % 2 D Var (S n ) = S 1 D n (X 0 C 1 ) (X 2 0 C +...+ n % $ 1 D 2 1 ) (X n 1 C n ) (X 2 0 C ( % n D 2 n )% & ) 78 AJ Valleron, 2013 78

Test du Logrank ( comment comparer des courbes de survie?) n X n A D n A X n B D n B 1 100 10 200 30 2 90 10 170 40 3 80 20 130 70 4 60 30 60 40 5 30 20 20 10 Total D A = 90 D B = 190 79 AJ Valleron, 2013 79

80 AJ Valleron, 2013 80

test du Log Rank l'année n, X n,a malades à risque dans le groupe (A) X n,b malades à risque dans le groupe (B). On a observé au total D n décès dans l'année. Sous l'hypothèse nulle, on "attend" C n,a = D n X n,a / (X n,a + X n,b ) 81 AJ Valleron, 2013 81

test du Log Rank (1) On montre que, sous l'hypothèse nulle, la quantité ( D A C A ) 2 C A + D B C B ( ) 2 C B suit un χ2 à 1 d.d.l. Ce test permet de rejeter l'hypothèse d'égalité de survie quand χ 2 >3,84 82 AJ Valleron, 2013 82

n A A B B X n D n X n D n X n D n C n A 1 100 10 200 30 300 40 13, 3 26, 7 2 90 10 170 40 260 50 17, 3 32, 7 3 80 20 130 70 210 90 34, 3 55, 7 4 60 30 60 40 120 70 35, 0 35, 0 5 30 20 20 10 50 30 18, 0 13, 0 Total D A = 90 D B = 190 117, 9 162, 1 C n B AJ Valleron, 2013 83

Calcul 2 χ 2 (190 162,1) 2 (90 117,9) = + = 6, 6 + 4,8 = 11, 4 3,84 117,9 162,1 11,4 > 10,83 (valeur qu un Chi-deux à 1ddl a 1 chance sur 1000 de dépasser). Conclusion : les deux courbes de survie différent (p=0,001) 84 AJ Valleron, 2013 84

Revision QCM 1 Une maladie rare (L) est responsable d environ 1 pour 10 000 décès dans la population générale. On étudie tous les décès d une région française, pendant 10 ans consécutifs, soit 360 000 décès. A- la loi de probabilité du nombre de décès par (L) dans un échantillon de 360 000 décès est la loi binômiale de paramètre 1/10 000. B- Comme la fréquence des décès par (L) est très faible (1/10 000), on peut approximer la loi de probabilité du nombre de décès par (L) par la loi de Poisson. C- Si on approxime la loi de probabilité du nombre de décès par (L) dans un échantillon de 360 000 décès par la loi de Poisson, le paramètre de cette loi de Poisson sera 36. D- La fonction de répartition de la loi de Poisson est proche de celle de la loi normale de même moyenne et variance que son paramètre, quand celui-ci est supérieur à5. E- La fonction de répartition de la loi de Poisson est proche de celle de la loi normale de même moyenne et variance que son parmètre, quand celui-ci est supérieur à30. AJ Valleron, 2013 85

Revision QCM 1 Une maladie rare (L) est responsable d environ 1 pour 10 000 décès dans la population générale. On étudie tous les décès d une région française, pendant 10 ans consécutifs, soit 360 000 décès. A- la loi de probabilité du nombre de décès par (L) dans un échantillon de 360 000 décès est la loi binômiale de paramètre 1/10 000. B- Comme la fréquence des décès par (L) est très faible (1/10 000), on peut approximer la loi de probabilité du nombre de décès par (L) par la loi de Poisson. C- Si on approxime la loi de probabilité du nombre de décès par (L) dans un échantillon de 360 000 décès par la loi de Poisson, le paramètre de cette loi de Poisson sera 36. D- La fonction de répartition de la loi de Poisson est proche de celle de la loi normale de même moyenne et variance que son paramètre, quand celui-ci est supérieur à5. E- La fonction de répartition de la loi de Poisson est proche de celle de la loi normale de même moyenne et variance que son parmètre, quand celui-ci est supérieur à30. A B C E AJ Valleron, 2013 86

Revision QCM 2 A- en utilisant l approximation poissonienne, on trouve que la probabilité d observer 0 décès par (L) parmi les 360 000 décès totaux de la région est de e -36. B- La probabilité d observer plus de 36 décès par (L) parmi les 360 000 décès totaux de la région est de 50%. C- L écart-type de la variable de Poisson approximant le nombre de décès par (L) attendus sur 360 000 est de 6. D- le nombre attendu de décès par (L) parmi les 360 000 décès totaux de la région est compris entre 24 et 48 ( pour p=5%). E- le nombre attendu de décès par (L) est compris entre 30 et 46 ( pour p=5%). AJ Valleron, 2013 87

Revision QCM 2 A- en utilisant l approximation poissonienne, on trouve que la probabilité d observer 0 décès par (L) parmi les 360 000 décès totaux de la région est de e -36. B- La probabilité d observer plus de 36 décès par (L) parmi les 360 000 décès totaux de la région est de 50%. C- L écart-type de la variable de Poisson approximant le nombre de décès par (L) attendus sur 360 000 est de 6. D- le nombre attendu de décès par (L) parmi les 360 000 décès totaux de la région est compris entre 24 et 48 ( pour p=5%). E- le nombre attendu de décès par (L) est compris entre 30 et 46 ( pour p=5%). A B C D AJ Valleron, 2013 88

Revision QCM 3 La région considérée comporte des sites industriels dont on craint qu ils augmentent le risque de mort par la maladie (L). Si on suppose que les déchets industriels présents sur ces sites multiplient par deux le risque de mort, en notant n le nombre de morts observés dans cette région sur 10 ans dans les 360 000 morts, A- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 36. B- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 40. C- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 45 D- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 48. E- Pour que le degré de signification soit de 1%, il faut observer au moins 50 décès par (L). AJ Valleron, 2013 89

Revision QCM 3 La région considérée comporte des sites industriels dont on craint qu ils augmentent le risque de mort par la maladie (L). Si on suppose que les déchets industriels présents sur ces sites multiplient par deux le risque de mort, en notant n le nombre de morts observés dans cette région sur 10 ans dans les 360 000 morts, A- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 36. B- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 40. C- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 45 D- la démarche statistique habituelle ( test bilatéral) mènera à déclarer que le risque est supérieur à la moyenne nationale si n > 48. E- Pour que le degré de signification soit de 1%, il faut observer au moins 50 décès par (L). D AJ Valleron, 2013 90

On reprend les données montrées à propos du test de Mac Nemar On veut comparer la satisfaction des patients après 2 somnifères A et B. 40 patients ont utilisé ces 2 somnifères a = 4 satisfaits par A et mécontents de B b = 8 satisfaits par B et mécontents de B c = 18 satisfaits par A et B d = 10 mécontents de A et B. Est ce que l on peut considérer qu il ya plus de patients satisfaits par un somnifère que par 91 l autre? AJ Valleron, 2013 91

Question Peut-on, avec ces données, tester si un sujet satisfait avec le somnifère A a plus de cahnce qu un autre d être satisfait avec B? 92 AJ Valleron, 2013 92

Réponse Oui On a un tableau de contingence 2 x 2 OBSERVES satisfait par A mécontent de A satisfait par 8 B 18 26 mécontent de B 4 10 14 22 18 40 CALCULES SS H0 satisfait par A mécontent de A satisfait par B 14,3 11,7 26 mécontent de B 7,7 6,3 14 22 18 40 χ 2 = ( 3,72 14,3 + 3,72 7,7 + 3,72 11,7 + 3,72 6,3 ) = 6,1 χ 2 > 3,84 on rejette H0 La satisfaction vis à vis de A est prédictive de la satisfaction par B 93 AJ Valleron, 2013 93

94 AJ Valleron, 2013 94

95 AJ Valleron, 2013 95