Principaux tests statistiques pour échantillons de petites tailles
|
|
|
- Alain Lefebvre
- il y a 8 ans
- Total affichages :
Transcription
1 + de Principaux tests statistiques pour échantillons de petites tailles Etienne Dantan Master 2 BBRT, DCPS et SANH 18 Octobre / 193
2 Plan + de de de + de de 3. de de 4. Coefficient de corrélation / 193
3 Plan + de de de + de de 3. de de 4. Coefficient de corrélation / 193
4 Contexte + de On considère deux populations P A et P B (ou plus) desquelles sont extraits deux échantillons de tailles n A et n B. A partir de ces observations, on cherche à savoir si les caractéristiques des deux populations peuvent être considérées comme égales, ou bien si elles semblent être différentes. 4 / 193
5 Les acquis (1) + de 2 types de variables aléatoires 1- v.a. quantitatives : v.a. discontinues ou discrètes x i : nombre fini (ex. : lancé de dé) ou nombre infini dénombrable (ex. : nombre de petits par portée pour une espèce animale donnée, nombre de mutations dans une séquence ADN, etc.) v.a. continues x i : nombre infini non dénombrable (ex. : taille ou âge d un individu tiré au hasard) 5 / 193
6 Les acquis (2) + de 2- v.a. qualitatives : v.a. ordinales x i : valeurs non numériques pouvant être ordonnées (ex. : intensité d une douleur (faible=1, moyenne=2 ou forte=3)) v.a. catégorielles ou nominales x i : valeurs non numériques ne pouvant pas être ordonnées (ex. : malade=1 ou non malade=0, fumeurs=1 ou non fumeurs=0) en fonction de la question d intérêt : étude quantitative ou fréquentielle 6 / 193
7 Exemple - de 2 fréquences + de Echantillon A Caractéristiques de l échantillon A Taille Echantillon B Taille Statistique descriptive Caractéristiques de l échantillon B 7 / 193
8 Exemple - de 2 fréquences Population Echantillon A Caractéristiques de l échantillon A + de Population Tirage aléatoire Taille Echantillon B Statistique descriptive Caractéristiques de l échantillon B Taille : = = 8 / 193
9 Exemple - de 2 fréquences + de rejet de H 0 : la différence entre π A et π B n est pas due au hasard, i.e. échantillons A et B semblent représentatifs de 2 populations distinctes non rejet de H 0 : la différence entre π A et π B semble due aux fluctuations d échantillonnage, i.e. nous n avons pas pu mettre en évidence de différence significative attention : il existe toujours une probabilité de se tromper α : probabilité de se tromper en rejetant H 0 β : probabilité de se tromper en ne rejetant pas H 0, i.e. en rejetant H 1 9 / 193
10 Exemple - de 2 fréquences Rejet de H 0 au risque de 1 ère espèce α + de Population Echantillon A Taille Caractéristiques de l échantillon A Population Tirage aléatoire Echantillon B Statistique descriptive Caractéristiques de l échantillon B Taille 10 / 193
11 Exemple - de 2 fréquences Non rejet de H 0 au risque de 1 ère espèce α + de Population Echantillon A Taille Caractéristiques de l échantillon A Population où = = Population Tirage aléatoire Echantillon B Statistique descriptive Caractéristiques de l échantillon B Taille 11 / 193
12 Les cas de figure (1) + de 1 Variable quantitative continue à expliquer en fonction d une autre variable qualitative explicative à deux modalités comparaison de deux moyennes Test de Student de comparaison de deux moyennes issues de 2 populations indépendantes représentées par 2 grands échantillons (test paramétrique : approximation normale) Test de Mann-Whitney de comparaison de 2 distributions de 2 v.a. issues de 2 populations indépendantes représentées par 2 petits échantillons (test non-paramétrique) 12 / 193
13 Les cas de figure (2) + de 1 Variable quantitative continue à expliquer en fonction d une autre variable qualitative explicative à + de 2 modalités comparaison de + de 2 moyennes ANOVA à partir de + de 2 populations indépendantes représentées par des grands échantillons Test de Kruskal-Wallis de comparaison de + de 2 distributions de v.a. issues de + de 2 populations indépendantes représentées par des petits échantillons (test non-paramétrique) 13 / 193
14 Les cas de figure (3) + de 1 Variable quantitative continue à expliquer en fonction d une autre variable qualitative explicative à deux modalités comparaison de deux moyennes Test de Student de comparaison d une différence à 0 pour 2 populations appariées représentées par 2 grands échantillons (test paramétrique) Test de Wilcoxon de comparaison de 2 distributions de 2 v.a. issues de 2 populations appariées représentées par 2 petits échantillons (test non-paramétrique) 14 / 193
15 Les cas de figure (4) + de 1 Variable qualitative à expliquer en fonction d une autre variable qualitative explicative à deux modalités comparaison de deux pourcentages Test de comparaison de deux fréquences issues de 2 populations indépendantes représentées par 2 grands échantillons (test paramétrique : approximation normale) Test exact de Fisher de comparaison de deux fréquences issues de 2 populations indépendantes représentées par 2 petits échantillons (test non-paramétrique) 15 / 193
16 Les cas de figure (5) + de 1 Variable qualitative à expliquer en fonction d une autre variable qualitative explicative à deux modalités comparaison de deux pourcentages Test de Mc Nemar de comparaison de deux fréquences issues de 2 populations appariées représentées par 2 grands échantillons (test paramétrique) Test de Mc Nemar de comparaison de deux fréquences issues de 2 populations appariées représentées par 2 petits échantillons (calcul exact proba critique basé sur la loi binomiale) 16 / 193
17 Les cas de figure (6) + de 1 Variable quantitative à expliquer en fonction d une autre variable quantitative explicative Coefficient de corrélation 17 / 193
18 Construction d un test + de 6 étapes 1 Définition des hypothèses nulle H 0 et alternative H 1 2 Choix du test, écriture de la statistique de test et de sa loi sous H 0 3 Choix du niveau de signification α, Définition de la région critique (RC) 4 Calcul de la statistique de test 5 statistique : rejet ou non de H 0 6 épidémiologique 18 / 193
19 Plan + de de de + de de 3. de de 4. Coefficient de corrélation / 193
20 Plan + de de de + de de 3. de de 4. Coefficient de corrélation / 193
21 de 2 moyennes Principe On observe A et B (i.e. individus dans les 2 groupes) + de Echantillon A Caractéristiques de l échantillon A Taille Echantillon B Taille Statistique descriptive, Caractéristiques de l échantillon B, 21 / 193
22 de 2 moyennes Raisonnement par l absurde : + de Population Echantillon A Caractéristiques de l échantillon A Population Tirage aléatoire Taille Echantillon B Taille Statistique descriptive, Caractéristiques de l échantillon B, H 0 : =? 22 / 193
23 de 2 moyennes Si rejet de H 0, alors les semblent issus de 2 populations distinctes : + de Population Echantillon A Caractéristiques de l échantillon A Population Tirage aléatoire Taille Echantillon B Taille Statistique descriptive, Caractéristiques de l échantillon B, 23 / 193
24 de 2 moyennes Si non rejet de H 0, alors les semblent issus d une seule et même population : + de Population Echantillon A Caractéristiques de l échantillon A Population où = = Population Tirage aléatoire Taille Echantillon B Taille Statistique descriptive, Caractéristiques de l échantillon B, 24 / 193
25 de 2 moyennes + de Contexte Définition des variables aléatoires : - X A : v.a. continue dans la population P A de moyenne µ A. On observe un échantillon de taille n A {x A,1, x A,2,..., x A,nA }. - X B : v.a. continue dans la population P B de moyenne µ B. On observe un échantillon de taille n B {x B,1, x B,2,..., x B,nB }. Test usuel : 25 / 193
26 de 2 moyennes + de Contexte Définition des variables aléatoires : - X A : v.a. continue dans la population P A de moyenne µ A. On observe un échantillon de taille n A {x A,1, x A,2,..., x A,nA }. - X B : v.a. continue dans la population P B de moyenne µ B. On observe un échantillon de taille n B {x B,1, x B,2,..., x B,nB }. Test usuel : Test paramétrique de STUDENT 25 / 193
27 Limites + de Test nécessitant des effectifs de grandes tailles (n 30) car théorème central limite valide Test de Student avec des petits échantillons existe, MAIS hypothèses à vérifier : - les 2 variables distribuées selon une loi normale - les variances des 2 variables égales en générale Manque de puissance pour montrer les 2 propositions précédentes Solution : 26 / 193
28 Limites + de Test nécessitant des effectifs de grandes tailles (n 30) car théorème central limite valide Test de Student avec des petits échantillons existe, MAIS hypothèses à vérifier : - les 2 variables distribuées selon une loi normale - les variances des 2 variables égales en générale Manque de puissance pour montrer les 2 propositions précédentes Solution : TEST NON PARAMETRIQUE 26 / 193
29 Principes des tests non paramétriques + de Aucune hypothèse sur la distribution des v.a. Tests souvent basés sur la notion de rangs si les distributions entre groupes sont, les rangs sont Exemple : - Groupe A (n=3) : 1, 5, 3 - Groupe B (n=3) : 7, 6, 10 Rangs : - Groupe A (n=3) : 1, 3, 2 - Groupe B (n=3) : 5, 4, 6 Sommes des rangs : - Groupe A (n=3) : 6 - Groupe B (n=3) : / 193
30 Principes des tests non paramétriques + de Tests paramétriques : exigent une spécification de la forme de la distribution Tests non paramétriques : pas de référence à une répartition particulière peuvent s appliquer à des petits échantillons Avantages/Inconvénients : tests non paramétriques théoriquement moins puissants que tests paramétriques études ont montré : exactitude des tests non paramétriques sur des grands échantillons n est que légèrement inférieure à celle des tests paramétriques tests non paramétriques sont bcp plus exacts sur des petits échantillons 28 / 193
31 de 2 moyennes : Test non paramétrique de Mann-Whitney permet de comparer la distribution de 2 v.a. observées à partir de (A et B) + de Définition des v.a. : - X A : v.a. continue dans le groupe A de taille n A - X B : v.a. continue dans le groupe B de taille n B Par convention, on définit le groupe comme le plus petit échantillon (n A n B ) 29 / 193
32 de 2 moyennes : Test non paramétrique de Mann-Whitney + de Choix des hypothèses - H 0 : X A et X B ont la même distribution - H 1 : X A et X B n ont pas la même distribution Somme des rangs - R A : somme des rangs occupés par les valeurs observées de X A - R B : somme des rangs occupés par les valeurs observées de X B Si des ex-aequos entre des valeurs, on affecte la moyenne des rangs (si les ex-aequos sont du même groupe, rien ne change) 30 / 193
33 de 2 moyennes : Test non paramétrique de Mann-Whitney Statistique de test : + de M = min(m A, M B ) avec M A = n A n B + n A (n A + 1)/2 R A et M B = n A n B U A = n A n B + n B (n B + 1)/2 R B Choix du seuil α (5%) et définition de la région critique : 2 cas de figure - n A 10 - n A > / 193
34 de 2 moyennes : Test non paramétrique de Mann-Whitney Si n > 10, alors sous H 0 : M N (n A n B /2, n A n B (n A + n B + 1)/12) + de U = M n A n B /2 N (0, 1) na n B (n A + n B + 1)/12 test bilatéral, loi normale RC (2,5%) RC (2,5%) -u(α/2)=-1,96 u(α/2)=1,96 32 / 193
35 de 2 moyennes : Test non paramétrique de Mann-Whitney Si n 10, alors : + de RC (5%) m(na,nb,α) Lecture dans la table de la valeur critique m(n A ; n B, α) 33 / 193
36 de 2 moyennes : Test non paramétrique de Mann-Whitney Critical Values of the Mann-Whitney U (Two-Tailed Testing) + de n n1 α / 193
37 de 2 moyennes : Test non paramétrique de Mann-Whitney + de Si u RC p < α : - Rejet de H 0 car moins de 5% de chances qu elle soit vraie - Il semble que les 2 distributions soient différentes Si u / RC p > α : - Non rejet de H 0 car plus de 5% de chances qu elle soit vraie - On ne peut pas montrer que les 2 distributions soient différentes 35 / 193
38 de 2 moyennes : Test non paramétrique de Mann-Whitney Remarques de vocabulaire : + de - Ce test est aussi appelé Mann-Withney/Wilcoxon - On peut aussi voir test de Wilcoxon pour échantillons - A éviter mais rencontré dans la littérature : non-parametric t-test Problèmes des faibles effectifs : - Du point de vue statistique : Test possible à partir de 3 sujets par groupe - Du point de vue méthodologique : Résultats très peu robustes : un sujet supplémentaire peut tout changer Résultats très peu puissants : attention à l interprétation du non-rejet de H 0 36 / 193
39 de 2 moyennes : Exemple + de Des biologistes s intéressent à l effet d un nouveau médicament en phase pré-clinique. Ils testent sur 5 souris le médicament de référence (médicament A) et sur 8 autres souris la nouvelle molécule (médicament B). 13 prélèvements sanguins sont réalisés. Les concentrations (en micro/l) obtenues sont présentées dans le tableau suivant : Concentration Médicament A Médicament B X A : concentration du médicament A dans le sang X B : concentration du médicament B dans le sang 37 / 193
40 de 2 moyennes : Exemple + de On cherche à répondre à la question suivante : Les concentrations de médicament B dans le sang sont-elles significativement différentes de celles du médicament A? (risque d erreur de 1ère espèce fixé à 5%)? Quel test statistique doit-on réaliser? 38 / 193
41 de 2 moyennes : Exemple + de On cherche à répondre à la question suivante : Les concentrations de médicament B dans le sang sont-elles significativement différentes de celles du médicament A? (risque d erreur de 1ère espèce fixé à 5%)? Quel test statistique doit-on réaliser? Test de Mann-Whitney pour échantillons Conditions échantillons de petites tailles (n < 30) Test d une test bilatéral 38 / 193
42 de 2 moyennes : Exemple + de Quelle est l hypothèse nulle H 0 de ce test? Quelle est l hypothèse alternative H 1 de ce test? 39 / 193
43 de 2 moyennes : Exemple + de Quelle est l hypothèse nulle H 0 de ce test? Quelle est l hypothèse alternative H 1 de ce test? H 0 : les distributions des concentrations dans le sang des médicaments A et B sont identiques, autrement dit X A et X B ont la même distribution H 1 : les distributions issues des 2 concentrations des 2 médicaments ne sont pas identiques, c est-à-dire que X A et X B n ont pas la même distribution 39 / 193
44 de 2 moyennes : Exemple + de Remarque : on exclue les valeurs nulles Rang Médicament A Médicament B Somme des rangs R A = 31 Somme des rangs R B = 60 Statistique de test M = min( /2 31, /2 12) = min(24, 16) = / 193
45 de 2 moyennes : Exemple + de n A = 5 < 10 on lit dans la table la valeur critique définissant la région critique. Au seuil α = 0.05, pour n A = 5 et n B = 8, on a pour valeur critique la valeur 6 M / à la région critique Non Rejet H 0 au risque 5% de se tromper Nous n avons pas pu mettre en évidence une différence significative entre les distributions des concentrations de médicaments A et B. 41 / 193
46 + de 42 / 193
47 de 2 moyennes : Exemple sous Rcmdr + de 43 / 193
48 de 2 moyennes : Exemple sous Rcmdr + de 44 / 193
49 de 2 moyennes : Exemple sous Rcmdr + de 45 / 193
50 de 2 moyennes : Exemple sous Rcmdr + de 46 / 193
51 de 2 moyennes : Exemple sous Rcmdr + de 47 / 193
52 Plan + de de de + de de 3. de de 4. Coefficient de corrélation / 193
53 ANOVA à 1 facteur (1) + de de 2 moyennes pour échantillons Test de Student, tests non paramétrique de k moyennes (2 ou plus) simultanément pour échantillons Analyse de la Variance (ANOVA) 49 / 193
54 ANOVA à 1 facteur (2) + de Généralisation du test de Student Tester avec un seul test paramétrique si toutes les moyennes sont issues de la même population H 0 : les échantillons (groupes) proviennent de la même population Variabilité de l ensemble uniquement conditionnée par les fluctuations d échantillonnage H 0 : µ 1 = µ 2 =... = µ k H 1 : au moins 2 moyennes diffèrent entre elles 50 / 193
55 ANOVA à 1 facteur (3) Objectif de l ANOVA + de - Décomposer la variabilité totale des données quantitatives (disposée en k groupes) Différentes sources de variabilité : fluctuations individuelles (variabilité intra-groupe) fluctuations entre les groupes (variabilité inter-groupe) Idée générale Si variabilité inter-groupe > variabilité intra-groupe 2 moyennes au moins de variances 51 / 193
56 ANOVA à 1 facteur (4) Données observées : + de Facteur Groupe 1 Groupe 2... Groupe k Effectif n 1 n 2... n k Mesure x 11 x x 1k Mesure x 21 x x 2k Mesure Mesure x n1 1 x n x nk k Moyennes x 1 x 2... x k 52 / 193
57 ANOVA à 1 facteur (5) + de Limites - Conditions de validité de l ANOVA critère d intérêt (variable dépendante) quantitative indépendance des observations normalité du critère dans chaque groupe homoscédasticité : homogénéité des variances 53 / 193
58 ANOVA à 1 facteur (6) + de Si conditions non vérifiées - ANOVA robuste à une certaine hétéroscédasticité (variance homogène) - ANOVA robuste face à une certaine asymétrie ou applatissement des distributions Mais en cas de non respect majeur de la normalité Transformation des données : log(x ij ), x ij, 1 x ij,... ANOVA non paramétrique : test de Kruskall-Wallis Mais en cas de non indépendance des résidus changer de modèle 54 / 193
59 Principe (1) + de de K populations (2 ou plus) simultanément pour échantillons Les fonctions de répartition F k (X) sont-elles toutes identiques? - H 0 : F 1 (X) =... = F k (X) =... = F K (X) - H 1 : au moins 1 distribution est différente des autres 55 / 193
60 Principe (2) + de Généralisation à K populations du test de la somme des rangs de Wilcoxon-Mann-Withney bilatéral Alternative non paramétrique à l ANOVA quand v.a. non gaussienne Statistique de test de Kruskal-Wallis : H = 12 n(n + 1) K n k ( r k r) 2 k=1 r : moyenne globale des rangs r k : moyenne des rangs pour le groupe k 56 / 193
61 Principe (3) + de Expression d une variabilité inter-classe dispersion des moyennes conditionnelles autour de la moyenne globale H 0 si H 0 vérifiée, moyennes conditionnelles des rangs proches de la moyenne globale H proche de 0 si H 1 vérifiée, H s écarte de 0 57 / 193
62 Principe (4) + de si effectifs élevés (n k 5, k), alors sous H 0, H χ 2 K 1ddl Région critique : H χ 2 K 1ddl Traitement des ex-aequo H = 1 H G g=1 (t3 g t g) n 3 n G : nombre de valeurs distinctes (G n) t g : nombre de valeurs pour la valeur n g 58 / 193
63 Exemple (1) + de On souhaite comparer trois médicaments (A, B et C) contre les maux de têtes. La molécule C est aujourd hui la référence sur le marché. 15 patients venants aux urgences pour des migraines sont traités par une des 3 molécules. Sur une échelle de 0 à 20, on demande aux patients d évaluer leur douleur après que le médicament soit administré. 59 / 193
64 Exemple (2) Les résultats ont été rassemblés dans le tableau ci-dessous. + de Molécule A Molécule B Molécule C Existe-t-il une différence d efficacité entre les 3 molécules? 60 / 193
65 Exemple (3) + de H 0 : Il n y a pas de différence entre les distributions de scores de douleur des 3 groupes. H 0 : F A = F B = F C H 1 : Il y a au moins un score dans l un des groupes dont la distribution diffère de celle des 2 autres. 61 / 193
66 + de 62 / 193
67 Exemple (1) sous Rcmdr + de 63 / 193
68 Exemple (2) sous Rcmdr + de 64 / 193
69 Exemple (3) sous Rcmdr + de H = 9.39 > 5.99 = χ 2 2 ddl (p c < 0.05) Rejet de H 0 Au seuil α = 0.05, il semble qu il y ait au moins deux molécules entrainant un score moyen de douleur qui soit différent. 65 / 193
70 Plan + de de de + de de 3. de de 4. Coefficient de corrélation / 193
71 de 2 moyennes pour données appariées + de L échantillon A n est pas indépendant de l échantillon B Echantillons dépendants (ou, ou liés) observations obtenues chez les mêmes individus patient est son propre témoin ex : Etude avant/après (douleur avant et après la prise d un antalgique) ex : Etude Cas/Témoin (deux pommades sur une même peau) observations obtenues chez des individus présentant des caractéristiques similaires ex : Etude Cas/Témoin (appariement sur les facteurs de risque) ex : Etude en cluster (deux souris d une même litière, deux jumeaux, etc.) 67 / 193
72 de 2 moyennes pour données appariées + de Intérêt de l appariement contrôler la variabilité inter-individuelle variabilité inter-individuelle variabilité totale (σ ) augmenter la puissance statistique dans la comparaison Test statistique approprié qui tient compte de l appariement des observations 68 / 193
73 de 2 moyennes pour données appariées + de Contexte On observe dépendants A et B de même taille n = n A = n B On définit le couple (X A, X B ) pour chaque sujet/paire Définition de la variable aléatoire D = X A X B : v.a. continue de moyenne µ D. On observe un échantillon de taille n {d 1, d 2,..., d n }. Remarque : cf. les tests de comparaison d une moyenne observée à une valeur de référence. Test usuel : 69 / 193
74 de 2 moyennes pour données appariées + de Contexte On observe dépendants A et B de même taille n = n A = n B On définit le couple (X A, X B ) pour chaque sujet/paire Définition de la variable aléatoire D = X A X B : v.a. continue de moyenne µ D. On observe un échantillon de taille n {d 1, d 2,..., d n }. Remarque : cf. les tests de comparaison d une moyenne observée à une valeur de référence. Test usuel : Test paramétrique de STUDENT 69 / 193
75 Limites + de Test nécessitant des effectifs de grandes tailles (n 30) car théorème central limite valide Solution : 70 / 193
76 Limites + de Test nécessitant des effectifs de grandes tailles (n 30) car théorème central limite valide Solution : TEST NON PARAMETRIQUE 70 / 193
77 de 2 moyennes Test de Wilcoxon pour données appariées + de Permet de comparer la distribution de 2 v.a. observées à partir de (A et B) Définition des v.a. (n sujets par groupe) - (X A, X B ) : v.a. observées pour chaque paire - X = X A X B : différence pour chaque paire Choix des hypothèses - H 0 : X A et X B ont la même distribution - H 1 : X A et X B n ont pas la même distribution 71 / 193
78 de 2 moyennes Test de Wilcoxon pour données appariées + de Principe des rangs : classement des valeurs absolues X en excluant les valeurs nulles et en notant le signe de la différence Soit k le nombre de différence non nulles Somme des rangs - R( ) : somme des rangs occupés par les différences négatives - R(+) : somme des rangs occupés par les différences positives si des ex-aequo entre des valeurs, on affecte la moyenne des rangs 72 / 193
79 de 2 moyennes Test de Wilcoxon pour données appariées Statistique de test : + de W = min(r(+), R( )) Choix du seuil α (5%) et définition de la région critique Si n > 20, alors sous H 0 : W N (n(n + 1)/4, n(n + 1)(2n + 1)/24) U = test bilatéral, loi normale W n(n + 1)/4 n(n + 1)(2n + 1)/24 N (0, 1) RC (2,5%) RC (2,5%) -u(α/2)=-1,96 u(α/2)=1,96 73 / 193
80 de 2 moyennes Test de Wilcoxon pour données appariées + de Si n 20, lecture dans la table : RC (5%) w(n,α) 74 / 193
81 de 2 moyennes Test de Wilcoxon pour données appariées + de Critical Values of the Wilcoxon Signed Ranks Test n Two-Tailed Test One-Tailed Test α =.05 α =.01 α =.05 α = / 193
82 de 2 moyennes Test de Wilcoxon pour données appariées + de Si u RC p < α : - Rejet de H 0 car moins de 5% de chances qu elle soit vraie - Il semble que les 2 distributions soient différentes Si u / RC p > α : - Non rejet de H 0 car plus de 5% de chances qu elle soit vraie - On ne peut pas montrer que les 2 distributions soient différentes 76 / 193
83 de 2 moyennes Exemple pour données appariées + de Des chimistes ont mis au point une nouvelle méthode de mesure de concentration d un toxique dans le sang. A partir de 12 prélèvements sanguins divisés en deux tubes, la nouvelle méthode (A) est comparée avec la méthode existante (B). Les concentrations obtenues sont présentées dans le tableau suivant : Numéro tube Méthode A Méthode B X A et X B : concentrations de toxiques sur les 12 prélèvements obtenus respectivement à l aide des méthodes A et B X = X A X B : différence de chacune des paires. 77 / 193
84 de 2 moyennes Exemple pour données appariées + de On cherche à répondre à la question suivante : Les concentrations de toxique obtenues avec la nouvelle méthode sont telles significativement différente de celles obtenues avec la méthode de référence? (risque d erreur de 1ère espèce fixé à 5%)? Quel test statistique doit-on réaliser? 78 / 193
85 de 2 moyennes Exemple pour données appariées + de On cherche à répondre à la question suivante : Les concentrations de toxique obtenues avec la nouvelle méthode sont telles significativement différente de celles obtenues avec la méthode de référence? (risque d erreur de 1ère espèce fixé à 5%)? Quel test statistique doit-on réaliser? Test de Wilcoxon pour données appariées Conditions échantillons de petites tailles (n < 30) Test d une test bilatéral 78 / 193
86 de 2 moyennes Exemple pour données appariées + de Quelle est l hypothèse nulle H 0 de ce test? Quelle est l hypothèse alternative H 1 de ce test? 79 / 193
87 de 2 moyennes Exemple pour données appariées + de Quelle est l hypothèse nulle H 0 de ce test? Quelle est l hypothèse alternative H 1 de ce test? H 0 : les distributions issues des 2 méthodes de prélèvements sont identiques, autrement dit X A et X B ont la même distribution H 1 : les distributions issues des 2 méthodes de prélèvements ne sont pas identiques, c est-à-dire que X A et X B n ont pas la même distribution 79 / 193
88 de 2 moyennes Exemple pour données appariées + de On travaille sur les valeurs absolues des rangs Remarque : on exclue les valeurs nulles Numéro tube δ Méthode A - Méthode B Rang Rang négatif Rang positif / 193
89 de 2 moyennes Exemple pour données appariées + de La statistique de test est définie de la manière suivante : W = min(r( ), R(+)) R( ) : des rangs occupées par les différences négatives R(+) : des rangs occupées par les différences positives En pratique, on a donc : R = = 8 R + = = 70 W = 8 81 / 193
90 de 2 moyennes Exemple pour données appariées + de n = 12 < 20 on lit dans la table la valeur critique définissant la région critique. Au seuil α = 0.05, pour n = 12, on a pour valeur critique la valeur 13 (pour un test bilatéral) W à la région critique Rejet H 0 au risque 5% de se tromper Il semble donc y avoir une différence significative entre les distributions des concentrations de toxiques issues de la méthode A et de la méthode B. 82 / 193
91 + de 83 / 193
92 de 2 moyennes Exemple pour données appariées sous Rcmdr + de 84 / 193
93 de 2 moyennes Exemple pour données appariées sous Rcmdr + de 85 / 193
94 de 2 moyennes Exemple pour données appariées sous Rcmdr + de 86 / 193
95 Plan + de de de + de de 3. de de 4. Coefficient de corrélation / 193
96 Plan + de de de + de de 3. de de 4. Coefficient de corrélation / 193
97 de 2 fréquences : Test paramétrique de Student + de Test paramétrique de Student pour la comparaison de 2 fréquences observées (expression incorrecte!!) pour la comparaison d une fréquence théorique issue d une population représentée par un échantillon observé à une fréquence théorique issue d une autre population représentée par un autre échantillon 89 / 193
98 de 2 fréquences : Test paramétrique de Student + de Echantillon A Caractéristiques de l échantillon A Taille Echantillon B Taille Statistique descriptive Caractéristiques de l échantillon B 90 / 193
99 de 2 fréquences : Test paramétrique de Student avec n A > 30 et n B > 30 et n A p A > 5, n A (1 p A ) > 5, n B p B > 5, n B (1 p B ) > 5 + de Population Echantillon A Caractéristiques de l échantillon A Taille Population Tirage aléatoire Echantillon B Taille Statistique descriptive Caractéristiques de l échantillon B : = = 91 / 193
100 de 2 fréquences : Test paramétrique de Student + de non rejet de H 0 : la différence entre π A et π B semble due aux fluctuations d échantillonnage, i.e. échantillons A et B semblent représentatifs de la population P rejet de H 0 : la différence entre π A et π B n est pas due au hasard, i.e. échantillons A et B semblent représentatifs de 2 populations distinctes attention : il existe toujours une probabilité de se tromper α : probabilité de se tromper en rejetant H 0 β : probabilité de se tromper en ne rejetant pas H 0, i.e. en rejetant H 1 92 / 193
101 de 2 fréquences : Test paramétrique de Student Non rejet de H 0 au risque de 1 ère espèce α + de Population Echantillon A Taille Caractéristiques de l échantillon A Population Tirage aléatoire Echantillon B Statistique descriptive Caractéristiques de l échantillon B Taille 93 / 193
102 de 2 fréquences : Test paramétrique de Student Rejet de H 0 au risque de 1 ère espèce α + de Population Echantillon A Taille Caractéristiques de l échantillon A Population où = = Population Tirage aléatoire Echantillon B Statistique descriptive Caractéristiques de l échantillon B Taille 94 / 193
103 de 2 fréquences : Test paramétrique de Student + de Philosophie similaire à celle d un test paramétrique de Student pour comparaison de 2 moyennes Non présenté car Test du χ 2 plus intéressant! Problème quand les effectifs sont petits - Aucune hypothèse possible - Solution : calcul exact de la probabilité critique 95 / 193
104 de 2 fréquences : Test exact de Fisher + de Adapté aux petits échantillons Principe : calculer exactement la probabilité critique p (probabilité d obtenir des échantillons au moins aussi éloignés de H 0 que celui qui est observé) Mise en oeuvre et raisonnement repose sur la loi hypergéométrique Peut nécessiter des combinaisons de calculs très nombreuses en fonction du nombre de modalités comparées 2 modalités (succès/échec) 96 / 193
105 de 2 fréquences : Test exact de Fisher Loi hypergéométrique + de Epreuve aléatoire de Bernouilli S (succès) : Pr=,0 1 E (échec) : Pr=1 =,0 1 Si n répétitions non indépendantes de l épreuve, et R : v.a. caractérisant le nombre de succès, R ~ H( N, n, p) Taille de la population Nb de répétitions Probabilité de succès Exemple : -tirage sans remise dans un lot de taille finie N Contenu de la population est modifié à chaque tirage il n y a plus indépendance 97 / 193
106 de 2 fréquences : Test exact de Fisher + de On observe : Modalité 1 Modalité 2 Total Groupe 1 a b a+b Groupe 2 c d c+d Total a+c b+d N Probabilité d obtenir cette configuration : p p(obs) = Ca a+cc b b+d C a+b N = (a + b)!(c + d)!(a + c)!(b + d)! a!b!c!d!n! 98 / 193
107 de 2 fréquences : Test exact de Fisher + de De la même manière, on calcule toute les probabilités p i pour tous les échantillons i encore plus éloignés de H 0 que l échantillon observé, c est-à-dire les tableaux composés des effectifs a, b, c, d tels que a a + c b b + d a a + c b b + d Calcul de la probabilité critique : p = p(obs) + i p i 99 / 193
108 de 2 fréquences : Test exact de Fisher + de Un peu de discussion... Attention à la surinterprétation des résultats... surtout dans le cas de petits échantillons le risque α existe et α 0 statistique Si p c < α. - Rejet de H 0 car moins de α % de chance qu elle soit vraie. Si p c > α. - Non rejet de H 0 car plus de α % de chance qu elle soit vraie. 100 / 193
109 de 2 fréquences : Test exact de Fisher épidémiologique + de Si Rejet de H 0, - cas bilatéral : Il semble que les 2 proportions théoriques π A et π B soient significativement différente. - cas unilatéral : Il semble que la proportion théorique π A soit significativement inférieure (supérieure) à la proportion théorique π B Si Non rejet de H 0 - cas bilatéral et unilatéral : On ne peut pas exclure le fait que les soient issus de la même population. Cas unilatéral stratégie identique mais on ne compte que les échantillons i encore plus éloignés de H 0 mais que d un seul côté 101 / 193
110 de 2 fréquences : Exemple + de de 2 traitements A et B contre infection nosocomiale proportions de patients infectés Hypothèses : H 0 : π A = π B = π H 1 : π A π B Etude pilote : N=16 patients 7 patients dans le groupe A 9 patients dans le groupe B 102 / 193
111 de 2 fréquences : Exemple + de On observe : Idée Infectés Non infectés Total Groupe A Groupe B Total Calculer sous H 0 la probabilité (exacte) d obtenir un écart entre les groupes à celui observé en conservant les mêmes totaux (lignes et colonnes) Probabilité critique de Fisher : somme de ces probabilités 103 / 193
112 de 2 fréquences : Exemple + de On observe : Infectés Non infectés Total Groupe A Groupe B Total seule autre possibilité avec les mêmes totaux Infectés Non infectés Total Groupe A Groupe B Total / 193
113 de 2 fréquences : Exemple + de On observe : Infectés Non infectés Total Groupe A Groupe B Total Probabilité d obtenir cette configuration : p 1 p 1 = 7!9!8!8! 6!1!2!7!16! 105 / 193
114 de 2 fréquences : Exemple + de Seconde configuration avec même totaux mais des écarts entre les groupes supérieurs à ce qu on observe Infectés Non infectés Total Groupe A Groupe B Total Probabilité d obtenir cette configuration : p 2 p 2 = 7!9!8!8! 7!0!1!8!16! 106 / 193
115 de 2 fréquences : Exemple + de Probabilité d avoir l une ou l autre des configurations possibles : p = p 1 + p 2 = 7!9!8!8! 6!1!2!7!16! + 7!9!8!8! 7!0!1!8!16! ici, hypothèse bilatérale écart doit être envisagé dans les 2 sens probabilité critique de Fisher p c = 2 p = < 0.05 Rejet de H 0 au seuil α = 5% 107 / 193
116 + de 108 / 193
117 de 2 fréquences Exemple sous Rcmdr + de 109 / 193
118 de 2 fréquences Exemple sous Rcmdr + de 110 / 193
119 de 2 fréquences Exemple sous Rcmdr + de 111 / 193
120 de 2 fréquences Exemple sous Rcmdr + de 112 / 193
121 Plan + de de de + de de 3. de de 4. Coefficient de corrélation / 193
122 de 2 fréquences Test de Mc Nemar + de L échantillon A n est pas indépendant de l échantillon B Echantillons dépendants (ou, ou liés) observations obtenues chez les mêmes individus patient est son propre témoin ex : Etude avant/après (douleur avant et après la prise d un antalgique) ex : Etude Cas/Témoin (deux pommades sur une même peau) observations obtenues chez des individus présentant des caractéristiques similaires ex : Etude Cas/Témoin (appariement sur les facteurs de risque) ex : Etude en cluster (deux souris d une même litière, deux jumeaux, etc.) 114 / 193
123 de 2 fréquences Test de Mc Nemar + de Exemple classique : essai thérapeutique en cross-over patient est son propre témoin traitements comparés administrés successivement (ordre d administration tiré au sort) Critères d intérêt : Succès(+) vs. Echec (-) Sujets Avant traitement Après traitement N / 193
124 de 2 fréquences Test de Mc Nemar + de On réalise un test de Mc Nemar pour comparer 2 proportions théoriques issues de 2 populations représentées par 4 configurations possibles : + + q sujets + - r sujets - + s sujets - - t sujets Avant Après q r q+r - s t s+t q+s r+t N=q+r+s+t 116 / 193
125 de 2 fréquences Test de Mc Nemar + de Problème posé : Comparer proportions p 1 (+) avant : q+r N = p 1 et p 2 (+) après : q+s N = p 2 = p 1 p 2 = q + r N q + s N = r N s N Seuls interviennent les effectifs r et s relatifs à un changement 117 / 193
126 de 2 fréquences Test de Mc Nemar + de Remarques La différence entre les proportions observées de succès dépend - Effectifs de paires discordantes - Effectif total Sous H 0, on s attend à avoir la même proportion de paires discordantes (p (+ ) et p ( +) ) 118 / 193
127 de 2 fréquences Test de Mc Nemar + de Soit π (+ ) et π ( +) : proportions théoriques de paires discordantes H 0 : π (+ ) = π ( +) = 0.5 H 1 : π (+ ) π ( +) (en bilatéral) d une proportion observée ( +- ou -+ parmi total de paires discordantes) à une proportion théorique (=0.5) 119 / 193
128 de 2 fréquences Test de Mc Nemar + de H 0 : π (+ ) = π ( +) = 0.5 H 1 : π (+ ) π ( +) (en bilatéral) Statistique R=nombre de sujets (+-) parmi les n = r + s ayant expérimenté un changement Si H 0 est vraie : R B(n, π (+ ) = 0.5) E(R) = nπ (+ ) = n/2 Var(R) = nπ (+ ) (1 π (+ ) ) = n/4 120 / 193
129 de 2 fréquences Test de Mc Nemar + de si n > 30, approximation de la loi binomiale par une loi normale Sous H 0, R N ( µ = n ) n 2, σ = 2 T = R n 2 n 2 Réalisation pratique t exp = r n 2 n 2 N(0, 1) = r s r+s t exp < t table,α non Rejet de H 0 au seuil α t exp t table,α Rejet de H 0 au seuil α 121 / 193
130 de 2 fréquences Test de Mc Nemar Remarque : + de Si T = R n 2 n 2 N(0, 1), alors T 2 = (R S)2 R + S χ2 1ddl 122 / 193
131 de 2 fréquences Exemple pour données appariées Contexte + de Dans un service de neurologie, une étude est mise en place dans le cadre de douleurs polyneuropathiques : elle vise à comparer le traitement de référence par tramadol à un traitement nouvellement mis sur le marché. On s intéresse à l amélioration de la satisfaction des patients vis à vis de la douleur ressentie. On interroge 60 patients pris en charge pour une polyneuropathie avant la prise du nouveau médicament lorsqu il sont traités par tramadol et après l introduction du nouveau médicament (+ : douleur ; - : pas de douleur). On observe : Après + - Avant / 193
132 de 2 fréquences Exemple pour données appariées + de Etape 1 : Choix des hypothèses question d intérêt : le choix de la nouvelle thérapeutique semble-t-il pertinent? la proportion de patients ayant des douleurs polyneuropathiques après la prise du nouveau médicament est-elle moindre que celle avant? test unilatéral H 0 : π (+ ) = π ( +) = 0.5 H 1 : π (+ ) > π ( +) 124 / 193
133 de 2 fréquences Exemple pour données appariées + de Etape 2 : Choix du test, statistique de test et loi sous H 0 Sous H 0, comme n = = 37 > 30, on a : T = R n 2 n 2 N(0, 1) R : v.a. représentant le nombre de gens qui ont changé d avis dans un sens bien précis (par ex., de + vers -) S : v.a. telle que S = n R (nombre de gens qui ont changé d avis dans l autre sens. On montre que T = R (R + S)/2 R + S/2 = 2R R S 2 R + S/2 = R S R + S 125 / 193
134 de 2 fréquences Exemple pour données appariées + de Etape 3 : Choix du niveau de signification α, Définition de la région critique (RC) ICI : test unilatéral en pratique, α = 0.05 RC : [1.64; + [ 0 u(α) RC 126 / 193
135 de 2 fréquences Exemple pour données appariées + de Etape 4 : Calcul de statistique de test Analyse numérique réalisée à l aide des observations Il y a deux manières de calculer t exp t exp = r n/2 = r s 26 37/2 = = n/2 r + s 37/ / 193
136 de 2 fréquences Exemple pour données appariées Etape 5 : statistique + de t exp 2.47 [1.64; + [ t exp RC p c < α Rejet de H 0 au seuil α = 5% Etape 6 : épidémiologique Il semble que la proportion de patients sans douleur après la prise du nouveau traitement soit moindre que celle des patients avec des douleurs neuropathiques. Je peux affirmer cela avec moins de 5% de chances de me tromper La nouvelle thérapeutique semble être intéressante dans l amélioration de la satisfaction des patients vis à vis de leur prise en charge. 128 / 193
137 de 2 fréquences Test de Mc Nemar + de si n < 30, test binomial basé sur le calcul de la probabilité (p c ) sous H 0 Exemple (petits échantillons) On étudie un échantillon de 30 patients On observe Après a-tab + - Avant a-tab / 193
138 de 2 fréquences Exemple pour données appariées + de Etape 1 : Choix des hypothèses question d intérêt : le choix de la nouvelle thérapeutique semble-t-il pertinent? la proportion de patients ayant des douleurs polyneuropathiques après la prise du nouveau médicament est-elle moindre que celle avant? test unilatéral H 0 : π (+ ) = π ( +) = 0.5 H 1 : π ( +) > π (+ ) 130 / 193
139 de 2 fréquences Exemple pour données appariées + de Etape 2 : Choix du test, statistique de test et loi sous H 0 Sous H 0, comme n = = 17 < 30, on a : S B(n = 17, π (+ ) = 0.5) où S=nombre de sujets (-+) parmi les n = r + s ayant expérimenté un changement Etape 3 : Choix du niveau de signification α en pratique, α = / 193
140 de 2 fréquences Exemple pour données appariées + de Etape 4 : Calcul de la probabilité critique p c = Pr(S 12) = 1 Pr(S < 12) = 1 Pr(S = 0) Pr(S = 1)... Pr(S = 11) = 1 C (1 0.5) 17 C (1 0.5) C (1 0.5) / 193
141 de 2 fréquences Exemple pour données appariées + de Etape 5 : statistique p c > α = 0.05 Non Rejet de H 0 au seuil α = 5% Etape 6 : épidémiologique Il semble que la proportion de patients sans douleur après la prise du nouveau traitement ne soit pas significativement différente de celle des patients avec des douleurs neuropathiques. Je peux affirmer cela avec moins de 5% de chances de me tromper notre étude ne nous a pas permis de mettre en évidence une efficacité du nouveau traitement 133 / 193
142 Plan + de de de + de de 3. de de 4. Coefficient de corrélation / 193
143 + de 2 v.a. quantitatives X et Y sont mesurées sur les mêmes sujets et sont supposées liées quel est l intensité de ce lien? existe-t-il un lien (une association) entre ces 2 v.a.? 135 / 193
144 + de 2 v.a. quantitatives X et Y sont mesurées sur les mêmes sujets et sont supposées liées quel est l intensité de ce lien? quelle est la valeur du coefficient de corrélation? existe-t-il un lien (une association) entre ces 2 v.a.? 135 / 193
145 + de 2 v.a. quantitatives X et Y sont mesurées sur les mêmes sujets et sont supposées liées quel est l intensité de ce lien? quelle est la valeur du coefficient de corrélation? existe-t-il un lien (une association) entre ces 2 v.a.? le coefficient de corrélation des 2 v.a. est-il significativement de 0? 135 / 193
146 Exemples + de lien entre Poids et Taille lien entre Alimentation et Prise de poids lien entre Âge et Déclin cognitif lien entre Âge et Taux de cholestérol lien entre Âge et Décès Remarque : pour l étude d 1 lien entre le statut tabagique et la survenue d un cancer du poumon, que faire? 136 / 193
147 Exemples + de lien entre Poids et Taille lien entre Alimentation et Prise de poids lien entre Âge et Déclin cognitif lien entre Âge et Taux de cholestérol lien entre Âge et Décès Remarque : pour l étude d 1 lien entre le statut tabagique et la survenue d un cancer du poumon, que faire? analyse de la relation entre 2 variables qualitatives 136 / 193
148 Exemples + de lien entre Poids et Taille lien entre Alimentation et Prise de poids lien entre Âge et Déclin cognitif lien entre Âge et Taux de cholestérol lien entre Âge et Décès Remarque : pour l étude d 1 lien entre le statut tabagique et la survenue d un cancer du poumon, que faire? analyse de la relation entre 2 variables qualitatives Test de chi-deux, Test de comparaison de deux fréquences + calcul OR 136 / 193
149 Coefficient de corrélation de Pearson + de Soient 2 v.a. quantitatives continues X et Y (avec une distribution jointe supposée bi-normale), µ X et µ Y et de variances σ 2 X et σ2 Y En pratique, bi-normalité pas évidente, déjà bien si X et Y sont considérées normales Echantillon composé de n individus (i = 1,..., n) On observe n couples (y i, x i ) 137 / 193
150 Coefficient de corrélation de Pearson + de Coefficient de corrélation entre X et Y : ρ = Cov(X, Y ) σx 2 σ2 Y ρ mesure l intensité de la relation entre deux variables quantitatives X et Y si cette relation est 138 / 193
151 Coefficient de corrélation de Spearman + de Limites du coefficient de corrélation de Pearson Bi-normalité des 2 v.a. X et Y pas vérifiée Solutions : 139 / 193
152 Coefficient de corrélation de Spearman + de Limites du coefficient de corrélation de Pearson Bi-normalité des 2 v.a. X et Y pas vérifiée Solutions : - utilisation de transformée de X et Y pour se rapprocher de la bi-normalité (ou tout du moins de la normalité de chacune des v.a.) - utiliser un coefficient basé sur les rangs et un test non-paramétrique corrélation de Spearman 139 / 193
153 Coefficient de corrélation de Spearman + de Soient 2 v.a. quantitatives continues X et Y, de moyennes µ X et µ Y et de variances σ 2 X et σ2 Y Echantillon composé de n individus (i = 1,..., n) On observe n couples (y i, x i ) pour X et Y, on affecte le rang correspondant à chacune des valeurs On observe n couples de rang (R Yi, R Xi ) 140 / 193
154 Coefficient de corrélation de Spearman + de Soient 2 v.a. quantitatives continues X et Y, de moyennes µ X et µ Y et de variances σ 2 X et σ2 Y Echantillon composé de n individus (i = 1,..., n) On observe n couples (y i, x i ) pour X et Y, on affecte le rang correspondant à chacune des valeurs On observe n couples de rang (R Yi, R Xi ) Coefficient de corrélation entre X et Y : ρ = Cov(R Y, R X ) σr 2 X σr 2 Y 140 / 193
155 Coefficient de corrélation de Spearman + de Coefficient de corrélation entre X et Y : + simple de s intéresser à D = R Xi R Yi, on alors : ρ = 1 6 n i=1 D2 i n (n 2 1) 141 / 193
156 Interprétation (1) + de Interprétation du coefficient de corrélation de Spearman : on montre facilement que ρ [ 1; +1] r = 1 : lien parfait dans le même sens r = 1 : lien parfait dans le sens inverse r > 0.5 : lien fort 0.3 < r < 0.5 : lien moyen 0.1 < r < 0.3 : lien faible r = 0 : pas de liaison identique à celle du coefficient de corrélation de Pearson 142 / 193
157 Interprétation (2) Interprétation du coefficient de corrélation : + de si X et Y sont 2 v.a. indépendantes alors ρ = 0 En effet, si X et Y sont 2 v.a. indépendantes, alors E(X.Y ) = E(X).E(Y ) Cov(X, Y ) = E(X.Y ) E(X).E(Y ) = 0 ρ = 0 si ρ = 0 et X et Y normalement distribuées X et Y sont 2 v.a. indépendantes 143 / 193
158 Exemple + de Soient Y et X v.a. représentant respectivement la tension artérielle systolique et l âge de femmes inclues dans un échantillon On réalise un échantillon de 10 femmes, les résultats sont présentés dans le tableau suivant : Sujet x (ans) y (mmhg) On souhaite tester si la tension artérielle systolique diffère avec l âge chez les femmes 144 / 193
159 Exemple (suite) + de Tension Age 145 / 193
160 Exemple (suite) + de frequency Dataset$Age 146 / 193
161 Exemple (suite) + de frequency Dataset$Tension 147 / 193
162 Exemple (suite) On observe : + de Sujet x (ans) y (mmhg) affectation des rangs calcul des différences de rangs Sujet r X r Y d d / 193
163 Exemple (suite) + de Coefficient de corrélation estimé entre X et Y : r = (10 2 1) 0.93 r > 0.5 Forte corrélation : Il semble que la tension artérielle systolique augmente avec l âge chez les femmes Peut-on conclure que le coefficient de corrélation ρ de la population est significativement différent de 0? 149 / 193
164 Exemple (suite) + de Coefficient de corrélation estimé entre X et Y : r = (10 2 1) 0.93 r > 0.5 Forte corrélation : Il semble que la tension artérielle systolique augmente avec l âge chez les femmes Peut-on conclure que le coefficient de corrélation ρ de la population est significativement différent de 0? 149 / 193
165 Test de corrélation (1) + de étape 1 : Choix des hypothèses question d intérêt test bilatéral H 0 : ρ = 0 on suppose l indépendance entre X et Y H 1 : ρ 0 question d intérêt test unilatéral H 0 : ρ = 0 on suppose l indépendance entre X et Y H 1 : ρ > 0 (ou bien <) 150 / 193
166 Test de corrélation (2) + de étape 2 : Choix du test, statistique de test et loi sous H 0 2 cas de figure : n > 10 n / 193
167 Test de corrélation (3) - n > 10 + de étape 2 : Choix du test, statistique de test et loi sous H 0 Sous H 0, avec hypothèse de normalité des 2 v.a., la statistique de test : T = où Var(R) = 1 R2 n 2 R ρ Var(R) Student (n 2)ddl T = R n 2 1 R 2 Student (n 2)ddl 152 / 193
168 Test de corrélation (4) - n > 10 + de étape 3 : Choix du niveau de signification α, Définition de la région critique (RC) α, test bilatéral, loi de Student RC (2.5%) RC (2.5%) -t(α/2,n-1) t(α/2, n-1) α, test unilatéral, loi de Student 0 t(α,n-1) RC (5%) 153 / 193
169 Test de corrélation (5) - n > 10 + de étape 4 : Calcul de la statistique de test Analyse numérique réalisée à l aide des estimations issues des échantillons A et B t exp = r n 2 1 r / 193
170 Test de corrélation (6) - n > 10 + de étape 5 & 6 : statistique et épidémiologique Si t exp RC p c < α. - Rejet de H 0 car moins de α % de chance qu elle soit vraie. - Il semble que ρ soit de 0. - Les v.a. X et Y semblent ment corrélées. Si t exp / RC p c > α. - Non rejet de H 0 car plus de α % de chance qu elle soit vraie. - On ne peut pas montrer que ρ soit de 0. - On ne peut pas montrer que les v.a. X et Y semblent ment corrélées. Remarque : p c =probabilité de se tromper en rejetant H / 193
171 Test de corrélation (7) - n 10 + de On range la v.a. X : (R Xi ) Sous H 0 (hypothèse d aucune corrélation), le rang de la variable Y est supposé distribué aléatoire selon les n! arrangements possibles immédiate du coefficient de corrélation estimé r avec ceux théoriques calculés sous H 0 (fournies dans la table) à un certain seuil α Attention au nb de ddl= n-2!! 156 / 193
172 Table + de 157 / 193
173 Test de corrélation (8) - n 10 + de statistique et épidémiologique Si r > r theo p c < α. - Rejet de H 0 car moins de α % de chance qu elle soit vraie. - Il semble que ρ soit de 0. - Les v.a. X et Y semblent ment corrélées. Si r r theo p c > α. - Non rejet de H 0 car plus de α % de chance qu elle soit vraie. - On ne peut pas montrer que ρ soit de 0. - On ne peut pas montrer que les v.a. X et Y semblent ment corrélées. Remarque : p c =probabilité de se tromper en rejetant H / 193
174 Exemple (suite) + de étape 1 : Choix des hypothèses question d intérêt : 159 / 193
175 Exemple (suite) + de étape 1 : Choix des hypothèses question d intérêt : On souhaite tester si la tension artérielle systolique diffère avec l âge chez les femmes 159 / 193
176 Exemple (suite) + de étape 1 : Choix des hypothèses question d intérêt : On souhaite tester si la tension artérielle systolique diffère avec l âge chez les femmes test bilatéral H 0 : ρ = 0 H 1 : ρ 0 on suppose l indépendance entre X et Y 159 / 193
177 Exemple (suite) On a dans notre exemple : n = 10 + de r et pour 10 2 ddl, avec α = 5%, on a : r theo = r > r theo p c < α - Rejet de H 0 car moins de α % de chance qu elle soit vraie. - Il semble que ρ soit de 0. - Les v.a. X et Y semblent ment corrélées la tension artérielle systolique semble liée à l âge chez les femmes 160 / 193
178 + de 161 / 193
179 Quelques exemples/limites + de Attention aux conclusions non-valides pour une relation non-. Plusieurs relations possibles pour un même coefficient de corrélation quantification de la relation souvent nécessaire. 162 / 193
180 Un peu de discussion... + de Coefficient de corrélation mesure la liaison entre 2 v.a. quantitatives = Attention dans l interprétion de la corrélation - 1 corrélation entre 2 v.a. n entraine pas obligatoirement une relation de causalité 1 corrélation forte et significative peut signifier un lien fortuit un lien commun un lien de causalité 163 / 193
181 Plan + de de de + de de 3. de de 4. Coefficient de corrélation / 193
182 de 2 fréquences ou + : Test du + de On observe un échantillon de N sujets avec pour chaque sujet 2 critères de qualification : - 1 variable catégorielle A à k modalités - 1 variable catégorielle B à l modalités Classification sous forme de tableau de contingence : B 1... B j... B l Totaux lignes T i A 1 O O 1j... O 1l O 1. = T A i O i1... O ij... O il O i. = T i A k O k1... O kj... O kl O k. = T k Totaux colonnes S j O.1 = S 1... O.j = S j... O.l = S l O.. = N =Effectif total 165 / 193
183 de 2 fréquences ou + : Test du Hypothèses : + de - H 0 : indépendance entre A et B - H 1 : dépendance entre A et B On peut montrer que la statistique de test suivante : χ 2 exp = i (O ij C ij ) 2 C ij j où C ij : effectif théorique sous H 0 Conditions de validité : χ 2 (k 1)(l 1) ddl C ij 5 sinon regrouper (éventuellement) des classes adjacentes 166 / 193
184 Région critique : de 2 fréquences ou + : Test du + de 0 2 TABLE DE LA FONCTION DE REPARTITION DU X RC Χ 2 table(α,(k-1)(l-1)) Probabilité Degré α liberté 0,995 0,990 0,975 0,950 0,900 0,100 0,050 0,025 0,010 0, ,00 0,00 0,00 0,00 0,02 2,71 3,84 5,02 6,63 7,88 2 0,01 0,02 0,05 0,10 0,21 4,61 5,99 7,38 9,21 10,60 3 0,07 0,11 0,22 0,35 0,58 6,25 7,81 9,35 11,34 12,84 4 0,21 0,30 0,48 0,71 1,06 7,78 9,49 11,14 13,28 14,86 5 0,41 0,55 0,83 1,15 1,61 9,24 11,07 12,83 15,09 16,75 6 0,68 0,87 1,24 1,64 2,20 10,64 12,59 14,45 16,81 18,55 7 0,99 1,24 1,69 2,17 2,83 12,02 14,07 16,01 18,48 20,28 8 1,34 1,65 2,18 2,73 3,49 13,36 15,51 17,53 20,09 21,95 9 1,73 2,09 2,70 3,33 4,17 14,68 16,92 19,02 21,67 23, ,16 2,56 3,25 3,94 4,87 15,99 18,31 20,48 23,21 25, ,60 3,05 3,82 4,57 5,58 17,28 19,68 21,92 24,73 26, ,07 3,57 4,40 5,23 6,30 18,55 21,03 23,34 26,22 28, ,57 4,11 5,01 5,89 7,04 19,81 22,36 24,74 27,69 29, ,07 4,66 5,63 6,57 7,79 21,06 23,68 26,12 29,14 31, ,60 5,23 6,26 7,26 8,55 22,31 25,00 27,49 30,58 32, ,14 5,81 6,91 7,96 9,31 23,54 26,30 28,85 32,00 34, ,70 6,41 7,56 8,67 10,09 24,77 27,59 30,19 33,41 35, ,26 7,01 8,23 9,39 10,86 25,99 28,87 31,53 34,81 37, ,84 7,63 8,91 10,12 11,65 27,20 30,14 32,85 36,19 38, / 193
185 de 2 fréquences ou + : Test du + de : χ 2 exp χ 2 table(α,(k 1)l 1) ddl p < α Rejet de H 0 : Dépendance entre les variables A et B χ 2 exp < χ 2 table(α,(k 1)l 1) ddl p > α Non rejet de H 0 : Nous n avons pas pu mettre en évidence une dépendance entre les variables A et B 168 / 193
186 de 2 fréquences ou + : Exemple + de Lors d un essai clinique comparant 2 traitements A et B (150 patients randomisés dans chaque bras), l ensemble des effets indésirables sont collectés Les patients sont classés en 3 groupes : pas d effet indésirable (PEI), au moins un effet indésirable (et aucun grave) (EI), au moins un effet indésirable grave (EIG) Voici la répartition des sujets en fonction de leur traitement et de la survenue d effets indésirables : PEI EI EIG traitement A traitement B / 193
187 de 2 fréquences ou + : Exemple + de On cherche à répondre à la question suivante : Existe-t-il un lien significatif entre le traitement et les effets secondaires? (risque d erreur de 1ère espèce fixé à 5%)? Quelle est l hypothèse nulle H 0 de ce test? Quelle est l hypothèse alternative H 1 de ce test? 170 / 193
188 de 2 fréquences ou + : Exemple + de On cherche à répondre à la question suivante : Existe-t-il un lien significatif entre le traitement et les effets secondaires? (risque d erreur de 1ère espèce fixé à 5%)? Quelle est l hypothèse nulle H 0 de ce test? Quelle est l hypothèse alternative H 1 de ce test? H 0 : les proportions d effets secondaires sont égales dans les 2 groupes de traitement H 1 : Il y a au moins 2 proportions qui sont différentes 170 / 193
189 de 2 fréquences ou + : Exemple + de Quel type de test permet de répondre à cette question? 171 / 193
190 de 2 fréquences ou + : Exemple Quel type de test permet de répondre à cette question? + de Test de Test de l existence d un lien entre le traitement et la survenue d effets secondaires c est-à-dire l indépendance entre la survenue d effets secondaires et la prise du traitement A ou B 171 / 193
191 de 2 fréquences ou + : Exemple Calcul de la statistique de test + de Tableau de contingence des effectifs théoriques : PEI EI EIG traitement A = traitement B Total Sous H 0, la proportion d effets indésirables graves(...) devrait être la même quelque soit le traitement : 49/ rapportée aux patients traités par le médicament A : /300 = / 193
192 de 2 fréquences ou + : Exemple + de Conditions d application : = 24.5 > La statistique de test est égale à χ 2 calc = i,j (O ij C ij ) 2 C ij Tableau des écarts au carré (O ij C ij ) 2 C ij : χ 2 theo (2ddl) PEI EI EIG traitement A traitement B La statistique de test calculée est : χ 2 calc = = / 193
193 de 2 fréquences ou + : Exemple + de La région critique au seuil α = 0.05 est définit en fonction du nombre de degré de liberté RC = [5.99; + [ χ 2 calc = 9.94 RC Rejet de H 0 au seuil α = 0.05 Il semble donc que les proportions des différents types d effets indésirables ne soient pas indépendantes de la prescription médicale (p c < 0.05). 174 / 193
194 de 2 fréquences ou + : Exemple sous R + de 175 / 193
195 de 2 fréquences ou + : Exemple sous R + de > t<-table(basechisq$traitement,basechisq$effind) > t EI EIG PEI A B > > test<-chisq.test(t) > test Pearson s Chi-squared test data: t X-squared = , df = 2, p-value = > > test$expected EI EIG PEI A B / 193
196 de 2 fréquences ou + : Test du Cas particulier d un tableau 2*2 : + de Malades Non Malade Total Exposés a b a+b Non exposés c d c+d Total a+c b+d N de 2 % sur 2 grands échantillons H 0 : le % de bronchite est le même quelle que soit l exposition H 0 : π e = πē et H 1 : π e πē où π e : % de bronchite chez les exposés où π ē : % de bronchite chez les non exposés 177 / 193
197 Notion d Odds Ratio + de Mesure d association entre un facteur d exposition (facteur de risque) et la présence de la maladie Malades (M) Non Malade ( M) Total Exposés (E) a b a+b Non exposés (Ē) c d c+d Total a+c b+d N 178 / 193
198 Notion d Odds Ratio + de Odds (côte) : Odds chez les exposés : Prob(M) Prob( M) = p 1 p a/(a + b) b/(a + b) = a b Odds chez les non exposés : Odds ratio : c/(c + d) d/(c + d) = c d Odds chez les exposés Odds chez les non exposés = a/b c/d = ad bc 179 / 193
199 Notion d Odds Ratio + de Remarques : Si Odds Ratio=OR>1 facteur de risque Si Odds Ratio=OR<1 facteur protecteur OR est-il significativement de 1? Intervalle de confiance, test 180 / 193
200 Odds Ratio Exemple + de On observe le tableau de contingence suivant chez 460 patients chez lesquels on s intéresse à l efficacité d un vaccin contre la grippe Grippe Pas de grippe Total Vaccin Placebo Total Existe-t-il un lien entre la grippe et la vaccination? (au risque de 1ère espèce α = 5%? Test du χ / 193
201 Odds Ratio Exemple Calcul de la statistique de test + de Tableau de contingence des effectifs théoriques : Grippe Pas de grippe Total Vaccin 460 = Placebo Total Sous H 0, la proportion de grippe devrait être la même quelque soit le genre : 100/ rapportée au nombre de personnes vaccinées : /460 = / 193
202 Odds Ratio Exemple + de Conditions d application : = > La statistique de test est égale à χ 2 calc = i,j (O ij C ij ) 2 C ij Tableau des écarts au carré (O ij C ij ) 2 C ij : χ 2 theo (2ddl) Grippe Pas de grippe Vaccin Placebo La statistique de test calculée est : χ 2 calc = / 193
203 Odds Ratio Exemple + de La région critique au seuil α = 0.05 est définit en fonction du nombre de degré de liberté RC = [3.84; + [ χ 2 calc = 53 RC Rejet de H 0 car moins de α % de chance qu elle soit vraie. Il semble que la proportion de grippe soit différente selon que l on soit vacciné ou non (p c < 0.05). Existence d un lien entre grippe et vaccination 184 / 193
204 Odds Ratio Exemple + de La région critique au seuil α = 0.05 est définit en fonction du nombre de degré de liberté RC = [3.84; + [ χ 2 calc = 53 RC Rejet de H 0 car moins de α % de chance qu elle soit vraie. Il semble que la proportion de grippe soit différente selon que l on soit vacciné ou non (p c < 0.05). Existence d un lien entre grippe et vaccination Intensité de ce lien? 184 / 193
205 Odds Ratio Exemple + de Odds Ratio OR = = < 1 La vaccination apparaît comme un facteur protecteur de la grippe 185 / 193
206 Intervalle de confiance d un OR La distribution de l OR n est pas symétrique (OR > 0) + de Distribution non normale ln(or) distribution normale (approximativement) - Calcul de l IC de ln(or), puis on en déduit celui de OR Variance de ln(or) : s 2 (ln(or)) = 1 a + 1 b + 1 c + 1 d Intervalle de confiance à 95% de ln(or) : IC 95% (ln(or)) = ln(or) ± 1.96 s(ln(or)) Intervalle de confiance à 95% de OR : IC 95% (OR) = e ln(or)±1.96 s(ln(or)) 186 / 193
207 Intervalle de confiance d un OR Exemple + de OR = ln(or) = ln(0.159) s 2 (ln(or)) = dans l exemple : IC 95% (OR) = e 1.839± = [0.093; 0.272] Existe-il un lien entre grippe et vaccination? 187 / 193
208 Intervalle de confiance d un OR Exemple + de OR = ln(or) = ln(0.159) s 2 (ln(or)) = dans l exemple : IC 95% (OR) = e 1.839± = [0.093; 0.272] Existe-il un lien entre grippe et vaccination? 1 / IC 95% (OR) Rejet de H 0 au seuil 5% (supposant OR = 1) 187 / 193
209 Risque Relatif et Odds Ratio Risque Relatif=RR : Rapport des risques + de Malades (M) Non Malade ( M) Total Exposés (E) a b a+b Non exposés (Ē) c d c+d Total a+c b+d N RR = Prob(M E) a/(a + b) = Prob(M Ē) c/(c + d) RR s interprète comme un coefficient de proportionnalité par ex., RR = 2 les sujets exposés ont 2 fois plus de risque d être malade que les non exposés Interprétation extrêmement intéressante et pertinente 188 / 193
210 Risque Relatif et Odds Ratio + de Problème : 189 / 193
211 Risque Relatif et Odds Ratio + de Problème : - Nécessité d avoir un échantillon représentatif Prévalence de la maladie doit être celle de la population pas sytématique p = a + c N par ex. : étude cas-témoin où on a souvent p = a + c N = 1 car (a + c) = (b + d) 2 Odds Ratio calculable!! 189 / 193
212 Risque Relatif et Odds Ratio + de Problème : - Nécessité d avoir un échantillon représentatif Prévalence de la maladie doit être celle de la population pas sytématique p = a + c N par ex. : étude cas-témoin où on a souvent p = a + c N = 1 car (a + c) = (b + d) 2 Odds Ratio calculable!! Si maladie rare, alors OR RR a << b et c << d RR a/b c/d = ad bc 189 / 193
213 Plan + de de de + de de 3. de de 4. Coefficient de corrélation / 193
214 + de Un peu de discussion... p c : probabilité critique ou degré de signification probabilité de rejeter H 0 à tort mesure la crédibilité de H 0, quantifie le désacccord entre ce qu on observe et l hypothèse nulle H 0 Mais p c ne quantifie pas l importance de la différence 191 / 193
215 + de Un peu de discussion... Ne pas mettre en évidence de différence statistiquement significative entre 2 groupes ne signifie pas qu il y ait équivalence entre les 2 groupes (H 0 vraie) (Altman, 2005) Un résultat non statistiquement significatif peut avoir 2 causes : - l hypothèse H 0 est vraie (i.e. les 2 groupes proviennent de la même population - la puissance statistique n est pas suffisante (i.e. nombre de sujets insuffisant, β existe et 0) 192 / 193
216 + de MERCI DE VOTRE ATTENTION 193 / 193
Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE
Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.
Analyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»
Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences
Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE
UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction
Relation entre deux variables : estimation de la corrélation linéaire
CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence
Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE
UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables
Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES
LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,
Biostatistiques : Petits effectifs
Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 [email protected] Plan Données Générales : Définition des statistiques Principe de l
TESTS D'HYPOTHESES Etude d'un exemple
TESTS D'HYPOTHESES Etude d'un exemple Un examinateur doit faire passer une épreuve type QCM à des étudiants. Ce QCM est constitué de 20 questions indépendantes. Pour chaque question, il y a trois réponses
Principe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Introduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Lois de probabilité. Anita Burgun
Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage
Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888
Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques
Lire ; Compter ; Tester... avec R
Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................
TABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
VI. Tests non paramétriques sur un échantillon
VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes
TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme
TESTS D HYPOTHÈSE FONDÉS SUR LE χ² http://fr.wikipedia.org/wiki/eugénisme Logo du Second International Congress of Eugenics 1921. «Comme un arbre, l eugénisme tire ses constituants de nombreuses sources
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour [email protected] Une grande partie des illustrations viennent
Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes
IUT HSE Probabilités et Statistiques Feuille : variables aléatoires discrètes 1 Exercices Dénombrements Exercice 1. On souhaite ranger sur une étagère 4 livres de mathématiques (distincts), 6 livres de
T de Student Khi-deux Corrélation
Les tests d inférence statistiques permettent d estimer le risque d inférer un résultat d un échantillon à une population et de décider si on «prend le risque» (si 0.05 ou 5 %) Une différence de moyennes
Statistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3
Introduction à la statistique non paramétrique
Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non
Chapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011
Master 1 Biologie et technologie du végétal Année 010-011 Statistiques Rappels de cours et travaux dirigés (Seul ce document sera autorisé en examen) auteur : Jean-Marc Labatte [email protected]
23. Interprétation clinique des mesures de l effet traitement
23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d
Docteur José LABARERE
UE7 - Santé Société Humanité Risques sanitaires Chapitre 3 : Epidémiologie étiologique Docteur José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.
FORMULAIRE DE STATISTIQUES
FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)
Probabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur
CAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Que faire lorsqu on considère plusieurs variables en même temps?
Chapitre 3 Que faire lorsqu on considère plusieurs variables en même temps? On va la plupart du temps se limiter à l étude de couple de variables aléatoires, on peut bien sûr étendre les notions introduites
Essais cliniques de phase 0 : état de la littérature 2006-2009
17 èmes Journées des Statisticiens des Centres de Lutte contre le Cancer 4 ème Conférence Francophone d Epidémiologie Clinique Essais cliniques de phase 0 : état de la littérature 2006-2009 Q Picat, N
METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES
Enseignement du Deuxième Cycle des Etudes Médicales Faculté de Médecine de Toulouse Purpan et Toulouse Rangueil Module I «Apprentissage de l exercice médical» Coordonnateurs Pr Alain Grand Pr Daniel Rougé
INF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Estimation et tests statistiques, TD 5. Solutions
ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités
Chapitre 2 Le calcul des probabilités Equiprobabilité et Distribution Uniforme Deux événements A et B sont dits équiprobables si P(A) = P(B) Si il y a équiprobabilité sur Ω, cad si tous les événements
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
TSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position
Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons
Introduction aux Statistiques et à l utilisation du logiciel R
Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Corrélation entre deux classements. ρ Le coefficient de rang de Spearman
Corrélation entre deux classements Cas: échelle ordinale On peut utilisé le Rhô ρ Le coefficient de rang de Spearman Cours réalisé par Benjamin Putois Novembre 2008 [email protected] Indice statistique
Loi binomiale Lois normales
Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli
Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Cours de Tests paramétriques
Cours de Tests paramétriques F. Muri-Majoube et P. Cénac 2006-2007 Licence Ce document est sous licence ALC TYPE 2. Le texte de cette licence est également consultable en ligne à l adresse http://www.librecours.org/cgi-bin/main?callback=licencetype2.
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1
UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés
Estimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison
Estimation: intervalle de fluctuation et de confiance Mars 2012 IREM: groupe Proba-Stat Estimation Term.1 Intervalle de fluctuation connu : probabilité p, taille de l échantillon n but : estimer une fréquence
Item 169 : Évaluation thérapeutique et niveau de preuve
Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes
Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen
Probabilité et Statistique pour le DEA de Biosciences Avner Bar-Hen Université Aix-Marseille III 2000 2001 Table des matières 1 Introduction 3 2 Introduction à l analyse statistique 5 1 Introduction.................................
UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
Variables Aléatoires. Chapitre 2
Chapitre 2 Variables Aléatoires Après avoir réalisé une expérience, on ne s intéresse bien souvent à une certaine fonction du résultat et non au résultat en lui-même. Lorsqu on regarde une portion d ADN,
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Aide-mémoire de statistique appliquée à la biologie
Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela
4 Distributions particulières de probabilités
4 Distributions particulières de probabilités 4.1 Distributions discrètes usuelles Les variables aléatoires discrètes sont réparties en catégories selon le type de leur loi. 4.1.1 Variable de Bernoulli
La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites
La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur
EXEMPLE DE METHODOLOGIE POUR L ELABORATION D UN PROTOCOLE DOULEUR Marie AUBRY Infirmière référente douleur Hôpital TENON AP-HP Paris XX e SOMMAIRE
EXEMPLE DE METHODOLOGIE POUR L ELABORATION D UN PROTOCOLE DOULEUR Marie AUBRY Infirmière référente douleur Hôpital TENON AP-HP Paris XX e SOMMAIRE Etape n 1 : Faire l état des lieux Identifier la situation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Exposing a test of homogeneity of chronological series of annual rainfall in a climatic area. with using, if possible, the regional vector Hiez.
Test d homogéné$é Y. BRUNET-MORET Ingénieur hydrologue, Bureau Central Hydrologique Paris RÉSUMÉ Présentation d un test d homogénéi.té spécialement conçu pour vérijier Z homogénéité des suites chronologiques
Migraine et céphalées de tension: diagnostic différentiel et enjeux thérapeutiques
Migraine et céphalées de tension: diagnostic différentiel et enjeux thérapeutiques Dr Solène de Gaalon Service de neurologie- CHU Nantes Société française des migraines et céphalées Céphalées de tension
Probabilité. Table des matières. 1 Loi de probabilité 2 1.1 Conditions préalables... 2 1.2 Définitions... 2 1.3 Loi équirépartie...
1 Probabilité Table des matières 1 Loi de probabilité 2 1.1 Conditions préalables........................... 2 1.2 Définitions................................. 2 1.3 Loi équirépartie..............................
Niveau de scolarité et emploi : le Canada dans un contexte international
N o 81-599-X au catalogue Issue n o 008 ISSN : 1709-8661 ISBN : 978-1-100-98615-9 Feuillet d information Indicateurs de l éducation au Niveau de scolarité et emploi : le dans un contexte international
Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.
1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le
Bureau N301 (Nautile) [email protected]
Pre-MBA Statistics Seances #1 à #5 : Benjamin Leroy-Beaulieu Bureau N301 (Nautile) [email protected] Mise à niveau statistique Seance #1 : 11 octobre Dénombrement et calculs de sommes 2 QUESTIONS
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des
Probabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur
Chapitre 2/ La fonction de consommation et la fonction d épargne
hapitre 2/ La fonction de consommation et la fonction d épargne I : La fonction de consommation keynésienne II : Validations et limites de la fonction de consommation keynésienne III : Le choix de consommation
Un exemple de régression logistique sous
Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les
Probabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Référentiel Officine
Référentiel Officine Inscrire la formation dans la réalité et les besoins de la pharmacie d officine de demain - Ce référentiel décrit dans le cadre des missions et des activités du pharmacien d officine
Transgene accorde une option de licence exclusive pour le développement et la commercialisation de son produit d immunothérapie TG4010
Parc d Innovation d Illkirch, France, le 10 mars 2010 Transgene accorde une option de licence exclusive pour le développement et la commercialisation de son produit d immunothérapie TG4010 Transgene (Euronext
Évaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun
Introduction à la Statistique Inférentielle
UNIVERSITE MOHAMMED V-AGDAL SCIENCES FACULTE DES DEPARTEMENT DE MATHEMATIQUES SMI semestre 4 : Probabilités - Statistique Introduction à la Statistique Inférentielle Prinemps 2013 0 INTRODUCTION La statistique
Programmes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Les Migraines et les céphalées. Dr G.Hinzelin Migraines et Céphalées Migraines et Céphalées La migraine représente entre 5 à 18% de la population française selon le sexe et en fonction des études. Est
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Cours 9 : Plans à plusieurs facteurs
Cours 9 : Plans à plusieurs facteurs Table des matières Section 1. Diviser pour regner, rassembler pour saisir... 3 Section 2. Définitions et notations... 3 2.1. Définitions... 3 2.2. Notations... 4 Section
Chaînes de Markov au lycée
Journées APMEP Metz Atelier P1-32 du dimanche 28 octobre 2012 Louis-Marie BONNEVAL Chaînes de Markov au lycée Andreï Markov (1856-1922) , série S Problème 1 Bonus et malus en assurance automobile Un contrat
Migraine et Abus de Médicaments
Migraine et Abus de Médicaments Approches diagnostiques et thérapeutiques des Céphalées Chroniques Quotidiennes Pr D. DEPLANQUE Département de Pharmacologie médicale EA 1046, Institut de Médecine Prédictive
Document d orientation sur les allégations issues d essais de non-infériorité
Document d orientation sur les allégations issues d essais de non-infériorité Février 2013 1 Liste de contrôle des essais de non-infériorité N o Liste de contrôle (les clients peuvent se servir de cette
Bureau : 238 Tel : 04 76 82 58 90 Email : [email protected]
Dominique Muller Laboratoire Inter-universitaire de Psychologie Bureau : 238 Tel : 04 76 82 58 90 Email : [email protected] Supports de cours : webcom.upmf-grenoble.fr/lip/perso/dmuller/m2r/acm/
Vous incarnez un surdoué en informatique qui utilise son ordinateur afin de pirater des comptes bancaires un peu partout dans le monde et s en mettre
Vous incarnez un surdoué en informatique qui utilise son ordinateur afin de pirater des comptes bancaires un peu partout dans le monde et s en mettre plein les poches. Problème : vous n êtes pas seul!
Licence MASS 2000-2001. (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7
Feuilles de 1 à 7 Ces feuilles avec 25 exercices et quelques rappels historiques furent distribuées à des étudiants de troisième année, dans le cadre d un cours intensif sur deux semaines, en début d année,
AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =
LE NOMBRE D OR Présentation et calcul du nombre d or Euclide avait trouvé un moyen de partager en deu un segment selon en «etrême et moyenne raison» Soit un segment [AB]. Le partage d Euclide consiste
Chapitre 3 : INFERENCE
Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage
PROBABILITES ET STATISTIQUE I&II
PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits
Package TestsFaciles
Package TestsFaciles March 26, 2007 Type Package Title Facilite le calcul d intervalles de confiance et de tests de comparaison avec prise en compte du plan d échantillonnage. Version 1.0 Date 2007-03-26
La prise en charge de votre maladie, l accident vasculaire cérébral
G U I D E - A F F E C T I O N D E L O N G U E D U R É E La prise en charge de votre maladie, l accident vasculaire cérébral Vivre avec un accident vasculaire cérébral Octobre 2007 Pourquoi ce guide? Votre
Essai Inter-groupe : FFCD UNICANCER FRENCH - GERCOR
CLIMAT - PRODIGE 30 Etude de phase III randomisée évaluant l Intérêt de la colectomie première chez les patients porteurs d un cancer colique asymptomatique avec métastases hépatiques synchrones non résécables
1. Vocabulaire : Introduction au tableau élémentaire
L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie
Droits des patients et indemnisation des accidents médicaux
Droits des patients et indemnisation des accidents médicaux Etablissement public sous la tutelle du Ministère chargé de la santé Les recours possibles pour les patients OBTENIR DES EXPLICATIONS Si un patient
Droits des patients et indemnisation des accidents médicaux
Droits des patients et indemnisation des accidents médicaux Etablissement public sous la tutelle du Ministère chargé de la santé Lorsqu il estime avoir été victime, de la part d un établissement ou d un
COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES
J. sci. pharm. biol., Vol.9, n - 00, pp. 9-0 EDUCI 00 9 VALLEE POLNEAU S.* DIAINE C. COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES Notre étude visait à comparer les résultats obtenus
LES DIFFERENTS TYPES DE MESURE
LES DIFFERENTS TYPES DE MESURE Licence - Statistiques 2004/2005 REALITE ET DONNEES CHIFFREES Recherche = - mesure. - traduction d une réalité en chiffre - abouti à des tableaux, des calculs 1) Qu est-ce
LES GENERATEURS DE NOMBRES ALEATOIRES
LES GENERATEURS DE NOMBRES ALEATOIRES 1 Ce travail a deux objectifs : ====================================================================== 1. Comprendre ce que font les générateurs de nombres aléatoires
The Over-60 Research Unit UCSF 2007 adaptation en français en 2013
The Over-60 Research Unit UCSF 2007 adaptation en français en 2013 Adaptée par Amandine Capber Titulaire d'un Master 2 recherche, étudiante en Master 2 professionnel Neuropsychologie et Psychopathologie
Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
http://mondomaine.com/dossier : seul le dossier dossier sera cherché, tous les sousdomaines
Principales fonctionnalités de l outil Le coeur du service suivre les variations de position d un mot-clé associé à une URL sur un moteur de recherche (Google - Bing - Yahoo) dans une locale (association
