PARTIE PRATIQUE 1-66

Dimension: px
Commencer à balayer dès la page:

Download "PARTIE PRATIQUE 1-66"

Transcription

1 Master de Santé publique M2 recherche STATISTIQUE MATHEMATIQUE PARTIE PRATIQUE 1-66 Table des matières au début (p. 1-2) Tables statistiques T1 - T22 PARTIE THEORIQUE 1-50 Table des matières à la fin (p )

2 1 Table des matières de la PARTIE PRATIQUE Introduction 3 A Rappels de probabilités. Principes des tests et de l'estimation A1 Calcul de probabilités et variables aléatoires réelles 3 A2 Lois de probabilité les plus utilisées 5 A2-1 Lois continues 5 a. Lois normales 5 b. Lois exponentielles 7 c. Lois gamma 7 d. Lois du chi deux 8 e. Lois béta 9 f. Lois de Fisher-Snedecor 10 g. Lois de Student 10 A2-2 Lois discrètes 10 a. Lois de Bernoulli 10 b. Lois binomiales 11 c. Lois multinomiales 11 d. Lois de Poisson 11 A2-3 Approximations 12 a. Approximation normale de la binomiale 12 b. Approximation normale d'une somme 13 c. Approximation de Poisson de la binomiale 13 d. Approximation normale du chi deux 14 A3 Principe des tests 14 A4 Principe de l'estimation et maximum de vraisemblance 15 B Tests d'ajustement B1 Introduction 17 B2 Test d'ajustement du chi2 pour une loi spécifiée 17 a. cas discret 17 b. cas continu 18 B3 Test d'ajustement du chi2 avec estimation de paramètres 19 B4 Test de Kolmogorov-Smirnov pour un échantillon 23 C Mise en évidence de liaisons : tests d'indépendance C1 Cas de deux variables discrètes 25 a. à deux valeurs 25 b. à un nombre quelconque de valeurs 27 C2 Cas d'une variable continue et d'une variable à deux valeurs 29 a. Test de comparaison de moyennes 30 a1 grands échantillons 30 a2 petits échantillons 30 b. Tests non paramétriques 32 b1 Test de la médiane 33

3 2 b2 Test de Wilcoxon 35 b3 Test de Kolmogorov-Smirnov pour 2 échantillons 36 C3 Cas de deux variables continues 38 a. Couple normal : test du coefficient de corrélation 38 b. Cas général : tests non paramétriques 39 coefficient de corrélation des rangs de Spearman 39 coefficient de corrélation de Kendall 41 c. Intervention d'un troisième facteur 43 coefficient de corrélation partielle 43 D Tests non paramétriques pour comparer k échantillons 1 k échantillons indépendants 45 Test de la médiane généralisée 46 Analyse de la variance non paramétrique : test de Kruskal-Wallis 49 2 k échantillons liés : analyse de la variance NP à deux facteurs 52 Variables binaires: test de Cochran 52 Variables continues: test de Friedman 54 Exercices 57 Tables Normale Student Chi deux Kolmogorov-Smirnov pour un échantillon Wilcoxon, Mann-Whitney Spearman Kolmogorov-Smirnov pour deux échantillons Kendall Fisher-Snedecor Kruskal-Wallis Friedman T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 T13 T14 T15 T16 T17 T18 T19 T20 T21 T22

4 Rappels : Probabilités, principes des tests et de l'estimation 3 PARTIE PRATIQUE Introduction Nous rappelons dans cette première partie, plus pratique que celle qui suit: A. Les bases de probabilités nécessaires à la compréhension des méthodes d'analyse statistique ainsi que les notions de base pour l'estimation de paramètres et les tests d'hypothèses. B. Les "Tests d'ajustement" qui traitent le problème qui consiste à vérifier si une variable aléatoire obéit effectivement à une loi de probabilité donnée à l'avance. C'est une généralisation du problème de comparaison d'une proportion observée à une proportion théorique, où la question est de savoir si une variable de Bernoulli obéit ou non à une loi théorique donnée. C. Les "Tests d'homogénéité et d'indépendance", qui servent à mettre en évidence des liaisons, par exemple entre un facteur de risque et une maladie. Cet exemple conduit à la comparaison de deux proportions observées, qui peut être considéré: - Soit comme un test d'homogénéité de deux échantillons d'une variable en {0,1}, (malades et non-malades) : on se demande si le facteur de risque est présent dans la même proportion dans les deux échantillons. - Soit comme un test d'indépendance entre deux variables prenant les valeurs 0 ou 1. Les tests de comparaison de deux échantillons sont de trois types: - approchés: ils utilisent l'approximation normale, ce qui est possible lorsque la taille de l'échantillon est assez grande, - paramétriques: ils nécessitent de faire une hypothèse précise sur la loi des observations. - non-paramétriques: ces derniers ont l'avantage d'être valables même lorsque les échantillons sont très petits et de ne pas nécessiter d'hypothèse sur la loi les données, (contrairement par exemple au test de Student qui, lui, exige que les variables suivent une loi normale, ce qui n'est pas toujours le cas.). D. Les tests non paramétriques d'analyse de variance destinés à comparer plus de deux échantillons dans le cas où ces échantillons sont liés et dans le cas où ils sont indépendants.

5 Rappels : Probabilités, principes des tests et de l'estimation 4 A Rappel de notions de probabilités. Principe des Tests et de l'estimation. A1 - Calcul des probabilités et variables aléatoires réelles Voici, après l'exemple ci-dessous, quelques unes des propriétés les plus importantes d'une probabilité définie sur un espace formé de E, ensemble fondamental des résultats possibles de l'épreuve aléatoire et d'une famille de parties de E, appelées événements et formant une tribu a. Ces événements seront notés A, B, C, D,.... Exemple Si on examine des patients en notant la présence ou l'absence de trois symptômes tels que maux de tête (S1), insomnie (S2) et vertiges (S3), lorsqu'ils sont atteints d'une maladie M, l'ensemble E des résultats possibles de l'examen a 2x2x2 = 8 éléments qui sont les événements élémentaires : (0,0,0) lorsque aucun des trois symptômes n'est présent, (1,0,0) lorsque seul le premier est présent, etc.. (1,1,1) lorsque les trois symptômes sont présents. a) Probabilité que A ou B se produisent : (additivité de la probabilité) Si A et B sont deux événements d'intersection vide, c'est à dire qu'ils ne peuvent pas se produire ne même temps, alors la probabilité que l'un ou l'autre se produise est égale à la somme de leurs probabilités respectives : P(AUB) = P(A)+P(B). b) Probabilité qu'un événement ne se produise pas : (complémentaire d'un événement) Si A ne se produit pas, c'est que c'est son complémentaire A c dans E qui se produit : P(A c ) = 1 - P(A) c) Probabilité que A se produise sachant que B s'est produit : (probabilité conditionnelle) La probabilité de A conditionnellement à B est notée P(A B) et définie comme P(A B) = P(A B) / P(B) Exemple : Quelle est la probabilité de tirer un roi de cœur d'un jeu de 52 cartes? Que devient cette probabilité si on sait que la carte tirée est rouge? si on sait qu'elle est noire? si on sait que c'est une figure? d) Probabilité que A et B se produisent ensemble :

6 Rappels : Probabilités, principes des tests et de l'estimation 5 Si A et B se produisent ensemble, c'est que l'intersection de A et B, notée A B, se produit. Par définition même de la probabilité de A conditionnellement à B, notée P(A B), on a P(A B) = P(A B)P(B) = P(B A)P(A) Ces deux égalités sont toujours valables, sans condition. e) Indépendance de deux événements : Si A et B sont indépendants, P(A B) = P(A) P(B), P(A B) = P(A), P(B A) = P(B). Ces trois égalités sont équivalentes. Chacune d'elles peut être prise pour définition de l'indépendance de A et B. Espérance et variance d'une variable aléatoire réelle : Si X est une variable aléatoire réelle (v.a.r.), son espérance, ou moyenne, EX et sa variance Var(X), sont ainsi définies : 1)Si X est discrète, telle que P(X = x i ) = p i, i = 1, 2,..,k, son espérance EX et sa variance Var(X) sont respectivement : EX = Σ p i x i, Var(X) = E [ (X - EX)2 ] = Σ p i (x i -EX) 2. Les sommations portent sur tous les indices i = 1,..,k. L'écart-type σ(x) est la racine positive de la variance σ(x) = Var(X). 2) De même, si X est continue, de densité de probabilité f(x) au point x, EX = x f(x) dx, Var(X) = (x - EX) 2 f(x) dx et σ(x) = Var(X). Propriétés de l'espérance et de la variance : - L'espérance, ou moyenne, d'une somme de variables aléatoires est toujours égale à la somme des espérances : E(X 1 + X X n ) = E X 1 + E X E X n. - La variance d'une somme, par contre, n'est en général pas égale à la somme des variances: Var(X+Y) = Var(X) + Var(Y) + 2 cov(x,y), où cov(x,y) vaut, par définition : cov(x,y) = E(XY) - EX EY. Si X et Y sont indépendantes, la variance de leur somme est égale à la somme de leurs variances car cov(x,y) = 0 : Var(X+Y) = Var(X) + Var(Y). Coefficient de corrélation La covariance ne dépend pas de l'origine choisie pour mesurer X et Y. Cependant, elle dépend des unités choisies pour ce faire: si X est mesurée en mètres, et si l'on change cette unité contre le centimètre, la covariance sera, comme le produit XY, multipliée par Pour éliminer cette dépendance, on définit le coefficient de corrélation ρ de X et de Y:

7 Rappels : Probabilités, principes des tests et de l'estimation 6 a) Lois normales N (µ, σ 2 ) ρ = cov(x,y) / σ X σ Y A2 - Lois de probabilité les plus utilisées A2-1. Lois continues Si µ est un nombre réel et σ un nombre positif, X suit la loi normale N(µ,σ 2 ) si sa densité de probabilité au point x vaut 2 1 (x - µ) f(x) = exp (- 2πσ 2 σ 2 ), x IR. Alors, EX = µ, Var(X) = σ 2, et la variable Ζ = (X- µ) / σ suit la loi normale réduite N(0,1) de densité au point z : ϕ(z) = 1 2π e - z 2 2, z IR. On note Φ la fonction de répartition correspondante Φ (z) = P(Z z) = z ϕ(t)dt Elle joue un très grand rôle car il suffit de connaître Φ pour pouvoir calculer toute probabilité relative à une variable normale quelconque N (µ, σ 2 ). En effet, si X suit la loi normale N(µ,σ 2 ) P(X x) = P(µ + σz x) = P(Z (x-µ)/σ ) = Φ [(x µ) / σ] Les valeurs de Φ sont données par une table. Rappelons de plus que si X et Y sont deux variables normales indépendantes, leur somme est encore normale, de moyenne la somme des moyennes et variance la somme des variances: X et Y indépendantes

8 Rappels : Probabilités, principes des tests et de l'estimation 7 L (X) = N(µ, σ 2 ) L (X+Y) = N(µ, + µ', σ 2 + σ' 2 ) L (Y) = N(µ', σ' 2 ) Ce résultat se généralise à la somme de n'importe quel nombre de variables normales indépendantes. Couple normal Un couple (X,Y) de variables aléatoires suit une loi normale, ou, en abrégé, est normal, si, pour tous réels fixés a et b, la variable ax + by est une variable aléatoire réelle de loi normale. Dans ce cas, une condition suffisante pour que X et Y soient indépendantes est que leur coefficient de corrélation ρ(x,y) soit nul. b) Lois exponentielles E (λ) La variable aléatoire positive X suit la loi exponentielle de paramètre λ positif, notée E (λ), si elle admet la loi de densité égale en chaque point x 0 à : f(x) = λ e - λx si x 0, ( λ > 0 ). = 0 sinon La fonction de répartition F correspondante au point x s'obtient facilement par intégration de f entre 0 et x et vaut F(x) = 1 - e - λx, si x 0 ; = 0, si x < 0. L'espérance et la variance de X valent respectivement EX = 1 / λ et Var X = 1 / λ 2 En particulier, lorsque λ vaut 1, f(x) = e - x, F(x) = 1 - e - x, EX = 1 et Var(X) =1. On peut toujours se ramener à ce cas par un changement d'échelle, en prenant comme nouvelle unité u' = u / λ, ce qui change X en X' = λ X. c) Lois gamma Γ(a,λ) X suit la loi Γ (a, λ ), a > 0 et λ > 0, si sa densité de probabilité au point x est nulle pour x < 0 et vaut pour les x positifs : f a, λ a λ (x) = Γ(a) x a _1 e λx x 0 où Γ (a) est une généralisation aux valeurs réelles de la fonction factorielle, qui, à l'entier (n+1) fait correspondre le produit n! des n premiers entiers : Γ (n+1) = n! = n(n-1) (n-2) Γ (a) s'écrit Γ(a) = e -t t a-1 dt 0

9 Rappels : Probabilités, principes des tests et de l'estimation 8 On peut vérifier, en le prouvant par intégration par parties, que Γ (z+1) = z Γ (z) pour tout z positif, ce qui donne de proche en proche, si l'on part de z = n, et en tenant compte de ce que Γ (1) = 1, Γ (n+1) = n Γ (n) = n (n-1) Γ (n-1) = n!. De plus, Γ(1/2) = π. Propriété (Somme de deux variables indépendantes de lois gamma ) Si X et Y sont indépendantes de lois gamma, de même paramètre λ, L (X) = Γ(a, λ) et L (Y) = Γ (b, λ), la loi de la somme est encore une loi gamma : L (X + Y) = Γ (a + b, λ). La démonstration se fait en calculant la transformée de Laplace ϕ de la loi de X, supposée égale à Γ (a, λ) : ϕ X (t) = E (e -tx ) (par définition de la transformée de Laplace) = λ a Γ(a) = λ a Γ(a) = λ a (λ+t) a x a-1 e (λ+t)x dx. 0 a-1 y (λ+t) -1 0 y e dy. (λ+t) a-1 Alors ϕ X+Y (t) = E ( e -t(x + Y) ) = E ( e -tx ) E ( e -ty ) puisque X et Y sont indépendantes, et par conséquent ϕ X + Y (t) = (λ /( λ+t)) a+b, qui est la transformée de Laplace de la loi Γ(a+b, λ). d) Lois du chi deux ( χ2 ) à n degrés de liberté C'est, par définition la loi Γ(n/2, 1/2) : χ2 n = Γ(n/2, 1/2). Donc sa densité de probabilité est égale à 1 n / 2 1 x / 2 fn(x) = x e si x 0 n / 2 2 Γ(n / 2) Sa transformée de Laplace est donc égale à [(1/2) / (1/2 +t)] n/2, soit ϕ (t) = (2t + 1) - n/2. Théorème Soit Z 1, Z 2,..., Z n, n variables indépendantes de loi normale N(0,1). Alors la variable χ n 2 = Ζ1 2 + Ζ Z n 2 suit la loi du χ2 à n degrés de liberté (d.d.l.), notée χ2 n.

10 Rappels : Probabilités, principes des tests et de l'estimation 9 démonstration: D'après ce qui précède, il suffit de montrer que L (X 2 ) = Γ(1/2, 1/2) si X est normale N(0,1), c'est à dire que sa transformée de Laplace est égale à (2t + 1) -1/2 : ϕ X1 2 (t) = E ( e t(x 1 2 ) ) = (1/ 2π) e x 2 (t+1/2) =(2t+1) 1/2. Moments On voit sans calcul que E (χ 1 2 ) = 1, puisque cette moyenne est égale à celle de Z1 2, c'est à dire à la variance de Z 1, qui est de moyenne nulle, et de variance 1. De même, E ( χ n 2 ) = n. Pour calculer tous les moments, E( χ n 2k ), il suffit de dériver la transformée de Laplace ϕ χ 1 2 (t) par rapport à t et d'en prendre la valeur au point 0. On remarquera lors de la démonstration ci-dessous, que c'est une méthode générale. Notant simplement ϕ cette fonction, on voit que ϕ ' (t) = (2t+1) -3/2 = E( χ n 2 ) et que, de manière générale, la dérivée d'ordre k vaut ϕ (k) (t) = (2k-1) (2t+1) - (k + 1/2) = x 2k e -tx f(x 2 ) d( x 2 ) La valeur au point 0 de cette dérivée donne donc le moment d'ordre k : ϕ (k) (0) = (2k-1) E( χ 1 2k ) Par définition de la variance, on a Var(χ 1 2 ) = E (( χ 1 2 ) 2 ) - (E ( χ 1 2))2 = 3 1 = 2. Comme l'indépendance de Z 1, Z 2,..., Z n entraîne l'indépendance de leurs carrés et que tous les Z i 2 suivent la même loi du χ 1 2, on a immédiatement Var (χ n 2 ) = 2 n. e) Lois Béta Définition On dit que la v. a. β suit la loi béta de paramètres a et b ( a > 0 et b > 0 ) si 1 x a 1 b 1 P ( β x) = Ix (a,b) = y (1 y) dy x [0 1] B(a,b) 0 Comme on le voit, β est une variable continue prenant ses valeurs dans l'intervalle [0 ; 1] et sa densité au point x est 1 a 1 b 1 f(x;a,b) = x (1 x) x [0 1] B(a,b)

11 Rappels : Probabilités, principes des tests et de l'estimation 10 f (x;a,b) = 1 B(a,b) xa-1 (1-x) b-1 0 Š x Š 1 où B (a,b) = Γ(a+b) Γ(a) Γ(b) ( = (a+b-1)! (a-1)! (b 1)! si a et b sont entiers). On peut prouver que si β suit la loi de f. r. I x (a,b) alors E β = a a + b et Var β = ab (a+b) 2 (a+b+1) Si U et V sont deux variables aléatoires indépendantes, de lois Γ(a,λ) et Γ(b,λ), le rapport U / (U+V) suit la loi béta β (a,a+b). f) Loi de Fisher-Snedecor à n 1 et n 2 degrés de liberté F ( n 1, n 2 ) Si U est une variable aléatoire qui suit la loi béta ( n 1 /+2, n 2 /2), la variable aléatoire ( n 2 / n 1 ) U suit la loi de Fisher-Snédécor à n 1 et n 2 degrés de liberté, notée F(n 1,n 2 ). En particulier, si L (Y 1 ) = χ2 (n1 ) L (Y 2 ) = χ2 (n2 ) L ( n 2 Y 1 / n 1 Y 2 ) = F (n 1, n 2 ) Y 1 et Y 2 indépendantes g) Loi de Student à n degrés de liberté T(n) Par définition, si L (X) = N(0,1) L (Y) = χ2 (n ) L (X / Y n ) = T(n) X et Y indépendantes A2-2. Lois discrètes a) Loi de Bernoulli b(p), p [ 0 1] C'est la loi d'une variable aléatoire X qui ne peut prendre que deux valeurs, 1 avec la probabilité p et 0 avec la probabilité 1-p notée q : P(X=1) = p ; P(X=0) = 1- p = q ; EX = p ; Var(X) = pq. b) Loi binomiale B (n, p), n ΙΝ, 0 p 1 C'est la loi de la somme S n de n variables aléatoires X 1,X 2,..,X n indépendantes et de même loi de Bernoulli b(p), de paramètre p (0 p 1)

12 Rappels : Probabilités, principes des tests et de l'estimation 11 X i = 1 avec la probabilité p 0 avec la probabilité q = 1 - p Si 1 correspond au "succès" et 0 à l'échec la statistique S n = X 1 + X X n qui représente le nombre total de succès au cours des n épreuves ne prend que les valeurs entières j de 0 à n. La loi de S n est donnée par n! P (S n = j ) = p j = p j q n-j, j = 0,1,2,...n. j! (n- j)! ES n = np et Var (S n ) = npq L'espérance et la variance sont obtenues comme sommes des espérances et variances des Bernoulli. Le nombre des combinaisons de n objets pris j par j, qui vaut n! / j! (n-j)!, est généralement noté j n C n ou j c) Loi multinomiale M (n, p 1, p 2,..., p r ), n ΙΝ, p i 0, Σ p i =1 Si la variable de base X a r modalités au lieu de 2, qu'elle peut prendre avec les probabilités respectives p 1, p 2,..., p r, lorsqu'on répète n fois l'épreuve de manière indépendante, on obtient r effectifs N 1, N 2,..., N r, où N i est le nombre de fois que la modalité i a été observée. Alors, pour chaque i, la loi de N i est la loi binomiale de paramètres n et p i L (N i ) = B(n,p i ), i = 1, 2,..., r ; E(N i ) = np i et Var(N i ) = np i q i. Mais il est clair que deux effectifs N i et N j qui correspondent à deux valeurs différentes de X, i et j, ne sont pas des variables indépendantes. En effet, la somme de tous ces effectifs est fixée et vaut n, le nombre total des observations. La loi de N = (N 1,..., N r ) ne peut donc pas être décrite à partir des seules lois binomiales B(n,p i ) de chacun des N i. Elle est appelée la loi multinomiale de paramètres (n, p 1, p 2,..., p r ) et notée M (n; p 1, p 2,..., p r ). La probabilité de l'événement { N 1 = n 1, N 2 = n 2,..., N r = n r } est égale, pourvu que la somme des n i soit égale à n, à

13 Rappels : Probabilités, principes des tests et de l'estimation 12 P(N 1 =n 1,N 2 =n 2,..., N r =n r ) = n! n 1!n 2!... n r! p 1 n 1p2 n 2... pr n r Remarque Les variables (N i -np i ) / np i q i sont centrées réduites, et, lorsque n est grand (np i et nq i au moins égaux à 5), à peu près normales N(0,1). C'est ce qui est utilisé pour les tests du chi deux. d) Loi de Poisson (λ), λ > 0 Définition Une v.a. X suit la loi de Poisson de paramètre λ > 0, notée π (λ), si elle peut prendre toutes les valeurs entières, 0 compris, la probabilité p k pour qu'elle prenne la valeur k étant définie par λ k Alors p k = P (X = k) = e - λ k = 0,1,2,... EY = Var(Y) = λ On rappelle que 0! = 1 par définition. k! λ paramètre > 0 Propriété (Somme de variables de Poisson indépendantes) La somme de deux variables de Poisson indépendantes est encore une variable de Poisson de paramètre la somme des paramètres : X et Y indépendantes L (X) = π (λ) L (X+Y) = π (λ+µ) L (Y) = π (µ) Il en résulte que la somme d'un nombre quelconque de variables de Poisson indépendantes est encore une variable de Poisson, de paramètre la somme des paramètres. A2-3 Approximations a) Approximation normale de la loi binomiale Une variable binomiale S n, de loi B(n,p), a pour espérance np et pour variance npq. Lorsque n est grand, d'après le théorème de limite centrale, la loi de B(n,p) est très proche de la loi normale de même espérance (np) et même variance (npq). A partir de quelle valeur n peut il être considéré comme grand? Cela dépend de p et q. Plus précisément, on pourra remplacer B(n,p) par N(np, npq) dès que n sera assez grand pour que np et nq soient tous les deux supérieurs à 5 : B(n, p) N(np,npq) dès que np 5 et nq 5 ce qui s'écrit aussi S n np + npq Z

14 Rappels : Probabilités, principes des tests et de l'estimation 13 où Z est normale centrée réduite N(0,1). b) Approximation normale d'une somme de variables indépendantes On a un résultat analogue lorsqu'on additionne, non pas des variables de Bernoulli mais des variables indépendantes de même loi et d'espérance µ et variance σ 2 : S n = X 1 + X X n Alors E( S n ) = n µ, Var ( S n ) = n σ 2, et la loi de S n, qui n'est pas connue puisqu'elle dépend de la loi commune des X i, qui n'a pas été précisée, est, lorsque n est grand, proche de la loi normale de même moyenne et de même variance qu'elle : L (S n ) N( n µ, n σ 2 ) Nous considérerons que n est assez grand pour que l'approximation soit valable lorsque n égale ou dépasse 30, ce qui est vrai pour les lois continues usuelles en biologie. Cela peut s'écrire aussi Si S n = X 1 + X X n, indépendantes, de même loi continue, E(X i ) = µ, Var(X i ) = σ 2, et n 30, alors L ( (S n - n µ) / nσ 2 ) Ν(0,1) ce qui s'écrit aussi S n n µ + nσ 2 Z où L (Z) = N(0,1). c) Approximation de Poisson de la binomiale Pour la variable binomiale, lorsque np et nq ne dépassent pas 5 tous les deux, mais que n est grand - ce qui a pour origine que la Bernoulli sous-jacente décrit un événement rare, par exemple p petit - on peut approcher la loi B(n,p) par la loi de Poisson de paramètre égal à np. Plus précisément : on a l'approximation de Poisson suivante pour la loi binomiale : pourvu que p 0,1 et 1 np < 10 B(n,p) Π (np) d) Approximation normale du χ n 2

15 Rappels : Probabilités, principes des tests et de l'estimation 14 Pour calculer des probabilités relatives à des variables du chi deux, on utilisera les tables correspondantes ou l' approximation normale si n est assez grand. En effet, il est clair que la somme de deux variables du chi 2 indépendantes, à m et k degrés de liberté, est une variable du chi 2 à (m+k) degrés de liberté, et que, inversement, une variable du chi 2 à n degrés de liberté peut être considérée comme la somme de n variables indépendantes ayant la loi du chi 2 à 1 d.d.l.. Donc, d'après le théorème de la limite centrale, si n est assez grand P( χ n 2 x ) P ( n + 2n Ζ x ) = Φ ( (x - n) / 2n ). A3 - Principe des tests Le problème qui se pose initialement est celui de savoir si un phénomène vérifie ou non une certaine conjecture, qu'on appelle une hypothèse. Par exemple, il s'agit de savoir si une nouvelle technique constitue ou non un progrès par rapport à la technique classique. Pour le savoir, on se fonde sur l'observation d'une variable aléatoire liée au phénomène. Dans notre exemple, on observera l'effet de cette nouvelle technique sur n produits : X i désignera le résultat sur le i ème produit. X peut par exemple valoir 1 en cas de réussite, 0 en cas d'échec, et c'est alors une variable de Bernoulli b(p), où p est la probabilité de succès - inconnue - de cette nouvelle technique. Mais X i peut aussi bien être la durée de vie du i ème sujet, et c'est alors une variable continue. A partir des observations, on construit une valeur numérique qui est la réalisation d'une variable aléatoire, fonction des observations, qui est appelée une statistique. Notons la Y = ϕ(x 1,..., X n ). Et on choisit ϕ de telle sorte que, si c'est possible, la loi de Y soit connue lorsque l'hypothèse qui nous intéresse est réalisée. Appelons H o cette hypothèse. Alors, si la valeur observée y, réalisation de Y, se trouve dans une zone de trop faible probabilité (en général, si y est trop grand ou trop petit), on rejette H o comme ayant conduit à une observation trop peu probable, voire invraisemblable. Si nous reprenons l'exemple choisi, et si nous supposons que la technique classique a un taux de succès de 50%, sous l'hypothèse H o qu'il n'y a pas d'amélioration, c'est à dire que la nouvelle technique a elle aussi un taux de succès p =1/2, on connait la loi du taux de succès observé P o = ϕ(x 1,..., X n ) = ( X X n ) / n C'est celle d'une binomiale B(n,1/2) multipliée par 1/n, et n est connu puisque c'est le nombre total des observations. En fait, on aimerait rejeter cette hypothèse H o au profit de l'hypothèse H 1 selon laquelle le taux de succès p de la nouvelle technique est supérieur à l'ancien : p > 1/2. On est donc en présence des deux hypothèses H o : p = 0,5 H 1 : p > 0,5 Si la proportion observée po est trop éloignée de 0,5, et plutôt trop grande, on rejettera H o au profit de H 1.

16 Rappels : Probabilités, principes des tests et de l'estimation 15 C'est le type de problème intitulé "Comparaison d'une proportion observée, ici p o, à une proportion théorique, ici 0,5. En général, le nombre n des observations est assez grand pour qu'on puisse se servir de l'approximation normale. D'ailleurs, dans tous les cas où la variable de base, qui est ici Bernoulli, est quelconque, on n'a aucun moyen de connaître la loi de Y = ϕ(x 1,..., X n ) sous H o, sauf à employer l'une des approximations qui figurent au paragraphe précédent. D'où l'usage extensif de la loi normale en statistique paramétrique classique. On voit dans cet exemple que la zone de faible probabilité choisie comme zone de rejet de l'hypothèse nulle H o a été choisie à droite : ce choix est destiné à rendre aussi grande que possible la puissance du test, c'est à dire la probabilité d'accepter H 1 lorsqu'elle est vraie. Lorsqu'on teste deux hypothèses simples, on a un moyen de rendre maximum cette puissance pour un niveau donné a (on rappelle que le "niveau" d'un test est la probabilité de rejeter H 0 quand elle est vraie) : c'est de rejeter H o lorsque le rapport des probabilités des observations sous H o et sous H 1 est plus petit qu'une valeur donnée. Cela est une conséquence du lemme de Neyman et Pearson: Le test de H o (P = P 0 ) contre H 1 (P = P1) qui a pour zone de rejet de H o : { x : [P 0 (X=x) / P1(X=x) h} est le plus puissant parmi les tests qui ont le même niveau que lui. Il suffira donc de choisir la valeur du nombre h de telle sorte que P 0 { x : [P 0 (X=x) / P1(X=x) h} = α pour obtenir le test de niveau α le plus puissant. A4 - Principe de l'estimation L'idée originelle est très simple : pour estimer le taux de succès inconnu de la nouvelle technique, on le remplace par le taux observé. L'estimateur de p s'écrit alors : p = X 1+X X n =p n o proportion observée Mais deux points ont besoin d'être précisés dès qu'on veut généraliser : 1) Quelle est la précision d'une telle estimation? on tombe alors sur les intervalles de confiance, c'est à dire qu'au lieu de donner pour évaluer p une seule valeur comme ci-dessus, sans aucun élément sur la précision probabiliste avec laquelle il représente p, on donne un intervalle qui a une forte probabilité (en général 95 %) de contenir p. Pour pouvoir obtenir un tel intervalle, il faut connaitre la loi de l'estimateur ou, à la rigueur, une approximation de celle-ci. Les estimateurs qui nous ont servi jusqu'à présent étant essentiellement des moyennes empiriques, relevaient de l'approximation 2 b). Souvent l'estimateur est sans biais et de loi (approximativement ) normale autour de sa moyenne : Alors L(p) N( p, σ 2 ) [ p-2σ ; p+2σ ]

17 Rappels : Probabilités, principes des tests et de l'estimation 16 est un intervalle de confiance dont la probabilité de contenir p, c'est à dire le coefficient de confiance, est de 95 %. Le coefficient 2 correspond au quantile 0,975 de la loi normale, qui vaut en fait, non pas 2 mais 1,96. En général l'écart-type σ qui figure dans cet intervalle n'est pas connu et doit être estimé sur les observations. Dans l'exemple choisi, la variance de l'estimateur est Var(P 0 ) = p 0 q 0 / n, ce qui donne pour intervalle de confiance à 95 % : [ po - 2 pq n ; po + 2 pq n ]. 2) Que faire s'il n'y a pas (ou s'il y a plusieurs) équivalents empiriques du paramètre à estimer? Alors on peut écrire la vraisemblance V des observations, c'est à dire la probabilité d'observer ce qui a été observé en fonction du (ou des) paramètres à estimer: Pθ (X1 = x1, X2 = x2,..., Xn = xn) = V(θ). La vraisemblance est considérée comme une fonction du paramètre inconnu à estimer, θ, et non comme une fonction des observations x1, x2,..., xn. On choisit comme estimateur de θ la valeur θ qui maximise V(θ):V(θ) V(θ) pour tout θ Une théorie générale montre que ces estimateurs sont très bons, sous des conditions très souvent réalisées, lorsque le nombre des observations est assez grand. Exemple 1 : durée de vie exponentielle On suppose que la durée de vie d'un appareil de dosage suit une loi exponentielle de paramètre θ inconnu. On a observé la durée de vie de 5 tels appareils et obtenu les valeurs suivantes exprimées en jours : 77, 31, 27, 58, 103. Quel estimateur peut on proposer pour θ? Exemple 2 : palmier à huile Le palmier à huile est sujet à une maladie appelée le blast. Cette variété de palmier apparait sous forme de palmiers jumeaux. Dans un champ comprenant n = 500 tels couples de palmiers, on a décompté 242 couples sains, 185 couples composés d'un palmier malade et d'un palmier sain et 73 couples de palmiers malades tous les deux. A combien estimer la probabilité θ pour un palmier d'être malade? On doit, pour être en mesure de faire cette estimation, faire une hypothèse sur la transmission de la maladie d'un palmier à son jumeau.

18 Tests d'ajustement 17 B. TESTS D'AJUSTEMENT B1 - Introduction Très souvent, lors de la résolution d'un problème, on rencontre des phrases du type : "Si la loi de la variable X est normale...", ou "Supposons que la loi de X soit de Bernoulli de paramètre p = 1/2,..." ou en employant un langage plus courant "Supposons que deux structures différentes soient également réparties chez les bactéries". Comment vérifier l'exactitude de ces hypothèses? Les techniques appropriées sont appelées des tests d'ajustement ou tests d'adéquation ("goodness of fit" tests en anglais): étant donnée une loi de probabilité théorique, il s'agit de savoir, à partir d'un n-échantillon, c'est à dire de n observations indépendantes, d'une variable aléatoire X, si cette variable obéit bien à la loi spécifiée. Le test le plus usuel est celui du chi 2 d'ajustement pour une loi multinomiale décrit au début du paragraphe suivant. B2 - Test d'ajustement du chi2 pour une loi spécifiée a. Cas d'une variable discrète : X a un nombre fini r de modalités, notées 1, 2,..., r et il s'agit de tester l'hypothèse Ho : P(X = 1) = p1, P(X = 2) = p2,..., P(X = r) = pr, où p 1, p 2,..., pr sont des probabilités données à l'avance. Alors on considère la statistique E 2 r (N i -np i ) 2 = i=1 n p i qui mesure l'écart relatif entre les effectifs observés Ni et les effectifs moyens npi appelés aussi effectifs "attendus" (de l'anglais "expected") si Ho est vraie. On peut démontrer que, si Ho est vraie, et pourvu que tous les npi soient assez grands (supérieurs à 5), E 2 suit (approximativement) une loi du chi 2 à (r - 1) degrés de liberté (notés ddl). Exemple 3 : dosage Prenons un dosage biologique, qui peut être normal, faible ou fort selon qu'il se situe

19 Tests d'ajustement 18 entre deux bornes, est inférieur à la plus petite, ou supérieur à la plus grande, à r = 3 modalités. On veut tester le fait que 90 % des gens ont un dosage normal, alors que 5 % l'ont faible et 5 % l'ont fort. Pour cela, on tire au hasard 100 sujets et on constate que, sur les 100 dosages, 76 sont normaux, 10 faibles et 14 forts. Quelle sera la conclusion? b. Test d'ajustement du chi 2 pour une variable continue Si l'on se pose la question de savoir si une variable X suit ou non la loi normale N (0, 1), on peut se ramener au problème précédent en discrétisant la variable : c'est-à-dire que l'on fait une partition finie de l'ensemble R de toutes les valeurs possibles de X formée de r intervalles successifs sans point commun : ] -, a1], ]a1, a2],..., ] ar-1 + [ Si l'on a observé un n-échantillon de valeurs de X, x1,..., xn, on résume ces observations en (N1,..., Nr) où N1 désigne le nombre des xi qui sont inférieurs à a1, N2 le nombre de ceux qui tombent entre a1 (non compris) et a2 (compris) etc... Sous l'hypothèse H0 : la loi de X est la loi N (0,1) les probabilités pj pour que X tombe dans chacun des r intervalles Ij = ]aj-1 peuvent être calculées : p j = a j a j π exp {- z2 2 }dz Et on voit donc comment se ramener au problème du paragraphe précédent pour toute loi continue dont la densité est complètement spécifiée. Exemple 4 : Taux de cholestérol On veut savoir si le taux de cholestérol dans une sous population déterminée de patients suit la loi normale de moyenne 200 et variance 36, N (200, 36), qui est la loi du taux de cholestérol dans la population générale, lorsque ce taux est exprimé en cg/l Pour cela, on a extrait au hasard 100 sujets de cette population et obtenu les résultats suivants : Taux de cholestérol Effectif Taux de cholestérol Effectif ] ] 01 ] ] 17 ] ] 02 ] ] 12 ] ] 18 ] ] 4 ] ] 26 ] ] 2 ] ] 16 ] ] 1 ] ] 1 On devra calculer les probabilités attribuées à chacun des intervalles par la loi aj]

20 Tests d'ajustement 19 N (200, 36) : p j = a j 1 exp {- 2π 6 a j-1 (z - 200)2 }dz 72 avec ao = -, a1 = 110, a2 =130,..., a11 = +, ou bien les chercher sur une table donnant la fonction de répartition Φ de la loi N (0 ; 1). En effet pj peut aussi s'écrire pj = F(aj) - F(aj-1) = Φ ( (aj - 200) / 6) - Φ ( (aj-1-200) / 6) On devra ensuite regrouper certains intervalles mitoyens pour être dans les conditions de l'approximation souhaitée, c'est-à-dire npj supérieur à 5 pour chacun des pj. Alors la variable d'écart vaut : E 2 r (N i -np i ) 2 = Σ i=1 n p i et, sous l'hypothèse nulle Ho, le taux de cholestérol suit dans cette sous-population la loi N (200, 36), E2 suit une loi proche de la loi du chi 2 à r -1 degrés de liberté. Si la valeur observée de E2, soit e2, est trop grande, c'est-à-dire par exemple si : P(χ2 r-1 e2 ) 0,05 et si l'on s'est fixé le seuil de 5%, on rejettera Ho. On pourra faire le calcul des pj, du nombre de classes qui restent après regroupement et finalement conclure, au seuil de 5%. B3 - Tests d'ajustement du chi 2 avec estimation de paramètres Lors des deux cas que nous avons envisagés jusqu'ici, les lois sur lesquelles on voulait réaliser l'ajustement étaient complètement spécifiées. En fait, le cas le plus fréquent en pratique est celui où la loi sur laquelle on cherche à réaliser l'ajustement n'est pas complètement spécifiée, mais comporte des paramètres qu'il faut d'abord estimer. Par exemple, lorsqu'on se demande si une variable est normale, c'est en général sans avoir d'a priori sur la moyenne et la variance de cette loi. On doit alors estimer µ et σ2 respectivement par m et s2 pour pouvoir effectuer un ajustement sur la loi N (m ; s2). De même, s'il s'agit d'une loi multinomiale, les paramètres ne sont pas toujours complètement spécifiés, comme l'illustre l'exemple suivant. Exemple 2 : suite Le problème est de déterminer si la maladie du palmier à huile, le blast, se transmet d'un pied à son pied jumeau.

21 Tests d'ajustement 20 L'hypothèse que l'on veut tester, Ho, est que la maladie ne se transmet pas. Alors, si θ représente la probabilité pour qu'un pied soit malade, et si X est la variable aléatoire qui désigne le nombre de pieds malades dans un couple (X vaut 0, 1 ou 2), on a : P (X =2) = θ2 = p1 P (X = 1) = 2 θ (1 θ) = p2 P (X = 0) = (1 - θ)2 = p3 Si l'on observe n couples de palmiers jumeaux, on testera donc si la loi de (N1, N2, N3) où N1 est le nombre de couples dont les deux éléments sont malades, N2 le nombre de couples comportant un seul pied malade, N3 le nombre de couples dont aucun pied n'est malade, est une loi multinomiale de paramètres (n ; θ2, 2 θ (1 θ), (1 - θ)2 ). Préalablement à l'ajustement, il faudra estimer θ. Nombre de pieds malades dans le couple Nombre de couples Avec les notations précédemment introduites : N1 = 73, N2 =185, N3 = 242 p1 = θ2, p2 = 2 θ (1 θ), p3 = (1 - θ)2. La vraisemblance s'obtient en remplaçant dans : P (N1 = n1, N2 = n2, N3 = n3) n1 par 73, n2 par 185, n3 par 242, ce qui donne une fonction de θ seul. Calculons donc Pθ (N1 = n1, N2 = n2, N3 = n3), c'est-à-dire, de manière générale, la loi multinomiale de paramètres (n ; θ2, 2 θ (1 θ), (1 - θ)2 ) : n! P( N 1 =n 1,N 2 =n 2,N 3 =n 3 )= n 1!n 2!n 3! p n 1 n 1 p 2 n 2 p 3 3 On voit que ce calcul se généralise au cas où l'on a, non plus 3, mais un nombre r quelconque de classes pour le caractère étudié. Ici, cela donne pour la vraisemblance de l'échantillon : 500! P( N 1 =73,N 2 =185,N 3 = 242 ) = 73! 185!242! θ 2x73 [2θ(1 -θ)] 185 (1 θ) 2 x 242 L'estimateur du maximum de vraisemblance de θ est la valeur qui rend cette fonction de θ aussi grande que possible. On obtient généralement cette valeur, qui rend la vraisemblance maximum, en cherchant le maximum du logarithme de la vraisemblance

22 Tests d'ajustement 21 puisque la fonction Logarithme est monotone croissante. On note V(θ) la vraisemblance et L(θ) son logarithme. Ici L(θ) vaut : L(θ) = ( ) log θ + ( ) log (1 - θ) + C où C désigne une constante (C ne dépend pas de θ, mais elle dépend des effectifs observés). On obtient le maximum de L en dérivant L par rapport à θ : L'( θ ) = 331 / θ / (1 - θ) = 0 ce qui donne θ= = 0,331 valeur qui correspond effectivement à un maximum puisque L" ( 0,331 ) < 0. Qu'il s'agisse d'une variable discrète d'emblée ou d'une variable continue rendue discrète par subdivision de ses valeurs en un nombre fini de classes, soit X une variable prenant r valeurs distinctes, qu'on appellera 1, 2,..., r par commodité, et soit P (X = 1) = p1 et de manière générale P (X = i ) = pi pour i variant de 1 à r. Les valeurs de p1,..., pr sont des fonctions connues d'un ou plusieurs paramètres θ 1,..., θ k qui sont inconnus et qu'on remplace par leurs estimateurs du maximum de vraisemblance : n n! 1p2 n 2...pk k V( θ 1, θ 2,..., θ k )= n 1!n 2!n 3! p 1 ( θ 1, θ 2,..., θ k ) ( θ 1, θ 2,..., θ k ) ( θ 1, θ 2,..., θ k )n est la vraisemblance de l'échantillon si l'on a observé n1 fois la valeur 1 pour X, n2 fois la valeur 2, etc... Et les valeurs θ 1, θ 2,..., θ k sont celles qui rendent maximum cette fonction. On peut, si V est différentiable obtenir ces valeurs par dérivation. Il en résulte des estimateurs Pour tester p 1, p 2,..., p r H0 : la loi de X a pour paramètre θ 1,..., θ k On calcule la variable d'écart E2 entre les effectifs observés ni dans chacune des classes et leurs espérances sous Ho : E 2 r (N i -np i ) 2 = i=1 n p i Alors, sous Ho, E2 suit une loi proche de celle du chi-2 a r-k-1 degrés de liberté, pourvu que n soit assez grand pour que

23 Tests d'ajustement 22 n p i 5 pour i = 1, 2,..., r Le nombre de degrés de liberté est diminué du nombre k de paramètres estimés. Ce résultat est vrai pourvu que les paramètres soient estimés par la méthode du maximum de vraisemblance. Exemple 2 : palmier à huile (suite) Revenons à l'exemple du palmier à huile. On a estimé un paramètre θ, et les valeurs correspondantes estimées de p1, p2, p3 sont : 0,1096, 0,4422 et 0,4475 On vérifie que n p i 5 pour i = 1, 2, 3 La variable d'écart : E 2 = r Σ i=1 (N i -np i ) 2 n p i = 12,55 suit approximativement la loi du chi 2 à 1 degré de liberté (r-k-1 = =1) sous l'hypothèse nulle. Or P (χ1 2 12,55 ) < 0,001 On rejette donc l'hypothèse nulle, et le test est significatif avec un degré de signification inférieur à 1 o /oo. Remarque 1 Comme il est, dans certains cas, comme par exemple celui où la loi de X était continue et a été discrétisée, assez compliqué d'estimer les paramètres non spécifiés par la méthode du maximum de vraisemblance sur les classes, qui est le cadre dans lequel est démontrée la convergence vers une loi du chi 2 de la variable d'écart E2, on se contente quelquefois d'utiliser d'autres estimateurs, plus simples, de ces paramètres. Exemple Pour ajuster des données à une loi normale d'espérance et de variance non précisées, on remplace souvent cette espérance et cette variance par leurs estimateurs empiriques x et s n 2 n-1 On pourra évaluer la différence des résultats obtenus en utilisant cette approximation et en se plaçant au contraire dans le cadre strict de la théorie sur les données concernant le taux de cholestérol. Remarque 2 En ce qui concerne la puissance de ces tests d'ajustement, appelés "tests du Chi-deux", l'alternative contient trop de probabilités différentes pour qu'elle soit vraiment étudiée. La loi de E2, sous chacune de ces lois pose un problème différent qu'il faut résoudre au coup par coup.

24 Tests d'ajustement 23 B4 - Test de Kolmogorov-Smirnov : On remarquera que le test d'ajustement du chi 2 est très bien adapté à des variables à r classes non ordonnées. En effet la statistique sur laquelle se fonde le test, E2, ne tient pas compte d'un ordre éventuel des r classes. Si l'on veut utiliser cette propriété, on peut utiliser un autre test d'ajustement : le test de Kolmogorov- Smirnov. La statistique sur laquelle est fondé ce test est D = sup Fn- F. Sup Fn- F signifie : sup t R Fn (t) - F (t), c'est-à-dire le maximum de la valeur absolue de la différence entre la fonction de répartition F de la loi sur laquelle on veut faire l'ajustement et la fonction de répartition empirique (ou fonction cumulative observée) : F n (t) = 1 n n Σ 1 ]- t] (x i) i=1 c'est-à-dire la fonction de répartition associée à la loi empirique (ou observée) définie par l'échantillon (x1,..., xn). Sous l'hypothèse nulle Ho, selon laquelle X a effectivement pour fonction de répartition F, la loi de D dépend uniquement de la taille n de l'échantillon. Cette loi est tabulée pour n variant de 1 à 35. Pour les valeurs de n supérieures à 35, on utilise la convergence de la loi de D n vers une loi indépendante de n, quand n croit : P(sup t n F n (t)-f(t) < α ) 1-2 Σ (- 1) k+1 e -2k2 α 2 k = 1 pour tout α positif. Il n'est pas nécessaire de retenir ce résultat. Ce qui importe c'est que, en pratique, dès que n est supérieur à 35, on peut utiliser une loi unique et par suite les valeurs correspondant aux seuils de signification de 20 %, 15 %,...,1 % forment une seule ligne de la table, la dernière, à condition bien sûr d'effectuer dans chaque cas la division par n, où n est le nombre des observations. Exemple 6 : radiographies Un appareil de radiographie admet 5 réglages possibles, allant du plus clair au plus foncé en ce qui concerne le tirage. On veut tester l'hypothèse, grâce à 10 médecins observant chacun les 5 tirages différents d'une même radio, concernant chacune un patient différent, selon laquelle la lisibilité de la radiographie est la même pour les cinq tirages On appelle Ho cette hypothèse, qui dit que les préférences des médecins, en ce qui concerne la lisibilité des radios, devraient être uniformément réparties sur les cinq tirages. Rang de la radio choisie (1 est la plus foncée) Nombre de sujets choisissant ce rang F : fonction de répartition 1/5 2/5 3/5 4/5 5/5

25 Tests d'ajustement 24 théorique sous H0 Fn : fonction de répartition 0/10 1/10 1/10 6/10 10/10 empirique Fn - F 2/10 3/10 5/10 2/10 0 Donc D = 5/10 = 0, 500. Pour n = 10, la table de la loi de D, sous H 0, nous dit que : PH0 (D 0, 500) < 0, 01 Le test est donc significatif, on rejette H 0, avec un degré de signification inférieur à 1%. Remarque : Le test de Kolmogorov a plusieurs avantages sur le test du chi 2 : 1) Il ne perd pas d'information comme c'est le cas parfois lorsqu'on est obligé de regrouper des classes pour avoir des effectifs suffisants dans chacune d'entre elles. 2) Lorsque le nombre d'observations est petit, le test du χ2 ne peut pas s'appliquer du tout. Si l'on essaie d'appliquer le test du χ2 à l'exemple ci-dessus, on doit combiner plusieurs catégories adjacentes : Foncé (1,2) Clair (3,4,5) Fréquence de choix 1 9 Alors χ1 2 = 3,75. La probabilité que χ1 2 soit supérieur à 3,75 tombe entre 0,05 et 0,10, ce qui ne nous permet pas de rejeter Ho au seuil de 5%. Ce test est moins puissant que le test de Kolmogorov- Smirnov, car on a perdu de l'information.

26 Indépendance 25 C Mise en evidence de liaisons : Tests d'indépendance. La mise en évidence de l'existence d'une liaison entre deux caractères aléatoires a beaucoup d'importance dans toutes les études épidémiologiques, en particulier lorsqu'on a comme objectif la prévention des maladies. Les techniques employées sont différentes suivant que les variables étudiées sont discrètes ou continues; elles sont différentes aussi suivant que le type de loi des variables est connu ou non. Nous distinguerons trois cas fondamentaux qui donnent lieu chacun à diverses méthodes : les variables sont toutes les deux discrètes, une seule est continue et les deux le sont. Dans chacun de ces trois cas, nous avons vu une méthode particulière lors du chapitre I. Partant de là, nous allons introduire d'autres méthodes, plus générales. C1 - Les deux caractères sont discrets : a - Deux caractères à deux classes : Le cas le plus simple est celui où chacun des deux caractères A et B ne prend que deux valeurs. Prenons un exemple : on se demande si la sensibilité aux intoxications professionnelles dépend des conditions de vie : est elle la même pour la population rurale et pour la population citadine? On dispose des observations suivantes : Intoxication sensibles non sensibles taille d'échantillon Milieu Citadins Ruraux portant sur deux échantillons tirés au hasard d'une part parmi les habitants de la ville et d'autre part parmi les habitants de la campagne. Nous savons déjà traiter ce problème, par la technique de la "comparaison de deux proportions observées" qui sont ici : - La proportion observée d'individus sensibles parmi les citadins, soit p o = 123/276 = 0,45 - La proportion observée d'individus sensibles parmi les ruraux, soit p' o = 145/295 = 0,49 Si p est la proportion exacte, dans la population des citadins toute entière, de ceux qui sont sensibles, et p' la même quantité pour les gens de la campagne, on teste l'hypothèse H o (p = p'), la contre- hypothèse étant H 1 (p p'). Sous l'hypothèse nulle H o, la variable aléatoire

27 Indépendance 26 E= P' o -P o P t Q t ( 1 n n 2 ) où P o est la proportion de sensibles pour un échantillon de n 1 citadins P' o est la proportion de sensibles dans un échantillon de n 2 ruraux P t est la proportion de sensibles dans l'échantillon total de taille n 1 + n 2 Q t = 1 - P t a une loi qui est proche de la loi normale de moyenne nulle et de variance 1, notée N(0, 1): en effet n 1 p o, n 1 q o, n 2 p' o, n 2 q' o sont tous supérieurs à 5. On notera, dans toute la suite Z une variable de loi N(0,1). La valeur observée de E, dans notre exemple est : e= p' o - p o p t q t ( 1 n n 2 ) = 0,49-0,45 1 0,47.0,53 ( ) = 0,04 0,04 = 1 Et la probabilité pour que, sous l'hypothèse H o, on ait observé une valeur de E, qu'on appelle l'écart réduit des deux proportions, au moins aussi grande que e, en valeur absolue, vaut donc à peu près P ( Ε e ) P ( Ε 1) 0,32 Le degré de signification du test est donc 0,32, et le test n'est donc pas significatif : on conserverait H o pour tout seuil α inférieur à 0,32. Or on n'estime en général qu'un test est significatif que si son degré de signification - qui vaut ici environ 30 % - est inférieur ou égal à 5 %. On conclut donc que le mode de vie, citadin ou campagnard, n'a pas d'influence sur la sensibilisation aux intoxications professionnelles. Pour généraliser ce test au cas où les deux caractères A et B ont plus de deux modalités, on l'exprime sous une autre forme, en remarquant qu'il est équivalent de dire Ε e ou E 2 e 2 De même que lors de l'étude des tests d'ajustement, on peut montrer que E 2 s'écrit aussi, en notant : N 1 l'effectif de ceux qui sont sensibles parmi les citadins N 2 l'effectif de ceux qui ne sont pas sensibles parmi les citadins N 3 l'effectif de ceux qui sont sensibles parmi les ruraux N 4 l'effectif de ceux qui ne sont pas sensibles parmi les ruraux P t la proportion des sensibles sur le total Q t la proportion des insensibles sur le total Q t = 1 - P t

28 Indépendance 27 E 2 = (N 1 - n 1 P t )2 + (N 2 - n 1 Q t ) 2 + (N 3 - n 2 P t ) 2 + (N 4 - n 2 Q t ) 2 n 1 P t n 1 Q t n 2 P t n 2 Q t Sous l'hypothèse nulle H o d'indépendance des deux caractères, qui se traduit par l'égalité des proportions de sensibles dans les deux populations de citadins et de ruraux, tout se passe comme si l'on avait un seul échantillon de taille n 1 +n 2 et P t constitue alors un bon estimateur de cette proportion. Alors E 2 peut être interprété comme la somme des carrés des écarts (réduits) de chacun des effectifs à sa moyenne estimée. On appelle quelquefois les N i les effectifs observés et les n i P t et n i Q t les effectifs "calculés" ou "théoriques". Sous l'hypothèse H o, pourvu que les dénominateurs n i P t et n i Q t soient tous supérieurs ou égaux à 5, E est approximativement normale N(0, 1), donc E 2 est approximativement χ 2 1.On rappelle qu'on appelle loi du chi deux à r degrés de liberté (notée χ 2 r ) la loi de la variable S = Z 2 1 +Z Z2 r où les Zi sont indépendantes et toutes de loi N(0, 1)). Dans la table des lois du chi deux, on lit que P(E 2 >e 2 ) = P(E 2 > 1) 0, 32. On constate donc que le test fondé sur E 2 est identique à celui fondé sur E, mais la forme E 2 permet une généralisation immédiate en cas où A a r modalités, B a k modalités. b - Deux caractères à r et k classes : Prenons à nouveau un exemple : on veut savoir si le temps écoulé depuis la vaccination contre la petite vérole a ou non une influence sur le degré de gravité de la maladie lorsqu'elle apparaît. Les patients sont divisés en trois catégories selon la gravité de leur maladie - légère (L), moyenne (M), ou grave (G) - et en trois autres quant à la durée écoulée depuis la vaccination - moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C). Les résultats d'une observation portant sur n = 1574 malades sont les suivants : Durée X écoulée depuis

29 Degré de gravité Y de la maladie Indépendance 28 la vaccination A B C Total G M L Total Pour mettre en évidence une liaison entre X et Y, on choisit de tester les hypothèses nulle et alternative : H o : X et Y sont indépendantes, H 1 : X et Y sont liées. De manière générale, soient X et Y deux variables discrètes, X à r classes et Y à k classes, notées respectivement i = 1,..., r et j = 1,..., k et n ij l'effectif observé, dans le tableau croisé, des individus pour lesquels X vaut i et Y vaut j. On note n.j le nombre total de ceux pour lesquels Y vaut j, et qui figure au bas de la jème colonne, et n i. le nombre total de ceux pour lesquels X vaut i, et qui figure à droite de la ligne i. Sous l'hypothèse H o d'indépendance de X et Y : P (X = i, Y = j) = P (X = i). P (Y = j) soit p ij = p i. p. j Comme des estimateurs de chacune de ces probabilités à partir du tableau des effectifs du tableau des observations, sont Si Ho est vraie, les écarts p ij = n ij n, p i. = n i. n,p.j = n.j n p ij - p i.. p.j ne doivent être dus qu'aux fluctuations d'échantillonnage, On peut démontrer que la variable E 2 = (n ij -n i. p.j ) 2 i = 1,..,r ; j = 1,..,k n i. p.j suit une loi proche de celle du χ 2 à (r - 1) (k -1) degrés de liberté, pourvu que les dénominateurs ni. p.j soient tous supérieurs à 5 (si ce n'est pas le cas, on regroupe plusieurs classes). Revenant à l'exemple considéré, r = k = 3 et la variable E2, qui vaut e = 61,4, suit, sous l'hypothèse Ho, une loi du χ 2 à (r -1) (k - 1) = 4 degrés de liberté.

Bases : Probabilités, Estimation et Tests.

Bases : Probabilités, Estimation et Tests. Université René Descartes LMD Sciences de la Vie et de la Santé UFR Biomédicale, M1 de Santé Publique 45 rue des Saints-Père, 75 006 Paris Spécialité Biostatistique M1 COURS de BIOSTATISTIQUE I Bases :

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes IUT HSE Probabilités et Statistiques Feuille : variables aléatoires discrètes 1 Exercices Dénombrements Exercice 1. On souhaite ranger sur une étagère 4 livres de mathématiques (distincts), 6 livres de

Plus en détail

Introduction à la Statistique Inférentielle

Introduction à la Statistique Inférentielle UNIVERSITE MOHAMMED V-AGDAL SCIENCES FACULTE DES DEPARTEMENT DE MATHEMATIQUES SMI semestre 4 : Probabilités - Statistique Introduction à la Statistique Inférentielle Prinemps 2013 0 INTRODUCTION La statistique

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau GEA II Introduction aux probabilités Poly. de révision Lionel Darondeau Table des matières Énoncés 4 Corrigés 10 TD 1. Analyse combinatoire 11 TD 2. Probabilités élémentaires 16 TD 3. Probabilités conditionnelles

Plus en détail

4 Distributions particulières de probabilités

4 Distributions particulières de probabilités 4 Distributions particulières de probabilités 4.1 Distributions discrètes usuelles Les variables aléatoires discrètes sont réparties en catégories selon le type de leur loi. 4.1.1 Variable de Bernoulli

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

3. Conditionnement P (B)

3. Conditionnement P (B) Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte

Plus en détail

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. 14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,

Plus en détail

Calculs de probabilités conditionelles

Calculs de probabilités conditionelles Calculs de probabilités conditionelles Mathématiques Générales B Université de Genève Sylvain Sardy 20 mars 2008 1. Indépendance 1 Exemple : On lance deux pièces. Soit A l évènement la première est Pile

Plus en détail

Raisonnement par récurrence Suites numériques

Raisonnement par récurrence Suites numériques Chapitre 1 Raisonnement par récurrence Suites numériques Terminale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Raisonnement par récurrence. Limite finie ou infinie d une suite.

Plus en détail

Cours 02 : Problème général de la programmation linéaire

Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

choisir H 1 quand H 0 est vraie - fausse alarme

choisir H 1 quand H 0 est vraie - fausse alarme étection et Estimation GEL-64943 Hiver 5 Tests Neyman-Pearson Règles de Bayes: coûts connus min π R ( ) + ( π ) R ( ) { } Règles Minimax: coûts connus min max R ( ), R ( ) Règles Neyman Pearson: coûts

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

Probabilité. Table des matières. 1 Loi de probabilité 2 1.1 Conditions préalables... 2 1.2 Définitions... 2 1.3 Loi équirépartie...

Probabilité. Table des matières. 1 Loi de probabilité 2 1.1 Conditions préalables... 2 1.2 Définitions... 2 1.3 Loi équirépartie... 1 Probabilité Table des matières 1 Loi de probabilité 2 1.1 Conditions préalables........................... 2 1.2 Définitions................................. 2 1.3 Loi équirépartie..............................

Plus en détail

CHAPITRE VIII : Les circuits avec résistances ohmiques

CHAPITRE VIII : Les circuits avec résistances ohmiques CHAPITRE VIII : Les circuits avec résistances ohmiques VIII. 1 Ce chapitre porte sur les courants et les différences de potentiel dans les circuits. VIII.1 : Les résistances en série et en parallèle On

Plus en détail

Couples de variables aléatoires discrètes

Couples de variables aléatoires discrètes Couples de variables aléatoires discrètes ECE Lycée Carnot mai Dans ce dernier chapitre de probabilités de l'année, nous allons introduire l'étude de couples de variables aléatoires, c'est-à-dire l'étude

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. Pré-requis : Probabilités : définition, calculs et probabilités conditionnelles ; Notion de variables aléatoires, et propriétés associées : espérance,

Plus en détail

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48 Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation

Plus en détail

Travaux dirigés d introduction aux Probabilités

Travaux dirigés d introduction aux Probabilités Travaux dirigés d introduction aux Probabilités - Dénombrement - - Probabilités Élémentaires - - Variables Aléatoires Discrètes - - Variables Aléatoires Continues - 1 - Dénombrement - Exercice 1 Combien

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Carl-Louis-Ferdinand von Lindemann (1852-1939)

Carl-Louis-Ferdinand von Lindemann (1852-1939) Par Boris Gourévitch "L'univers de Pi" http://go.to/pi314 sai1042@ensai.fr Alors ça, c'est fort... Tranches de vie Autour de Carl-Louis-Ferdinand von Lindemann (1852-1939) est transcendant!!! Carl Louis

Plus en détail

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Polynômes : corrigé. Opérations sur les polynômes Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)

Plus en détail

MA6.06 : Mesure et Probabilités

MA6.06 : Mesure et Probabilités Année universitaire 2002-2003 UNIVERSITÉ D ORLÉANS Olivier GARET MA6.06 : Mesure et Probabilités 2 Table des matières Table des matières i 1 Un peu de théorie de la mesure 1 1.1 Tribus...............................

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Loi binomiale Lois normales

Loi binomiale Lois normales Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

CCP PSI - 2010 Mathématiques 1 : un corrigé

CCP PSI - 2010 Mathématiques 1 : un corrigé CCP PSI - 00 Mathématiques : un corrigé Première partie. Définition d une structure euclidienne sur R n [X]... B est clairement symétrique et linéaire par rapport à sa seconde variable. De plus B(P, P

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

Loi d une variable discrète

Loi d une variable discrète MATHEMATIQUES TD N : VARIABLES DISCRETES - Corrigé. P[X = k] 0 k point de discontinuité de F et P[X = k] = F(k + ) F(k ) Ainsi, P[X = ] =, P[X = 0] =, P[X = ] = R&T Saint-Malo - nde année - 0/0 Loi d une

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Variables Aléatoires. Chapitre 2

Variables Aléatoires. Chapitre 2 Chapitre 2 Variables Aléatoires Après avoir réalisé une expérience, on ne s intéresse bien souvent à une certaine fonction du résultat et non au résultat en lui-même. Lorsqu on regarde une portion d ADN,

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,

Plus en détail

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables

Plus en détail

Que faire lorsqu on considère plusieurs variables en même temps?

Que faire lorsqu on considère plusieurs variables en même temps? Chapitre 3 Que faire lorsqu on considère plusieurs variables en même temps? On va la plupart du temps se limiter à l étude de couple de variables aléatoires, on peut bien sûr étendre les notions introduites

Plus en détail

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2 Probabilités Table des matières I Petits rappels sur le vocabulaire des ensembles 2 I.1 s................................................... 2 I.2 Propriétés...................................................

Plus en détail

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples 45 Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples Les espaces vectoriels considérés sont réels, non réduits au vecteur nul et

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités Chapitre 2 Le calcul des probabilités Equiprobabilité et Distribution Uniforme Deux événements A et B sont dits équiprobables si P(A) = P(B) Si il y a équiprobabilité sur Ω, cad si tous les événements

Plus en détail

Commun à tous les candidats

Commun à tous les candidats EXERCICE 3 (9 points ) Commun à tous les candidats On s intéresse à des courbes servant de modèle à la distribution de la masse salariale d une entreprise. Les fonctions f associées définies sur l intervalle

Plus en détail

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES Théorème - Définition Soit un cercle (O,R) et un point. Une droite passant par coupe le cercle en deux points A et

Plus en détail

Probabilités conditionnelles Loi binomiale

Probabilités conditionnelles Loi binomiale Exercices 23 juillet 2014 Probabilités conditionnelles Loi binomiale Équiprobabilité et variable aléatoire Exercice 1 Une urne contient 5 boules indiscernables, 3 rouges et 2 vertes. On tire au hasard

Plus en détail

Estimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Estimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison Estimation: intervalle de fluctuation et de confiance Mars 2012 IREM: groupe Proba-Stat Estimation Term.1 Intervalle de fluctuation connu : probabilité p, taille de l échantillon n but : estimer une fréquence

Plus en détail

4. Martingales à temps discret

4. Martingales à temps discret Martingales à temps discret 25 4. Martingales à temps discret 4.1. Généralités. On fixe un espace de probabilités filtré (Ω, (F n ) n, F, IP ). On pose que F contient ses ensembles négligeables mais les

Plus en détail

LES GENERATEURS DE NOMBRES ALEATOIRES

LES GENERATEURS DE NOMBRES ALEATOIRES LES GENERATEURS DE NOMBRES ALEATOIRES 1 Ce travail a deux objectifs : ====================================================================== 1. Comprendre ce que font les générateurs de nombres aléatoires

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

Intégration et probabilités TD1 Espaces mesurés Corrigé

Intégration et probabilités TD1 Espaces mesurés Corrigé Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Calculs de probabilités avec la loi normale

Calculs de probabilités avec la loi normale Calculs de probabilités avec la loi normale Olivier Torrès 20 janvier 2012 Rappels pour la licence EMO/IIES Ce document au format PDF est conçu pour être visualisé en mode présentation. Sélectionnez ce

Plus en détail

Espérance conditionnelle

Espérance conditionnelle Espérance conditionnelle Samy Tindel Nancy-Université Master 1 - Nancy Samy T. (IECN) M1 - Espérance conditionnelle Nancy-Université 1 / 58 Plan 1 Définition 2 Exemples 3 Propriétés de l espérance conditionnelle

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université

Plus en détail

Complément d information concernant la fiche de concordance

Complément d information concernant la fiche de concordance Sommaire SAMEDI 0 DÉCEMBRE 20 Vous trouverez dans ce dossier les documents correspondants à ce que nous allons travailler aujourd hui : La fiche de concordance pour le DAEU ; Page 2 Un rappel de cours

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

P1 : Corrigés des exercices

P1 : Corrigés des exercices P1 : Corrigés des exercices I Exercices du I I.2.a. Poker : Ω est ( l ensemble ) des parties à 5 éléments de l ensemble E des 52 cartes. Cardinal : 5 I.2.b. Bridge : Ω est ( l ensemble ) des parties à

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre

Plus en détail

1 TD1 : rappels sur les ensembles et notion de probabilité

1 TD1 : rappels sur les ensembles et notion de probabilité 1 TD1 : rappels sur les ensembles et notion de probabilité 1.1 Ensembles et dénombrement Exercice 1 Soit Ω = {1, 2, 3, 4}. Décrire toutes les parties de Ω, puis vérier que card(p(ω)) = 2 4. Soit k n (

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Introduction à la théorie des files d'attente. Claude Chaudet Claude.Chaudet@enst.fr

Introduction à la théorie des files d'attente. Claude Chaudet Claude.Chaudet@enst.fr Introduction à la théorie des files d'attente Claude Chaudet Claude.Chaudet@enst.fr La théorie des files d'attente... Principe: modélisation mathématique de l accès à une ressource partagée Exemples réseaux

Plus en détail

Limites finies en un point

Limites finies en un point 8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Chapitre 2. Eléments pour comprendre un énoncé

Chapitre 2. Eléments pour comprendre un énoncé Chapitre 2 Eléments pour comprendre un énoncé Ce chapitre est consacré à la compréhension d un énoncé. Pour démontrer un énoncé donné, il faut se reporter au chapitre suivant. Les tables de vérité données

Plus en détail

Amphi 3: Espaces complets - Applications linéaires continues

Amphi 3: Espaces complets - Applications linéaires continues Amphi 3: Espaces complets - Applications linéaires continues Département de Mathématiques École polytechnique Remise en forme mathématique 2013 Suite de Cauchy Soit (X, d) un espace métrique. Une suite

Plus en détail

Cours Informatique Master STEP

Cours Informatique Master STEP Cours Informatique Master STEP Bases de la programmation: Compilateurs/logiciels Algorithmique et structure d'un programme Programmation en langage structuré (Fortran 90) Variables, expressions, instructions

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Les travaux doivent être remis sous forme papier.

Les travaux doivent être remis sous forme papier. Physique mathématique II Calendrier: Date Pondération/note nale Matériel couvert ExercicesSérie 1 : 25 septembre 2014 5% RH&B: Ch. 3 ExercicesSérie 2 : 23 octobre 2014 5% RH&B: Ch. 12-13 Examen 1 : 24

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

Continuité et dérivabilité d une fonction

Continuité et dérivabilité d une fonction DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité

Plus en détail

CALCUL DES PROBABILITES

CALCUL DES PROBABILITES CALCUL DES PROBABILITES Exemple On lance une pièce de monnaie une fois. Ensemble des événements élémentaires: E = pile, face. La chance pour obtenir pile vaut 50 %, pour obtenir face vaut aussi 50 %. Les

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Axiomatique de N, construction de Z

Axiomatique de N, construction de Z Axiomatique de N, construction de Z Table des matières 1 Axiomatique de N 2 1.1 Axiomatique ordinale.................................. 2 1.2 Propriété fondamentale : Le principe de récurrence.................

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

I. Ensemble de définition d'une fonction

I. Ensemble de définition d'une fonction Chapitre 2 Généralités sur les fonctions Fonctions de références et fonctions associées Ce que dit le programme : Étude de fonctions Fonctions de référence x x et x x Connaître les variations de ces deux

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

Image d un intervalle par une fonction continue

Image d un intervalle par une fonction continue DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail