«Cours Statistique et logiciel R»



Documents pareils
Cours de Tests paramétriques

«Cours Statistique et logiciel R»

Estimation et tests statistiques, TD 5. Solutions

Probabilités sur un univers fini

Principe d un test statistique

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Méthodes de Simulation

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

PROBABILITES ET STATISTIQUE I&II

Simulation de variables aléatoires

Annexe commune aux séries ES, L et S : boîtes et quantiles

TSTI 2D CH X : Exemples de lois à densité 1

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Programmes des classes préparatoires aux Grandes Ecoles

Lois de probabilité. Anita Burgun

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Moments des variables aléatoires réelles

Probabilités sur un univers fini

Correction du baccalauréat ES/L Métropole 20 juin 2014

Introduction à la Statistique Inférentielle

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

TABLE DES MATIERES. C Exercices complémentaires 42

TESTS D'HYPOTHESES Etude d'un exemple

Analyse de la variance Comparaison de plusieurs moyennes

Texte Agrégation limitée par diffusion interne

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Chapitre 3 : INFERENCE

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Probabilités conditionnelles Loi binomiale

VI. Tests non paramétriques sur un échantillon

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

La fonction exponentielle

Résolution d équations non linéaires

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Probabilités conditionnelles Exercices corrigés

La classification automatique de données quantitatives

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Qu est-ce qu une probabilité?

Travaux dirigés d introduction aux Probabilités

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Biostatistiques : Petits effectifs

Que faire lorsqu on considère plusieurs variables en même temps?

Introduction à l approche bootstrap

Chapitre 2 Le problème de l unicité des solutions

Loi binomiale Lois normales

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

MÉTHODE DE MONTE CARLO.

Commun à tous les candidats

4 Distributions particulières de probabilités

Chapitre 3. Les distributions à deux variables

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Probabilités III Introduction à l évaluation d options

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

IFT3245. Simulation et modèles

Soutenance de stage Laboratoire des Signaux et Systèmes

Apprentissage par renforcement (1a/3)

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Suites numériques 3. 1 Convergence et limite d une suite

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Couples de variables aléatoires discrètes

Représentation d une distribution

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Variables Aléatoires. Chapitre 2

Chapitre 2. Eléments pour comprendre un énoncé

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

3. Conditionnement P (B)

FORMULAIRE DE STATISTIQUES

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Intégration et probabilités TD1 Espaces mesurés Corrigé

Image d un intervalle par une fonction continue

Économetrie non paramétrique I. Estimation d une densité

Introduction à la statistique non paramétrique

Réseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.

La simulation probabiliste avec Excel

Coefficients binomiaux

Relation entre deux variables : estimation de la corrélation linéaire

Précision d un résultat et calculs d incertitudes

Continuité et dérivabilité d une fonction

Probabilités Loi binomiale Exercices corrigés

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Limites finies en un point

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Statistiques Descriptives à une dimension

LES GENERATEURS DE NOMBRES ALEATOIRES

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Probabilités. C. Charignon. I Cours 3

Calcul élémentaire des probabilités

Transcription:

«Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire Jean Kuntzmann, Dép. Modele et Algorithmes Déterministes

Plan de la présentation 1 Introduction 2 Lois usuelles Fonctions d intéret Théorèmes limites 3 Echantillon Estimateur 4 Echantillon gaussien Echantillon de grande taille 5 Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité

Introduction à la démarche statistique A notre disposition : mise en place d une expérience, n résultats (appelés données) obtenus sur un échantillon de la population, calcul d indicateurs sur ces n données, élaboration d hypothèses à partir de ces calculs. Objectif de la statistique inférentielle? étendre les propriétés trouvées sur les n données à la population totale, vérifier la validité de ces propriétés, calculer l erreur commise en étendant les propriétés à la population entière.

Approche par modélisation Modélisation : Utilisation de l outil mathématique afin de résoudre un problème concret (mise en équation, mise en forme à l aide de fonctions, etc...). Un modèle est le choix de particularités ou d hypothèses dans la modélisation. Exemples : Equations de Boltzman, modèle de propagation d une épidémie, modèle de profil de langue (phonétique),... Si le modèle est mal choisi, il engendrera des résultats erronés.

Modélisation statistique Le statisticien cherche à modéliser... l aléatoire L aléa (ou hasard) se trouve dans le choix de l échantillon parmi la population. Modéliser ce hasard permet d étudier le problème considéré et/ou d en extraire un protocole expérimental adapté. Le hasard est appréhendé via des variables aléatoires : chaque donnée x i (après échantillonnage) est considérée comme une réalisation X i (ω) d une variable aléatoire X i (avant échantillonnage, où le choix de l échantillon est modélisé par ω) ayant pour loi de probabilité P. P a priori inconnue modèle = forme ou type choisi(e) pour P (binômiale, Poisson, normale, exponentielle, etc...).

Etapes de la démarche statistique 1 Choix du modèle de probabilité Dépend de la nature du phénomène étudié variables qualitatives, quantitatives le choix n est pas unique en général, plusieurs modèles peuvent être comparés 2 des quantités inconnues A partir des données disponibles, extraire de l information pour estimer/apprendre le modèle de probabilité. Ce problème est appelé problème d ajustement. modèle paramétrique : on se restreint à une famille de lois de probabilités et on estime les paramètres inconnus de la famille de lois modèle semi- ou non-paramétrique : on ne met pas de contrainte de formes sur une partie du modèle

Lois usuelles Fonctions d intéret Théorèmes limites

Lois usuelles Fonctions d intéret Théorèmes limites On distingue les lois de probabilité de variables qualitatives ou quantitatives discrètes, des lois de variables quantitatives continues Variables qualitatives ou quantitative discrète Une variable discrète X prend un nombre fini (ex {1, 2,..., 6}) ou dénombrable de valeurs N. On note x k, k = 1, 2,... les valeurs prises par X. Définir la loi de probabilité de X, c est définir les quantités P(X = x k ) = p k, pour k = 1, 2,... La somme des probabilités de toutes les éventualités vaut 1 : k p k = 1.

Lois discrètes usuelles (1) Lois usuelles Fonctions d intéret Théorèmes limites Loi de Bernoulli B(p), avec p [0, 1] X modélise la survenue ou non d un événement de probabilité p. C est une loi binaire, X prend deux valeurs, 0 ou 1 et P(X = 1) = p, P(X = 0) = 1 p exemples : on s intéresse à l événement A= le patient a la grippe A = l enfant tend le doigt vers l objet qu on lui montre" A = l électeur a voté pour le parti P", etc. Alors X = 1 si l événement A est réalisé, X = 0 sinon. Espérance E(X ) = p ; Variance Var(X ) = p(1 p). Simulation de N réalisations sous R : rbinom(n,1,p)

Lois discrètes usuelles (2) Lois usuelles Fonctions d intéret Théorèmes limites Loi Binomiale B(n, p), avec n un entier et p [0, 1] X modélise le nombre de fois où l évènement A s est produit parmi n expériences. X prend ses valeurs entre 0 et n. P(X = k) = C k n p k (1 p) n k exemples : nombre d enfants dans la classe de 30 enfants qui ont attrapé la grippe nombre d objets vers lequel l enfant a tendu le doigt parmi les 10 présentés nombre de fois où l électeur a voté pour le parti P lors des 5 derniers scrutins Espérance E(X ) = np ; Variance Var(X ) = np(1 p). Simulation de N réalisations sous R : rbinom(n,n,p)

Lois discrètes usuelles (3) Lois usuelles Fonctions d intéret Théorèmes limites Loi géométrique G(p), avec p [0, 1] X modélise le premier instant où l évènement A s est produit dans une suite d expériences successives. X prend ses valeurs dans N. P(X = k) = (1 p) k 1 p exemples : première semaine où un enfant a eu la grippe premier objet que l enfant a attrapé dans une série d objets présentés première fois où un électeur a voté pour le parti P depuis qu il vote Espérance E(X ) = 1/p ; Variance Var(X ) = (1 p)/p 2. Simulation de N réalisations sous R : rgeom(n,p)

Lois discrètes usuelles (4) Lois usuelles Fonctions d intéret Théorèmes limites Loi de Poisson P(λ), avec λ > 0 X modélise le nombre d objets possédant un caractère rare, dans une population X prend ses valeurs dans N. λ λk P(X = k) = e k! exemples : nombre d accidents de la route dans la vie d un individu nombre de mutations sur un gène Espérance E(X ) = λ ; Variance Var(X ) = λ. Simulation de N réalisations sous R : rpois(n,lambda)

Variable quantitative Lois usuelles Fonctions d intéret Théorèmes limites Variables quantitatives continues Une variable continue X prend un nombre indénombrable de valeurs (ex R, R + ). On ne peut pas noter les valeurs prises par X les unes après les autres et on ne peut pas définir la probabilité de chaque valeur comme pour une variable discrète. On introduit la notion de densité de probabilité, qui est une fonction f, positive (f (x) 0) telle que, pour tout intervalle [a, b] P(a X b) = b a f (x)dx La somme" des probabilités de toutes les éventualités vaut 1 : f (x)dx = 1. R

Lois continues usuelles (1) Lois usuelles Fonctions d intéret Théorèmes limites Loi uniforme U([a, b]), avec a < b X prend ses valeurs dans [a, b] de façon équiprobable. f (x) = 1 b a 1 x [a,b] exemples : temps d attente aux urgences en supposant que cette attente ne peut pas dépasser 6h. temps d attente à un arrêt de tramway sachant que le tram passe tous les 5 min. Espérance E(X ) = (a + b)/2 ; Variance Var(X ) = (b a) 2 /12. Simulation de N réalisations sous R : runif(n,a,b)

Lois continues usuelles (2) Lois usuelles Fonctions d intéret Théorèmes limites Loi normale N (µ, σ 2 ) X prend ses valeurs dans R exemples : poids d un individu température à Grenoble f (x) = 1 σ 1 (x µ) 2 2π e 2 σ 2 Espérance E(X ) = µ ; Variance Var(X ) = σ 2. Simulation de N réalisations sous R : rnorm(n,mu, sigma)

Lois continues usuelles (3) Lois usuelles Fonctions d intéret Théorèmes limites Loi exponentielle E(λ) X prend ses valeurs dans R + f (x) = λe λx 1 x>0 exemples : durée avant que l enfant atteigne l objet durée avant la première avalanche Espérance E(X ) = 1/λ ; Variance Var(X ) = 1/λ 2. Simulation de N réalisations sous R : rexp(n,lambda)

Fonction de répartition Lois usuelles Fonctions d intéret Théorèmes limites Pour tout x, Variables discrètes F (x) = P(X x) Variables continues F(x) 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 x F(x) 0.0 0.2 0.4 0.6 0.8 1.0 2 1 0 1 2 x plot(ecdf(x)) curve(pnorm(x,0,1), -2, 2)

Fonction de survie Introduction Lois usuelles Fonctions d intéret Théorèmes limites Pour tout x S(x) = P(X > x) = 1 F (x) S(x) 0.2 0.4 0.6 0.8 1.0 2 1 0 1 2 x curve(1-pnorm(x,0,1),-2, 2)

Fonction quantile Introduction Lois usuelles Fonctions d intéret Théorèmes limites Pour u ]0; 1[, on définit Q(u) = inf(x : F (x) u) u = 50%, Q(u) est la valeur qui séparer la population (la variable) en deux : médiane u = 25%, 25% des valeurs de la variables sont inférieures à Q(u), 75% sont au dessus : premier quartile u = 75%, 75% des valeurs de la variables sont inférieures à Q(u), 25% sont au dessus : troisième quartile u = 10, 20,..., 90% : déciles

Théorèmes limites Introduction Lois usuelles Fonctions d intéret Théorèmes limites Il existe deux grands théorèmes de convergence en probabilité Loi de grands nombres Théorème centrale limite Ces théorèmes font appel à des notions de convergence de variables aléatoires. Il en existe de plusieurs sortes. Convergence en loi = convergence des fonctions de répartition Convergence presque sure = toute trajectoire converge avec probabilité 1

Lois des grands nombres Lois usuelles Fonctions d intéret Théorèmes limites Loi des grands nombres Soit (X i ) 1 i n une suite de v.a. iid, de même espérance µ. Pour tout n 1, soit X n = 1 n X i. Alors, quelle que soit la loi des X i, quand n n, i=1 X n P,ps µ. En d autres termes, quelle que soit la loi des X i, si n est grand, X n est proche de µ.

Théorème central limite (TCL) Lois usuelles Fonctions d intéret Théorèmes limites Théorème central limite Soit (X i ) 1 i n une suite de v.a. iid, de même espérance µ et de même variance σ 2. Pour tout n 1, soit X n = 1 n X i. Alors, quelle que soit n la loi des X i, la v.a. T n = n X n µ σ converge en loi vers une v.a. de loi N (0, 1). En d autres termes, quelle que( soit la loi des X i, si n est grand, X n suit σ approximativement la loi N µ, ). n i=1

Echantillon Estimateur Echantillon Estimateur

Population et Echantillon Echantillon Estimateur Population P : Ensemble total des objets ou individus sur lequel on étudie un caractère statistique X. Supposons Card(P) = N. Echantillon E : Sous-ensemble de P. Card(E) = n. Observations : Propriété recherchée : Tirages successifs de n individus dans P n v.a. (X 1,..., X n ) avant échantillonnage (plusieurs choix d échantillons). Obervations (x 1,..., x n ) après échantillonnage (un tirage = une réalisation de (X 1,..., X n )). Chaque variable avant échantillonnage suit la même loi que celle de X dans la population.

Quantités inconnues Echantillon Estimateur On se place dans le cadre paramétrique, c est-à-dire qu on restreint l étude de la loi de X à une famille de loi (binomiale, Poisson, normale, exponentielle, etc). Cette famille de loi est fixée, choisie en fonction du contexte de modélisation, mais son ou ses paramètres sont généralement inconnus. On note θ les paramètres inconnus de la loi de X. Exemples Loi binomiale : θ = p Loi de Poisson : θ = λ Loi normale : θ = (µ, σ 2 ) Loi exponentielle : θ = λ On cherche à approcher au mieux θ grâce aux n valeurs de l échantillon : c est le problème d ajustement.

Echantillon Estimateur Exemple de la moyenne et la variance Moyenne µ et variance σ 2 du caractère X dans la population P : quantités déterministes (P fixe) liées aux valeurs de X sur P : µ = E(X ), σ 2 = Var(X ), µ et σ 2 inconnues : on n a pas accès à toutes les valeurs de X sur P. Echantillonnage : approcher au mieux µ et σ 2 grâce aux n valeurs (x 1,..., x n ) tirées aléatoirement dans l ensemble des N valeurs de X sur P. Estimateurs de µ et σ 2 : variables aléatoires calculées à partir de (X 1,..., X n ) (avant échantillonnage) s de µ et σ 2 : quantités déterministes, réalisations des estimateurs sur l échantillon (après échantillonnage).

Echantillon Estimateur Estimateur : Avant Echantillonnage Avant échantillonage les estimateurs de µ et σ 2 sont des variables aléatoires (aléa de l échantillonnage) : X n = 1 n n X i estimateur de µ, i=1 S 2 l = 1 n n (X i X n ) 2 estimateur de σ 2. i=1 Remarque : Un autre estimateur de σ 2 est souvent utilisé S 2 = 1 n 1 n (X i X n ) 2. i=1

Echantillon Estimateur : Après Echantillonnage On tire un échantillon E de taille n dans P. (x 1,..., x n ) n valeurs du caractère sur E. (x 1,..., x n ) = une réalisation de (X 1,..., X n ). valeurs numériques correspondant à la réalisation des estimateurs sur l échantillon : x n = 1 n x i réalisation de X n, n s 2 l = 1 n i=1 n (x i x n ) 2 réalisation de Sl 2, i=1 s 2 = n n 1 s2 l. Après échantillonnage, x n, sl 2 et s 2 sont des valeurs déterministes = réalisation des estimateurs X n, Sl 2 et S 2 sur l échantillon en question.

Résumé Introduction Echantillon Estimateur Exemple : Estimer la moyenne µ du caractère X dans la population. Ensemble d individus Observations/Paramètres Population P µ moyenne des valeurs de X sur P. µ = E(X ). µ est déterministe (valeur inchangée). Echantillon E (choisi aléatoirement dans P) X 1,..., X n sur l échantillon aléatoire. X n = 1 n X i avant échantillonnage. n i=1 X n est un estimateur de µ. X n est aléatoire (dépend de E). x n = 1 n x i moyenne sur E. n i=1 x n est déterministe une fois E choisi.

Problème Statistique Echantillon Estimateur Inconnues : distribution d un caractère X dans une population P. Hypothèse : la loi de X dans P (généralement de forme connue) dépend d un paramètre θ inconnu (espérance, variance,...), éventuellement multi-dimensionnel. A disposition : n observations x 1, x 2,..., x n, mesures du caractère faites sur un échantillon E de taille n. = (x 1, x 2,..., x n ) réalisation d un n-uplet de variables aléatoires (X 1, X 2,..., X n ) indépendantes et identiquement distribuées (i.i.d.), de même loi que X. On dit que (X 1, X 2,..., X n ) est un échantillon aléatoire simple, ou un n-échantillon, de la loi de X. Problème : Comment estimer θ à partir des n-observations (x 1, x 2,..., x n )?

Estimateurs et Echantillon Estimateur Estimateur Soit (X 1, X 2,..., X n ) un n-échantillon d une loi P θ dépendant d un paramètre réel inconnu θ (déterministe, déduit de P ou du modèle). On appelle estimateur de θ une variable aléatoire T n = f (X 1, X 2,..., X n ). Remarque : Un estimateur est en fait une suite de v.a. (T n ) n 1. On assimile souvent l estimateur avec le terme général de la suite T n. Soit T n un estimateur de θ. On appelle estimation de θ la réalisation t n de la v.a. T n, obtenue à partir de la réalisation déterministe (x 1, x 2,..., x n ) du n-échantillon (X 1, X 2,..., X n ) sur E. t n = f (x 1, x 2,..., x n ).

Exemple de la proportion Echantillon Estimateur Problème : Estimer la proportion p de "Pile" obtenue au cours d une infinité de lancers. Réalisation : n résultats binaires (x 1,..., x n ) sur n lancers indépendants. Modèle : X binaire (1 si succès, 0 sinon) de loi B(1, p) = (X 1,..., X n ) iid de loi B(1, p) Paramètre : θ est la proportion inconnue p. Estimateur : T n = ˆp = X proportion aléatoire (dépend des n lancers). : t n = x proportion obtenue après les n lancers. Exemple : Sur 30 lancers, on obtient 17 "Pile". Une estimation de p sera alors 17/30 = 0, 57. Question : On aurait pu prendre T n = 0 (fonction constante), ou T n la proportion aléatoire de "Face" obtenus au cours des n lancers. Ce sont également des fonctions des (X 1,..., X n ). Quelles propriétés essentielles devra avoir T n pour être considéré comme convenable?

Propriétés Recherchées Echantillon Estimateur Deux types de propriétés : Propriétés à temps fixe, comme par exemple sur E(T n ), Var(T n ),... Propriétés asymptotiques, lorsque n tend vers l infini : par exemple, un estimateur raisonnable se concentrera de plus en plus autour de sa cible (i.e. le paramètre θ) lorsque n croît. Propriétés étudiées de manière conjointe afin de définir un estimateur raisonnable.

Estimateurs sans biais Echantillon Estimateur En moyenne sur tous les échantillons possibles, l estimateur "vise bien" : Biais Soit T n un estimateur de θ. Biais de T n : B(T n ) = E(T n ) θ. Si B(T n ) = 0 (i.e. E(T n ) = θ), T n est dit estimateur sans biais de θ. Si B(T n ) 0 (i.e. E(T n ) θ), T n est dit biaisé. Une bonne propriété est donc que l estimateur soit sans biais. Si T n est biaisé, on espère que le biais tende vers 0 lorsque n + : Soit T n un estimateur de θ. Si B(T n ) tend vers 0 lorsque n tend vers l infini, T n est dit estimateur asymptotiquement sans biais de θ.

Exemple d Estimateur Biaisé Echantillon Estimateur Dans le cas d une proportion, X suit la loi B(1, p). On considère 3 estimateurs pour p : T n = 1 n n X i, i=1 T n = 1 n n (1 X i ), T n = 0. i=1 Alors E(T n ) = p, T n est sans biais, E(T n) = 1 p, T n est biaisé, avec un biais égal à 1 2p, E(T n ) = 0, T n est biaisé, avec un biais égal à p. Remarque : T n est un estimateur sans biais de 1 p (proportion de "Face").

Consistance Introduction Echantillon Estimateur Autre propriété recherchée : consistance= plus n est grand, et plus T n est "probablement proche" de θ. Consistance L estimateur T n de θ est consistant de θ s il converge en probabilité vers θ quand n tend vers l infini : ε > 0, P( T n θ ε) n 0. C est la loi (faible) des grands nombres pour l estimateur X n : Loi (faible) des grands nombres Soient n variables aléatoires X 1, X 2,, X n de même loi qu une variable aléatoire X telle que E(X ) = µ et Var(X ) = σ 2 sont finis. Alors, P X n µ n

Propriétés Recherchées : Résumé Echantillon Estimateur Propriétés recherchées pour T n estimateur de θ : B(T n ) = 0 ou B(T n ) n 0, Var(T n ) minimale si B(T n ) = 0 ou. B(T n ) n 0, T n consistant. Exemple d estimateur vérifiant toutes ces propriétés? X n estimateur de µ. ˆp estimateur de p.

Cas de la Variance Introduction Echantillon Estimateur Deux estimateurs de σ 2, variance du caractère X dans la population : 1 Cas où la moyenne µ dans la population est connue : Sl 2 = 1 n (X i µ) 2 (non-biaisé), n i=1 S 2 = 1 n 1 n (X i µ) 2 (biaisé). i=1 2 Cas où la moyenne µ dans la population est inconnue : S 2 l = 1 n n (X i X ) 2 (biaisé), i=1 S 2 = 1 n 1 n (X i X ) 2 (non-biaisé). i=1

Cas de la Variance (2) Echantillon Estimateur On suppose que µ 4 = E((X µ) 4 ) existe. Alors Var(S 2 l ) 1 n (µ 4 σ 4 ), Var(S 2 ) n (n 1) 2 (µ 4 σ 4 ), avec égalité lorsque µ est connue. Comme l un est sans biais et l autre est asymptotiquement sans biais, S 2 l et S 2 sont tous les deux consistants, que µ soit connue ou non.

Echantillon gaussien Echantillon de grande taille

Introduction Echantillon gaussien Echantillon de grande taille (X 1,..., X n ) n-échantillon d une loi dépendant d un paramètre θ. On sait construire un estimateur T n de θ et en déduire une estimation (donc une valeur) de θ à partir d une réalisation (x 1,..., x n ). Exemple : si θ = µ moyenne sur la population, T n = X n et t n = x n estimation de θ sur l échantillon. Problème : quelle confiance accorder à cette estimation? Solution : trouver un encadrement de θ du type [t n ε; t n + ε] avec un niveau de confiance donné. Ce niveau de confiance sera atteint via la loi de l estimateur T n. Exemple : pour θ = µ et à variance connue, à un niveau de confiance donné de 95%, trouver ε de telle sorte que P(θ [ X n ε; X n + ε]) 0.95. Comme il s agit d une probabilité, ε dépend évidemment de la loi de X n.

Intervalle de Confiance Echantillon gaussien Echantillon de grande taille But : encadrer θ avec une probabilité α (par exemple α = 5%, 1%,...) de se tromper. = Intervalle aléatoire I θ,α = [A, B], où A et B sont deux variables aléatoires telles que Intervalle de Confiance (IC) P(θ [A; B]) = P(θ I θ,α ) = 1 α. Soit α un réel tel que 0 < α < 1. On appelle intervalle de confiance du paramètre θ de niveau de confiance 1 α (ou de risque α) un intervalle aléatoire I α tel que P(θ I α ) = 1 α. I α construit à partir de la loi de l estimateur T n de θ. Deux cas : les échantillons gaussiens et les échantillons de loi quelconque de taille suffisamment grande (pour pouvoir appliquer le TCL).

Echantillon Gaussien Echantillon gaussien Echantillon de grande taille (X 1,..., X n ) n-échantillon de loi gaussienne N (µ, σ). Intervalle de confiance de µ à σ connue X n estimateur sans biais et consistant de µ. = on l utilise pour construire un intervalle de confiance de µ de niveau de confiance 1 α. (X 1,..., X n ) iid de loi N (µ, σ) donc X n µ n N (0, 1). σ ( On cherche donc c α tel que P c α n X ) n µ c α = 1 α. σ c α : quantile d ordre 1 α/2 d une N (0, 1). [ = I α = X n c ασ ; X n + c ] ασ. n n

Echantillon Gaussien (2) Echantillon gaussien Echantillon de grande taille σ connue (suite) Exemple : Pour α = 5%, c α = 1, 96 = µ I α avec une probabilité fixe égale à 95% : si on répétait l expérience aléatoire de tirage d un échantillon de taille n un grand nombre de fois, pour 95% d entre eux (950 sur 1000 par exemple) l intervalle contiendrait la valeur µ. Pour un échantillon donné de taille n, l intervalle correspondant est donc [ x n c ασ ; x n + c ] ασ. n n Cet intervalle sera alors l estimation par intervalle de µ, qui contiendra (échantillon typique) ou ne contiendra pas (échantillon atypique) la vraie valeur de µ. Remarque : on peut aussi construire des intervalles unilatéraux tels que P(µ B α ) = 0.95 ou P(µ A α ) = 0.95.

Echantillon gaussien Echantillon de grande taille Simulation d intervalle de confiance de µ dans le cas gaussien Simulations niveau<-0.95 mu<-5 sigma<-1 N<-100 n<-50 X <- matrix(rnorm(n*n, mu, sigma),n,n) Calculs des intervalles de confiance Xbar <- rowmeans(x) ual2 <- (1+niveau)/2 ca <- qnorm(ual2) amp <- ca*sigma/sqrt(n) bi <- Xbar - amp bs <- Xbar + amp

Echantillon gaussien Echantillon de grande taille Simulation d intervalle de confiance de µ dans le cas gaussien (2) Graphique des intervalles de confiance matplot(rbind(bi,bs),rbind(1:n,1:n), type = l, lty=1) abline(v=mu) echantillon 0 20 40 60 80 100 4.6 4.8 5.0 5.2 5.4 5.6 mu

Echantillon gaussien Echantillon de grande taille Simulation d intervalle de confiance de µ dans le cas gaussien (3) Proportion d intervalles contenant la vraie valeur sa<-(length(which((bi<mu)&(bs>mu))))/n Faire varier N et n

Echantillon Gaussien (3) Echantillon gaussien Echantillon de grande taille Cas µ et σ 2 inconnus X n estimateur sans biais et consistant de µ. = on l utilise pour construire un intervalle de confiance de µ de niveau de confiance 1 α. S 2 estimateur sans biais et consistant de σ 2. = on l utilise pour construire l intervalle de confiance de niveau de confiance 1 α de σ 2.

Echantillon Gaussien (4) Echantillon gaussien Echantillon de grande taille Cas µ et σ 2 inconnus (suite) Soit (X 1,..., X n ) un n-échantillon de loi N (µ, σ). Soient X n = 1 n n i=1 X i et S 2 = 1 n 1 n (X i X ) 2. i=1 Alors n X n µ S 2 T (n 1) (loi de Student à n 1 degrés de liberté)

Echantillon Gaussien (6) Echantillon gaussien Echantillon de grande taille Cas µ et σ 2 inconnus (suite) Donc on cherche c α tel que P de la loi de Student, ( c α n X ) n µ c α = 1 α à l aide S 2 c α est le quantile d ordre 1 α/2 de la loi de Student à n 1 degrés de libertés On obtient l intervalle de confiance de µ de niveau de confiance 1 α, [ I α = X n c α S 2 ; X n + c ] α S 2 n n

Echantillon gaussien Echantillon de grande taille Simulation d intervalle de confiance de µ dans le cas gaussien Simulations niveau<-0.95 mu<-5; sigma<-1 N<-100 n<-50 X <- matrix(rnorm(n*n, mu, sigma),n,n) Calculs des intervalles de confiance Xbar <- rowmeans(x) S <- apply(x,1,sd) ual2 <- (1+niveau)/2 ca <- qt(ual2, n-1) amp <- ca*s/sqrt(n) bi <- Xbar - amp bs <- Xbar + amp

Echantillon gaussien Echantillon de grande taille Simulation d intervalle de confiance de µ dans le cas gaussien (2) Graphique des intervalles de confiance matplot(rbind(bi,bs),rbind(1:n,1:n), type = l, lty=1) abline(v=mu) Proportion d intervalles contenant la vraie valeur sa<-(length(which((bi<mu)&(bs>mu))))/n Faire varier N et n

Echantillon Gaussien (3) Echantillon gaussien Echantillon de grande taille Intervalle de confiance de σ 2 à µ inconnue S 2 estimateur sans biais et consistant de σ 2. = on l utilise pour construire l intervalle de confiance de niveau de confiance 1 α de σ 2. (X 1,..., X n ) iid de loi N (µ, σ) donc (n 1) S 2 σ 2 χ2 (n). On cherche donc c α et d α tels que P (c α (n 1) S 2 ) σ 2 d α = 1 α. = I α = [(n 1) S 2 ; (n 1) S 2 ]. d α c α Remarque : Pour un intervalle unilatéral, on cherche par exemple d α tel que P ((n 1) S 2 ) σ 2 d α = 1 α.

Echantillon gaussien Echantillon de grande taille Simulation d intervalle de confiance de σ 2 dans le cas gaussien Simulations niveau<-0.95 mu<-5 sigma2<-1 N<-100 n<-50 X <- matrix(rnorm(n*n, mu, sqrt(sigma2)),n,n) Calculs des intervalles de confiance S2 <- apply(x,1,var) ca <- qchisq((1-niveau)/2, n-1) da <- qchisq(1-(1-niveau)/2, n-1) bi <- (n-1)*s2/da bs <- (n-1)*s2/ca

Echantillon gaussien Echantillon de grande taille Simulation d intervalle de confiance de σ 2 dans le cas gaussien (2) Graphique des intervalles de confiance matplot(rbind(bi,bs),rbind(1:n,1:n)) abline(v=sigma2) Proportion d intervalles contenant la vraie valeur sa<-(length(which((bi<sigma2)&(bs>sigma2))))/n Faire varier N et n

Echantillon de Grande Taille Echantillon gaussien Echantillon de grande taille (X 1,..., X n ) n-échantillon d une loi inconnue d espérance µ = E(X 1 ) et de variance σ 2 = Var(X 1 ). On suppose n 30. Problème : construire un intervalle de confiance de µ de niveau de confiance 1 α. Solution : Utiliser le théorème central limite (TCL) pour approcher la loi de X n par une loi connue. Comme n 30, on peut approcher la loi de n X n µ par une loi σ normale centrée et réduite. On peut aussi montrer que on peut approcher la loi de n X n µ par S une loi normale centrée et réduite.

Echantillon de Grande Taille (2) Cas où σ est connue Echantillon gaussien Echantillon de grande taille Intervalle de confiance de µ de niveau de confiance 1 α [ I α = X n c ασ ; X n + c ] ασ, n n où c α obtenu via la table de la loi normale centrée réduite. Cas où σ est inconnue Intervalle de confiance de µ de niveau de confiance 1 α [ I α = X n c α Tn ; X n + c ] α Tn, n n où c α obtenu via la table de la loi normale centrée réduite.

Echantillon gaussien Echantillon de grande taille Simulation d intervalle de confiance de µ dans le cas non gaussien Simulation d un échantillon de Bernoulli de parametre p niveau<-0.95 p<-0.6 N<-100 n<-50 X <- matrix(rbinom(n*n, 1, p),n,n) Calculs des intervalles de confiance Xbar <- rowmeans(x) S <- apply(x,1,sd) ual2 <- (1+niveau)/2 ca <- qt(ual2, n-1) amp <- ca*s/sqrt(n) bi <- Xbar - amp bs <- Xbar + amp

Echantillon gaussien Echantillon de grande taille Simulation d intervalle de confiance de µ dans le cas gaussien (2) Graphique des intervalles de confiance matplot(rbind(bi,bs),rbind(1:n,1:n), type = l, lty=1) abline(v=mu) Proportion d intervalles contenant la vraie valeur sa<-(length(which((bi<p)&(bs>p))))/n

Echantillon gaussien Echantillon de grande taille Calcul d intervalle de confiance avec RStudio Jeu de données cystifibr install.packages("iswr") library(iswr) help(cystfibr) summary(cystfibr) attach(cystfibr) Calcul de l IC par la fonction t.test t.test(fev1, conf.level=0.95)$conf.int t.test(fev1, alternative = "less")$conf.int t.test(fev1, alternative = "greater")$conf.int Différences entre les sexes tapply(fev1,sex,summary) t.test(fev1[sex==0], conf.level=0.95)$conf.int t.test(fev1[sex==1], conf.level=0.95)$conf.int

Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité

Problématique Introduction Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Exemple de la comparaison de deux échantillons boxplot(fev1 sex) fev 20 30 40 50 0 1 sex On observe une différence entre les deux groupes. Est-elle significative? Pour cela on effectue un test statistique.

Démarche générale Introduction Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité On dispose de n données x 1,, x n réalisations de n variables aléatoires X 1,, X n. On va chercher à tester des hypothèses portant sur la loi de probabilité du n-uplet (X 1,, X n ) modélisant les observations. On se placera essentiellement dans le cadre où les X i sont indépendantes et identiquement distribuées (iid). On effectue un test de H 0 contre H 1, H 0 et H 1 étant deux hypothèses portant sur la loi de X 1, X n.

Démarche générale (2) Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité La construction d un test va consister à établir une règle de décision permettant de faire un choix entre les deux hypothèses H 0 et H 1 au vu d un échantillon de même loi que X. En faisant ce test nous allons faire deux types d erreurs La première erreur consiste à rejetter l hypothèse H 0 alors qu elle est vraie. La deuxième erreur consiste à garder l hypothèse H 0 alors qu elle est fausse.

Choix des hypothèses Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité H 0 est l hypothèse privilégiée L hypothèse H 0 appelée hypothèse nulle est celle que l on garde si le résultat de l expérience n est pas clair. On conserve H 0 sauf si les données conduisent à la rejeter. Quand on ne rejette pas H 0, on ne prouve pas qu elle est vraie ; on accepte de conserver H 0 car on n a pas pu accumuler suffisamment d éléments matériels contre elle ; les données ne sont pas incompatibles avec H 0, et l on n a pas de raison suffisante de lui préférer H 1 compte-tenu des résultats de l échantillon. L hypothèse H 1 contre laquelle on teste H 0 est appelée contre hypothèse ou hypothèse alternative.

Niveau du test Introduction Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité En pratique, on va imposer pour le test que la probabilité de rejetter H 0 à tort (alors qu elle est vraie) soit petite, inférieure à α, que l on appelera le niveau du test. Lorsque le test conduira à rejeter H 0 pour H 1, on dira que le test de niveau α est significatif. Dans ce cas, on aura démontrer H 1 avec un risque α de se tromper.

Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Erreurs de première et de seconde espèces Lors de la prise de la décision de rejetter ou non l hypothèse H 0, on peut commettre deux erreurs : L erreur de première espèce est l erreur que l on commet lorsqu on rejette H 0 à tort, ie lorsqu on choisit H 1 alors que H 0 est vraie. La probabilité de commettre cette erreur, que l on appelle le risque de première espèce, est notée P(rejeter H 0 à tort) = P H0 (rejeter H 0 ). Pour un niveau de test α, on impose que P H0 (rejeter H 0 ) α. L erreur de deuxième espèce est l erreur que l on commet lorsqu on accepte H 0 à tort, ie lorsqu on ne rejette pas H 0 alors qu elle est fausse ; la probabilité de commettre cette erreur, que l on appelle le risque de deuxième espèce, est notée β avec β = P(accepter H 0 à tort) = P H1 (accepter H 0 )

Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Erreurs de première et de seconde espèces (2) Décision H 0 H 1 Réalité H 0 Décision correcte Erreur de première espèce Probabilité : 1 α Probabilité α H 1 Erreur de seconde espèce Décision correcte Probabilité β Probabilité 1 β

Stratégie Introduction Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité La stratégie consiste à fixer le niveau du test α. Si α = 5%, il y a 5 chances sur 100 que, si H 0 est vraie, l échantillon ne donne pas une valeur de l observation comprise dans la zone d acceptation de H 0. On est donc prêt à rejeter H 0 si le résultat fait partie d une éventualité improbable n ayant que 5% de chances de se produire. L hypothèse H 0 est privilégiée : on veut avant tout contrôler le risque de rejeter H 0 à tort. Une fois le risque de première espèce controlé par α, on cherchera alors à minimiser le risque de deuxième espèce β : une fois qu on a controlé le risque de rejetter H 0 à tort, on va chercher à minimiser le risque de la garder à tort.

Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Choix de H 0 Selon les cas, le choix de l hypothèse nulle est réservé l hypothèse qu il est le plus grave de rejeter à tort. On choisit H 0 et H 1 de telle sorte que le scénario catastrophique soit d accepter H 1 alors que H 0 est vraie. Ce scénario le pire a ainsi une petite probabilité de se réaliser α fixée (le scénario catastrophique dépend souvent du point de vue considéré). l hypothèse dont on a admis jusqu à présent la validité et H 1 représente la contre hypothèse suggérée par une nouvelle théorie ou une expérience récente. Si le test conduit à rejeter H 0, on aura donc démontrer H 1 au risque α de se tromper. l hypothèse qui permet de faire le test (seule hypothèse facile à formuler, permettant calcul de la loi d une variable aléatoire sur laquelle on peut fonder le test).

Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Statistique de test- zone de rejet de H 0 Le test est basé sur une statistique de test, T n, fonction des variables aléatoires X 1,, X n. La statistique de test T n est une variable aléatoire dont la loi sous H 0 va déterminer la zone de rejet de H 0. On rejette H 0 quand T n est "loin" de H 0, vers H 1. Cette zone de rejet ZR α est déterminée de telle sorte que α P(rejeter H 0 à tort) = P H0 (rejeter H 0 ) = P H0 (T n ZR α ). Une fois cette zone de rejet de H 0 déterminée, le risque de deuxième espèce est donné par est β(α) = P(accepter H 0 à tort) = P H1 (accepter H 0 ) = P H1 (T n / ZR α ).

Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Résumé sur les étapes d un test statistique 2 hypothèses : H 0 (nulle) / H 1 (alternative) 1 statistique de test : T dont on connait exactement la loi sous H 0 et la tendance sous H 1. seuil de significativité α On détermine une région de rejet ZR α dans laquelle se trouve T avec proba α sous H 0. Si la statistique observée sur les données t obs se trouve dans la zone de rejet, on rejette l hypothèse H 0 au profit de H 1. Si non, on ne peut rejeter H 0, on ne peut pas prouver que H 0 est fausse.

Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Test d adéquation d un échantillon à une valeur Soit X un caractère quantitatif d une population P dont on veut étudier l espérance E(X ) = µ. On note Var(X ) = σ 2. Soit (X 1,, X n ) un échantillon i.i.d. de même loi que X ; et (x 1,, x n ) une série statistique, réalisation de l échantillon. Soit µ 0 est une valeur de référence connue et fixée. On veut tester H 0 : µ = µ 0 contre une des trois alternatives suivantes H 1 : µ µ 0 H 1 : µ > µ 0 H 1 : µ < µ 0

Construction du test Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Il est naturel de rejeter H 0 si l écart X µ 0 est trop grand. Il faut donc connaître la loi de X µ 0 sous H 0. On distingue plusieurs cas : la variance σ 2 de X est-elle connue ou inconnue? A t on un grand échantillon (de loi quelconque) pour utiliser le TCL, ou un échantillon de loi normale

Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Cas d un échantillon gaussien, variance inconnue On suppose que l on a un n-échantillon (X 1,, X n ) gaussien, X i N (µ, σ 2 ). On estime µ par X n, et σ 2 par S 2. On sait alors que n( X µ 0 ) T n = H0 St(n 1) S 2 (loi de Student à (n 1) degrés de liberté). Test de H 0 : µ = µ 0 contre H 1 : µ µ 0 n( X µ 0 ) Statistique de test : sous H 0, T n = H0 St(n 1). S 2 Règle de décision : Si T n > s α, on rejette H 0 Si T n s α, on ne rejette pas H 0 où s α tq P H0 ( T n > s α ) = α (quantile d ordre 1 α 2 de la loi de Student).

Autre point de vue Introduction Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité La p-valeur Définition La p-valeur est le risque minimal pour accepter H 1. C est le plus petit niveau α pour lequel le test est significatif. C est aussi la probabilité que la statistique de test dépasse la valeur observée sur les données, sous H 0. La p valeur ne peut être calculée qu une fois que les observations ont été faites (t n calculé). C est la valeur habituellement donnée par les logiciels. Plus la p-valeur est faible, moins on prend de risque en rejetant H 0. p valeur significativité du test 0, 01 < p valeur 0, 05 significatif 0, 001 < p valeur 0, 01 très significatif p valeur 0, 001 hautement significatif

Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité p-valeur du test d adéquation d un échantillon Pour le test d adéquation d un échantillon à une valeur µ 0 p valeur = P H0 ( T n > t n ) = 2(1 P H0 (T n t n )) = 2(1 P(St(n 1) t n )) car T n H0 St(n 1).

Fonction t.test Introduction Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Exemples des données cystfibr avec µ 0 = 35 H 0 : µ = 35 contre H 1 : µ 35 t.test(fev1, mu=35) H 0 : µ = 35 contre H 1 : µ > 35 t.test(fev1, mu=35, alternative = "greater") H 0 : µ = 35 contre H 1 : µ < 35 t.test(fev1, mu=35, alternative = "less") Réessayer avec µ 0 = 30.

Erreur de première espèce Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Pour α = 5%, on rejette H 0 avec une probabilité de se tromper en prenant cette décision égale à 5%. C est l erreur de première espèce. Si on répétait l expérience aléatoire de tirage d un échantillon de taille n dans la loi N (µ 0, σ 2 ) un grand nombre de fois, pour 95% d entre eux (950 sur 1000 par exemple) on ne rejetterait pas l hypothèse H 0 : µ = µ 0. mu0<-5 sigma<-1 N<-1000 n<-100 X <- matrix(rnorm(n*n, mu0, sigma),n,n) pvalue=rep(0,n) for (i in 1:N){ pvalue[i]=t.test(x[i,], mu=mu0)$p.value } hist(pvalue) length(which(pvalue<0.05))/n

Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Cas d un échantillon non gaussien mais de grande taille, variance inconnue On suppose que l on a un n-échantillon (X 1,, X n ) gaussien, X i N (µ, σ 2 ). On estime µ par X n, et σ 2 par S 2. On sait alors que (TCL) T n = n( X µ 0 ) S 2 H0 N (0, 1) Test de H 0 : µ = µ 0 contre H 1 : µ µ 0 n( X µ 0 ) Statistique de test : sous H 0, T n = H0 N (0, 1). S 2 Règle de décision : Si T n > s α, on rejette H 0 Si T n s α, on ne rejette pas H 0 où s α tq P H0 ( T n > s α ) = α (quantile d ordre 1 α 2 de la loi N (0, 1)).

Cas grand échantillon sous R Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Même si la loi asymptotique est une loi N (0, 1), on utilise la fonction t.test, qui suppose que la loi asymptotique est une loi de Student. Exemple : jeu de données faithful sur les temps d irruption du geyser Old Faithful dans le parc de Yellowstone. On veut tester si l espérance de la variable éruptions est égale à 3 : H 0 : µ = 3, contre H 1 : µ 3 hist(faithful$eruptions length(faithful$eruptions) t.test(faithful$eruptions, mu=3) tvalue <- t.test(faithful$eruptions, mu=3)$statistic # calcul de la p-valeur avec la loi normale (1-pnorm(tvalue))*2 (1-pt(tvalue, 271))*2

Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Test sur la valeur d une probabilité à un échantillon On s intéresse à la probabilité p inconnue d avoir un caractère A dans une population P. On modélise ce caractère par une variable X B(p). On a E(X ) = p(= µ) et Var(X ) = p(1 p)(= σ 2 ). Test de H 0 : p = p 0 contre H 1 : p p 0 p 0 est une valeur connue fixée. Le test va être construit à partir de la différence X n p 0. Si n suffisamment grand (n > 30), on peut appliquer le TCL. Statistique de test T n = n( X n p 0 ) p0 (1 p 0 ) et sous H 0, T n H0 N (0, 1) Règle de décision : si T n > s α, on rejette H 0 Si T s α, on ne rejette pas H 0 où le seuil s α tq P H0 ( T n > s α ) = α.

Programmation sous R Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité Exemple avec la base cycstfibr On s intéresse à la masse corporelle et en particulier aux individus qui ont une masse inférieure à 80% de la masse normale. On souhaite tester si H 0 : p = p 0 = 0.5, c est à dire si 50% des individus ont une masse inférieure à 80% de la masse normale. attach(cystfibr) bmpbinaire <- bmp<80 table(bmpbinaire) t.test(bmpbinaire, mu=0.5)

Test de normalité Introduction Principes Erreurs de première et deuxième espèces Test d adéquation à une valeur Test d un probabilité Test de normalité On dispose d un n-échantillon X 1,..., X n i.i.d. de même loi que X. On veut tester H 0 : X est gaussien H 1 : X n est pas gaussien Test de Kolmogorov-Smirnov : On suppose connus (non estimés)µ et σ 2. On teste : Test de Shapiro-Wilks H 0 : X N (µ, σ 2 ) H 1 : X non N (µ, σ 2 ) H 0 : X est gaussien H 1 : X n est pas gaussien Exemples shapiro.test(faithful$eruptions) ks.test(faithful$eruptions, pnorm ) shapiro.test(fev1) ks.test(fev1, pnorm )