Introduction Chapitre 4 : Test du khi-deux d ajustement Télécom Saint-Étienne 2015
Sommaire 1 Introduction 2 3
Plan 1 Introduction 2 3
Introduction - 1 Soit X une variable aléatoire définie sur un univers Ω.
Introduction - 1 Soit X une variable aléatoire définie sur un univers Ω. Lorsqu on recueille des données statistiques sur une variable dans une population, on les présente souvent sous la forme d un tableau des effectifs répartis en classes. On suppose que les observations sont faites de façon indépendante et dans les mêmes conditions.
Introduction - 1 Soit X une variable aléatoire définie sur un univers Ω. Lorsqu on recueille des données statistiques sur une variable dans une population, on les présente souvent sous la forme d un tableau des effectifs répartis en classes. On suppose que les observations sont faites de façon indépendante et dans les mêmes conditions. Remarque Une classe est ici entendue au sens large et peut aussi bien représenter un intervalle de valeurs (pour une variable quantitative continue) qu une modalité unique (pour une variable qualitative ou quantitative discrète). Le nombre de classes r est cependant fini.
Introduction - 1 Soit X une variable aléatoire définie sur un univers Ω. Lorsqu on recueille des données statistiques sur une variable dans une population, on les présente souvent sous la forme d un tableau des effectifs répartis en classes. On suppose que les observations sont faites de façon indépendante et dans les mêmes conditions. Remarque Une classe est ici entendue au sens large et peut aussi bien représenter un intervalle de valeurs (pour une variable quantitative continue) qu une modalité unique (pour une variable qualitative ou quantitative discrète). Le nombre de classes r est cependant fini. On souhaite tester si la distribution expérimentale observée correspond à une distribution théorique donnée.
Introduction - 2 Introduction Les r classes numérotées 1,2,,r sont représentées dans la population selon certains effectifs notés respectivement n 1,n 2,,n r avec la condition n 1 + +n r = n. Ainsi, à chaque classe, on associe un évènement E i et (E 1,,E r ) forme un système complet d évènements. Dans le modèle théorique, on note p 1,p 2,,p r les probabilités de ces évènements.
Introduction - 2 Introduction Les r classes numérotées 1,2,,r sont représentées dans la population selon certains effectifs notés respectivement n 1,n 2,,n r avec la condition n 1 + +n r = n. Ainsi, à chaque classe, on associe un évènement E i et (E 1,,E r ) forme un système complet d évènements. Dans le modèle théorique, on note p 1,p 2,,p r les probabilités de ces évènements. On va comparer les effectifs théoriques np 1,np 2,,np r obtenus pour un échantillon de taille n.
Introduction - 2 Introduction Les r classes numérotées 1,2,,r sont représentées dans la population selon certains effectifs notés respectivement n 1,n 2,,n r avec la condition n 1 + +n r = n. Ainsi, à chaque classe, on associe un évènement E i et (E 1,,E r ) forme un système complet d évènements. Dans le modèle théorique, on note p 1,p 2,,p r les probabilités de ces évènements. On va comparer les effectifs théoriques np 1,np 2,,np r obtenus pour un échantillon de taille n. Définition [Hypothèse nulle] L hypothèse H 0 est ici : la distribution observée est conforme à la distribution théorique choisie.
Introduction - 2 Introduction Les r classes numérotées 1,2,,r sont représentées dans la population selon certains effectifs notés respectivement n 1,n 2,,n r avec la condition n 1 + +n r = n. Ainsi, à chaque classe, on associe un évènement E i et (E 1,,E r ) forme un système complet d évènements. Dans le modèle théorique, on note p 1,p 2,,p r les probabilités de ces évènements. On va comparer les effectifs théoriques np 1,np 2,,np r obtenus pour un échantillon de taille n. Définition [Hypothèse nulle] L hypothèse H 0 est ici : la distribution observée est conforme à la distribution théorique choisie. L hypothèse alternative est alors : la distribution observée n est pas conforme à la distribution théorique choisie.
Introduction - 2 Introduction Les r classes numérotées 1,2,,r sont représentées dans la population selon certains effectifs notés respectivement n 1,n 2,,n r avec la condition n 1 + +n r = n. Ainsi, à chaque classe, on associe un évènement E i et (E 1,,E r ) forme un système complet d évènements. Dans le modèle théorique, on note p 1,p 2,,p r les probabilités de ces évènements. On va comparer les effectifs théoriques np 1,np 2,,np r obtenus pour un échantillon de taille n. Définition [Hypothèse nulle] L hypothèse H 0 est ici : la distribution observée est conforme à la distribution théorique choisie. L hypothèse alternative est alors : la distribution observée n est pas conforme à la distribution théorique choisie. En général, un test qui répond à ce genre de question est appelé un test d ajustement.
Introduction - 3 Introduction On considère la statistique χ 2 c := r i=1 (N i np i ) np i, où N i est le nombre de réalisations de l évènement E i (nombre de réalisations dans la classe numéro i) sur un échantillon donné.
Introduction - 3 Introduction On considère la statistique χ 2 c := r i=1 (N i np i ) np i, où N i est le nombre de réalisations de l évènement E i (nombre de réalisations dans la classe numéro i) sur un échantillon donné. La valeur observée pour cette variable aléatoire est faible si les écarts entre les valeurs théoriques et les valeurs observées sont petits. Elle est grande dans le cas contraire.
Plan 1 Introduction 2 3
- 1 Théorème : Théorème de Pearson Si pour tout i [[1;r]], np i 5 alors sous l hypothèse H 0, la variable aléatoire χ 2 c suit approximativement une loi du khi-deux à r 1 degrés de liberté, χ 2 (r 1).
- 1 Théorème : Théorème de Pearson Si pour tout i [[1;r]], np i 5 alors sous l hypothèse H 0, la variable aléatoire χ 2 c suit approximativement une loi du khi-deux à r 1 degrés de liberté, χ 2 (r 1). Remarque On préfère que np i soit plus grand que 10 pour tout i [[1;r]]. Remarque Lorsque l effectif attendu d une classe est plus petit que 5, il est recommandé de regrouper cette classe avec une autre qui lui est adjacente avant de procéder au test du χ 2. Le test d ajustement porte alors sur la distribution dans les classes obtenues après le regroupement.
Introduction - 2 La constante c dans le test du khi-deux, appelée valeur critique, est alors donnée par l équation ( ) P χ 2 c > c = α, où α est le niveau du test. Une table partielle de la loi du khi-deux permet de déterminer c dans la plupart des cas pratiques.
Introduction - 3 Propriété [Règle de décision] Soit α ]0;1[. On teste l hypothèse (H 0 ) contre l hypothèse (H 1 ) au risque d erreur α.
Introduction - 3 Propriété [Règle de décision] Soit α ]0;1[. On teste l hypothèse (H 0 ) contre l hypothèse (H 1 ) au risque d erreur α. Soit χ 2 1 α (r 1) le quantile d ordre 1 α de la loi du Khi-deux à r 1 degrés de liberté. L intervalle d acceptation de (H 0 ) est :
Introduction - 3 Propriété [Règle de décision] Soit α ]0;1[. On teste l hypothèse (H 0 ) contre l hypothèse (H 1 ) au risque d erreur α. Soit χ 2 1 α (r 1) le quantile d ordre 1 α de la loi du Khi-deux à r 1 degrés de liberté. L intervalle d acceptation de (H 0 ) est : [ ] 0; χ 2 1 α(r 1).
Introduction - 3 Propriété [Règle de décision] Soit α ]0;1[. On teste l hypothèse (H 0 ) contre l hypothèse (H 1 ) au risque d erreur α. Soit χ 2 1 α (r 1) le quantile d ordre 1 α de la loi du Khi-deux à r 1 degrés de liberté. L intervalle d acceptation de (H 0 ) est : [ ] 0; χ 2 1 α(r 1). En d autres termes, on accepte (H 0 ) si χ 2 obs, valeur observée pour χ 2 c sur l échantillon, vérifie χ 2 obs χ 2 1 α(r 1),
Introduction - 3 Propriété [Règle de décision] Soit α ]0;1[. On teste l hypothèse (H 0 ) contre l hypothèse (H 1 ) au risque d erreur α. Soit χ 2 1 α (r 1) le quantile d ordre 1 α de la loi du Khi-deux à r 1 degrés de liberté. L intervalle d acceptation de (H 0 ) est : [ ] 0; χ 2 1 α(r 1). En d autres termes, on accepte (H 0 ) si χ 2 obs, valeur observée pour χ 2 c sur l échantillon, vérifie et sinon on refuse (H 0 ). χ 2 obs χ 2 1 α(r 1),
Plan 1 Introduction 2 3
- 1 Introduction Le Bureau de la statistique du gouvernement du Québec a dénombré 84 579 nouveau-nés dans la province du Québec en 1986. De ce nombre, 43220 étaient des garçons et 41359 des filles. En supposant que le genre d un nouveau-né est déterminé au hasard (hypothèse (H 0 )), on se serait attendu à avoir 84579 1 2 = 42289.5 garçons et le même nombre de filles. On trouve χ 2 = (43220 42289.5)2 42 289.5 + (41359 42289.5)2 42 289.5 = 40.95.
- 2 Introduction On a ici une loi du Khi-deux à 2 1 = 1 degré de liberté. Or, ( ) P χ 2 1 > 7.88 = 0.005, pù χ 2 1 est une variable aléatoire qui suit la loi du Khi-deux à 1 degré de liberté. Puis, comme 40.95 > 7.88, on rejette l hypothèse (H 0 ) même avec un niveau aussi bas que 0.5%.