VI. Tests non paramétriques sur un échantillon



Documents pareils
Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Chapitre 3. Les distributions à deux variables

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Principe d un test statistique

Introduction à l approche bootstrap

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Lois de probabilité. Anita Burgun

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

FORMULAIRE DE STATISTIQUES

Couples de variables aléatoires discrètes

Annexe commune aux séries ES, L et S : boîtes et quantiles

Estimation et tests statistiques, TD 5. Solutions

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Relation entre deux variables : estimation de la corrélation linéaire

T de Student Khi-deux Corrélation

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Focus sur les pratiques de consolidation des groupes en France. Restitution de l étude ESCP-Fidanza 2012"

Biostatistiques : Petits effectifs

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

TABLE DES MATIERES. C Exercices complémentaires 42

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

PROBABILITES ET STATISTIQUE I&II

CNAM léments de cours Bonus-malus et Crédibilité

STATISTIQUES. UE Modélisation pour la biologie

L Assurance. L Assurance

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Arbres binaires de décision

Chapitre 3 : INFERENCE

Introduction à la statistique non paramétrique

Calcul élémentaire des probabilités

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

FONCTION DE DEMANDE : REVENU ET PRIX

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Simulation de variables aléatoires

Probabilités conditionnelles Exercices corrigés

Cours Marché du travail et politiques d emploi

Questionnaire de vérification pour l implantation de la norme ISO dans une entreprise

Statistiques descriptives

Analyse de la variance Comparaison de plusieurs moyennes

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

CONSTRUIRE UNE QUESTION ET ELABORER UN QUESTIONNAIRE?

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti

Probabilités (méthodes et objectifs)

IFT3245. Simulation et modèles

TD 3 : suites réelles : application économique et nancière

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Le chi carré. Le sommaire. Approche quantitative

Enjeux mathématiques et Statistiques du Big Data

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Moments des variables aléatoires réelles

Limitations of the Playstation 3 for High Performance Cluster Computing

LES GENERATEURS DE NOMBRES ALEATOIRES

Cours de Tests paramétriques

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Loi binomiale Lois normales

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

CH X Intérêts composés - Amortissements

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Guide No.2 de la Recommandation Rec (2009).. du Comité des Ministres aux États membres sur la démocratie électronique

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

MODELES DE DUREE DE VIE

Probabilités sur un univers fini

Que faire lorsqu on considère plusieurs variables en même temps?

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Comment évaluer une banque?

Travaux dirigés d introduction aux Probabilités

Analyse des correspondances avec colonne de référence

Mathématiques financières

EXERCICES - ANALYSE GÉNÉRALE

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

DIFFUSION DU COMMERCE ÉLECTRONIQUE DANS LES PETITES ET MOYENNES ENTREPRISES (PME): LE CAS DU VIETNAM

Comment réaliser votre étude de marché. Pascale GARNIER - MCP MARKETING Estelle DELABRE - SILOUET

Aide-mémoire de statistique appliquée à la biologie

L Econométrie des Données de Panel

Logiciel XLSTAT version rue Damrémont PARIS

Complément d information concernant la fiche de concordance

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

La classification automatique de données quantitatives

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Package TestsFaciles

Leçon N 4 : Statistiques à deux variables

La nouvelle planification de l échantillonnage

ASSURANCES MÉDICAMENTS COMPARAISON DES OPTIONS À PARTIR DE 65 ANS MISE À JOUR ANNÉE 2011

Indépendance Probabilité conditionnelle. Chapitre 3 Événements indépendants et Probabilités conditionnelles

Programmes des classes préparatoires aux Grandes Ecoles

BONUS MALUS. Voici, la façon de calculer la prime : Le montant de la prime à acquitter est égale à : P = PB. C où : P

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Transcription:

VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes questions peuvent se poser lorsque l on analyse des observations : 1 ) Sur une série d observations d une variable : Les tirages sont-ils i.i.d.? (voir le test des signes présenté plus haut) S ils le sont, sont-ils issus d une loi donnée? Réponse par le test d'ajustement du chi-deux, applicable à une variable aléatoire réelle ) Sur une série d observations d un couple de variables (X, Y): Les variables sont-elles indépendantes l une de l autre? Réponse par le test d'indépendance du chi-deux. L une d elles est-elle «plus grande» que l autre? Non traité 3 ) Sur plusieurs échantillons : Echantillons appariés : sont-ils de même loi? Non traité Echantillons indépendants : sont-ils de même loi? Non traité

VI.1. Test d ajustement du χ X 1,,X n i.i.d. loi P H o :{ P = P o donnée} contre H 1 : { P P o } X est partitionné en k classes E 1, E,, E k P o {E j } = p j Parmi les n valeurs observées, n 1 sont dans E 1,, n k sont dans E k Effectifs théoriques : np 1,, np k Distance entre les n j observés et les np j théoriques 97 Exemple : Le nombre d accidents mensuels à un certain carrefour est une variable aléatoire X. On observe X durant 3 mois. : nbre accidents : 0 1 3 4 5 nbre de mois : 13 8 4 4 1 Peut-on admettre au seuil de 10% que X suit une loi de Poisson de paramètre? L enjeu n est pas la valeur du paramètre, mais le fait que la loi soit une loi de Poisson : «loi des événements rares et indépendants», cela signifie que le taux instantané d occurrence d un accident est constant au cours du temps, que la probabilité d occurrence de deux accidents dans un laps de temps h est négligeable devant h : l hypothèse de loi de Poisson reflète ainsi des hypothèses non triviales sur le mécanisme d occurrence des accidents à ce carrefour.

Procédure de test Statistique du chi-deux : = sous P o, tend en loi vers j= 1 un χ à (k-1) degrés de liberté on refuse {P = P o } si > A il faut que tous les np j soient > 5 si pour un j : 3 < npj 5 correction de Yates : n j -np j 0.5 au lieu de n j np j si r paramètres sont estimés parmi les p j, le degré de liberté de passe à (k-1-r) k ( N j np np j j ) 98 Que les classes soient ordonnées ou non, la statistique n en tient pas compte : en regroupant les observations par classes, on perd éventuellement une information importante contenue dans l échantillon de départ. Par contre, le test s applique aussi si X est qualitative non ordonnée. Si pour une classe, l effectif théorique est trop petit, on regroupe cette classe avec une autre.

Exemple : test d ajustement à P() X j p j np j n j δ j 0 0.1353 4.331 1.8503* 1 0.707 8.661 13.173 0.707 8.661 8 0.0505 3 0.1804 5.774 4 0.545 4 0.090 4.57 5 0.1883* 5 0.057 k = 5, dl = 4, α = 10% : α = 7.78 obs. = 4.81 Conclusion : P() n est pas refusée au seuil 10% * = correction de continuité de Yates 99 On regroupe les deux derniers cas, car l effectif théorique de la dernière case est trop petit. On compte le nombre de cases après avoir effectué tous les regroupements nécessaires. PROB = P(chi-deux(4) > obs ) est égale à 0.308 : supérieure à 10%, le seuil choisi : obs n est pas dans la région critique. Au seuil de 10%, on ne peut refuser l hypothèse d une loi de POISSON. On a utilisé la correction de Yates pour la première et pour la dernière case. Remarquer que ce n est pas la valeur de l effectif observé qui importe, mais celle de l effectif théorique calculé.

VI.. Test d indépendance de facteurs Sur chaque individu sont notées les réalisations de deux variables qualitatives : variable X à k modalités variable Y à r modalités Résultats : tableau des nombres n ij d individus ayant la modalité i de X et la modalité j de Y. Test de H o = {X et Y sont indépendantes} Statistique employée : le chi-deux distance des n ij observés avec les effectifs théoriques calculés sous H o 100 Variable = «caractère» = «facteur» modalités = «niveaux» = «valeurs» Tableau des résultats = «tableau de contingence à double entrée» Présentation de la loi théorique du couple (X,Y), kr valeurs du couple, probabilités p ij, lois marginales, p i. et p.j Sous Ho : p ij = p i. p.j Les (k-1)(r-1) paramètres de la loi théorique sous Ho sont estimés à partir des observations : le degré de liberté du chi-deux sera égal à kr-1-(kr-) = (k-1)(r-1) Exemple : nombre d accidents par an X1 = {0.1 ou accidents}, X = {au moins 3 accidents} âge du conducteur Y1 = {de 18 à 5}, Y = {de 5 à 50}, Y3 = {plus de 50} d où tableau à lignes et 3 colonnes. Les modalités des variables ne sont pas nécessairement ordonnées : situation géographique, secteur d activité, etc La statistique utilisée ne tient pas compte de l ordre dans lequel sont écrites les modalités. Si on fait des regroupements de classes, ce sont des regroupements de lignes ou des regroupements de colonnes

X= nbre d accidents, Y= âge conducteur x \ y ]18, 5] ]5, 50] ]50,.. total x = 0,1, 3 54 16 93 x >= 3 1 14 57 Total 45 75 30 150 x \ y ]18, 5] ]5, 50] ]50,.. total x = 0,1, 7.9 46.5 18.6 93 x >= 3 17.1 8.5 11.4 57 Total 45 75 30 150 D obs. = 6.405, dl = (3-1)(-1) =, D 5% = 5.99 101 pˆ ij n n i j = et l' effectif théorique est Npˆ N N = ij ni n N j On calcule ainsi les effectifs théoriques du second tableau : par exemple, 7.9 = 93*45/150 Tous les effectifs théoriques sont supérieurs à 5, on peut donc calculer le chideux : D observé = 6.405 > 5.99 ( 3 7.9) ( 54 46.5) ( 16 18.6) 7.9 46.5 18.6 ( 17.1) ( 1 8.5) ( 14 11.4) = 6.405 17.1 8.5 11.4 : au seuil de 5%, on refuse l' hypothèse d' indépendance entre l' age du conducteur et le nombre d' accidents

Exemple tableau * Test de comparaison de fréquences Tableau de contingence x n1= 00 A nona total na1= 18 Lozère 18 7 00 n= 150 Aveyron 109 41 150 na= 109 total 37 113 350 F1= 0,640 F= 0,77 effectifs théoriques F= 0,6771 A nona total population1 135,43 64,57 00 population 101,57 48,43 150 Z^=,9449 total 37 113 350 Z = 1,7161 PROB = 0,0431 =,9449 PROB= 0,086 unilatéral 1%,363 seuil % 5,4119 unilatéral %,0537 seuil 4% 4,179 unilatéral 4% 1,6449 seuil 10%,7055 unilatéral 10% 1,816 seuil 0% 1,644 10 Lorsque les deux variables sont à modalités (tableau de contingence x), la question posée est : La loi de la variable X sachant Y= y est-elle la même dans les deux cas y = 1 ou y =? Cela est équivalent à la question suivante : La probabilité que X=1 est-elle la même sachant Y=1 que sachant Y=, ou encore : p 1 est-elle égale à p? On est ramenés à un problème de comparaison de fréquences entre deux populations : on avait déjà un test pour tester {p 1 = p }contre {p 1 < p } (ou unilatéral dans l autre sens, ou bilatéral). Ici, il s agit de faire le test bilatéral de {p 1 = p }contre {p 1 p }. Comparaison des deux tests : Z > u lu dans N(0;1) ou > d lu dans chi-deux à 1 dl. Z > u est équivalent à Z > u, lu dans chi-deux 1 dl (donc u = d pour un même seuil) On a donc, au seuil α donné, deux régions critiques : Z > d, ou > d Pas d affolement : les deux statistiques Z et sont identiques, les deux tests sont donc en fait identiques.

VI.3. Test des séquences H o = {X 1,, X n sont i.i.d.} (test d homogénéité) remplacer chacun des x i par son signe N 1 =nbre de, N =nbrede «-» R = nombre de séquences refus de Ho si {R C 1 (N 1,N )}ou{r C (N 1,N )} si N 1 < 0 et N < 0 : tables calculées à consulter R M S M = 1 Loi N (0;1), N 1N n et S = N 1 N n ( N 1N n) ( n 1) 103 Signe, ou position par rapport au précédent (suite croissante, ou décroissante) On pourra l appliquer aux résidus d un ajustement MCO : il permettra de déceler éventuellement une relation non linéaire : résidus systématiquement positifs au début et à la fin, négatifs au milieu : Nous l'avons présenté plus haut dans le chapitre des tests dans un modèle linéaire. R = 3, N1 = 40, N = 35 sur n=75 observations M = 1 *35*40/75=38.33 S = 18.33 U = - 8.5 refus de Ho au seuil de 5% si U > Ici, 8.5 > : on refuse Ho Remarque : hors programme du partiel en 003-004, mais au programme de l examen de septembre.