STATISTIQUE NON PARAMETRIQUE ELEMENTAIRE



Documents pareils
STATISTIQUE : TESTS D HYPOTHESES

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

Chapitre 3 : Fonctions d une variable réelle (1)

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Cours 5 : ESTIMATION PONCTUELLE

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Statistique descriptive bidimensionnelle

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Cours de Statistiques inférentielles

SÉRIES STATISTIQUES À DEUX VARIABLES

Limites des Suites numériques

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

1 Mesure et intégrale

Statistique Numérique et Analyse des Données

Séquence 5. La fonction logarithme népérien. Sommaire

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Principes et Méthodes Statistiques

20. Algorithmique & Mathématiques

c. Calcul pour une évolution d une proportion entre deux années non consécutives

EXERCICES : DÉNOMBREMENT

UNIVERSITÉ DE SFAX École Supérieure de Commerce

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

STATISTIQUE AVANCÉE : MÉTHODES

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

Séries réelles ou complexes

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

14 Chapitre 14. Théorème du point fixe

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

Formation d un ester à partir d un acide et d un alcool

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Processus et martingales en temps continu

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

CHAPITRE 2 SÉRIES ENTIÈRES

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

Etude de la fonction ζ de Riemann

55 - EXEMPLES D UTILISATION DU TABLEUR.

Dénombrement. Chapitre Enoncés des exercices

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Probabilités et statistique pour le CAPES

Échantillonnage et estimation

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

2 ième partie : MATHÉMATIQUES FINANCIÈRES

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

Les Nombres Parfaits.

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

Processus géométrique généralisé et applications en fiabilité

Initiation à l analyse factorielle des correspondances

Chapitre 3 : Transistor bipolaire à jonction

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Comportement d'une suite

Suites et séries de fonctions

Les algorithmes de tri

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

Université Pierre et Marie Curie. Biostatistique PACES - UE

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Chap. 5 : Les intérêts (Les calculs financiers)

Exercices de mathématiques

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012

4 Approximation des fonctions

STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO

Gérer les applications

Baccalauréat S Asie 19 juin 2014 Corrigé

Compte Sélect Banque Manuvie Guide du débutant

Sommaire Chapitre 1 - L interface de Windows 7 9

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Mécanismes de protection contre les vers

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

La maladie rénale chronique

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

One Office Voice Pack Vos appels fixes et mobiles en un seul pack

Les études. Recommandations applicables aux appareils de levage "anciens" dans les ports. Guide Technique

Neolane Message Center. Neolane v6.0

RÈGLES ORDINALES : UNE GÉNÉRALISATION DES RÈGLES D'ASSOCIATION

Un accès direct à vos comptes 24h/24 VOTRE NUMÉRO CLIENT. Centre de Relations Clients (0,12 /min)

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes

GUIDE METHODOLOGIQUE INDUSTRIES, OUVREZ VOS PORTES

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Chaînes de Markov. Arthur Charpentier

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Tests non paramétriques de spécification pour densité conditionnelle : application à des modèles de choix discret

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

Module 3 : Inversion de matrices

Comment les Canadiens classent-ils leur système de soins de santé?

Risque de longévité et détermination du besoin en capital : travaux en cours

Guide des logiciels de l ordinateur HP Media Center

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Terminale S. Terminale S 1 F. Laroche

Le Sphinx. Enquêtes, Sondages. Analyse de données. Internet :

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

Transcription:

STATISTIQUE NON PARAMETRIQUE ELEMENTAIRE Cours de M ESA UNIVERSITE D ORLEANS Gilbert COLLETAZ Notes de cours octobre 4 versio très provisoire

INTRODUCTION Ce cours a pour objectif la présetatio des pricipaux tests o paramétriques. Ceux-ci sot particulièremet utiles lorsqu o e veut pas spécifier de distributio a priori. Vous coaissez par exemple déjà de ombreux tests d hypothèses développés das u cadre gaussie ou supposé tel, souvet asymptotiquemet. Les pricipaux avatages des statistiques o paramétriques sot les suivats : Ils sot appropriés lorsque des hypothèses o cotraigates veulet être faites sur la distributio des observatios étudiées, Ils gardet souvet leurs propres distributios idépedammet de celles des observatios dot o les extrait, Ils peuvet être employés avec des doées pour lesquelles il existe pas d échelle de mesure d itervalle ou dot seul le rag est cou. Pour autat certaies hypothèses restet écessaires comme par exemple celle d échatillos aléatoires idépedats. Ces hypothèses sot toutefois mois fortes que celles supposées das le cadre paramétrique. E coséquece, les statistiques o paramétriques sot, si les hypothèses de distributio sot valides, mois puissates que leurs homologues paramétriques; mais e revache elles sot plus robustes U icovéiet est qu il existe pas de théorie uificatrice des tests o paramétriques. De ce fait leur présetatio est ue suite d exposés relatifs à chacu d eux. Au mois peut-o redoer ue cohérece de lecture e idetifiat les cofiguratios où telle ou telle statistique est appropriée. O distigue aisi traditioellemet les tests permettat à la vue d u échatillo de valider ue hypothèse distributioelle des tests répodat à des questios portat sur deux échatillos (ot-ils même caractéristiques, même distributio, ). Ces derières questios pouvat être gééralisées à u système de -échatillos. Avat d aborder ces aspects, ous allos rappeler u certai ombre de statistiques utilisées courammet pour apprécier ue distributio empirique.

RAPPELS DE STATISTIQUE DESCRIPTIVE Les pricipaux idicateurs permettat d apprécier les caractéristiques d u échatillo doé viset à apprécier le «cetre», la «dispersio», l «asymétrie» ou l «aplatissemet» de la distributio. Il peut s agir de simples mesures descriptives visat à sythétiser l iformatio coteue das les doées, où de statistiques pouvat doer lieu à u test d hypothèse. Il peut aussi être utile de rappeler quelques divers types d observatios. Naturellemet tous ces rappels serot particulièremet brefs. La ature des observatios O distigue traditioellemet deux types de variables : celles de ature qualitative, sur les valeurs desquelles les opératios arithmétiques ot pas de ses, et celles de ature quatitative. Ces derières pouvat être discrètes, à réalisatios das u espace de cardial gééralemet faible et dot les modalités défiisset ue partitio de la populatio, ou cotiues. Habituellemet o retiet quatre échelles de mesure : omiale, ordiale, d itervalle, et de rapport. - échelle omiale : deux idividus auxquels o attribue la même valeur sot supposé égaux pour u caractère étudié doé. Exemple ue variable idicatrice du sexe a deux modalités valat (ou H ou ) pour les hommes et (ou F ou ) pour les femmes. Il s agit souvet d idetifier des catégories mutuellemet exclusives. - échelle ordiale : les modalités prises par la variable permettet d ordoer les idividus e défiissat ue relatio d ordre (réflexivité, trasitivité, atisymétrie) total sur la populatio cosidérée. Rappelez-vous u cours de première aée de microécoomie et la défiitio de l utilité ordiale. O e peut pas e particulier iterpréter e termes d itesité les écarts de valeur etre deux variables ordiales : u classemet e reseige e rie sur la distace séparat les idividus classés. - échelle d itervalle : E plus de la relatio d ordre précédete o a dispose d ue mesure relative à l écart séparat deux idividus. Aisi si l écart etre A et B est de 4 et celui de B à C est de alors o peut coclure que A est deux fois plus 3

éloigé de B que C. L origie de ces mesures, le zéro, est arbitrairemet fixé cotrairemet aux échelles de rapport (pesez aux mesures de température, à celles du QI (?), ). - échelle de rapport : C est ue échelle d itervalle caractérisée par l existece d ue origie (vrai zéro). De ce fait le rapport de deux variables défiit ue itesité mesurable (o peut par exemple affirmer que si A et B perçoivet respectivemet et 5 euros par mois alors B reçoit.5 fois le salaire de A). Le cetre d ue distributio Attetio à l emploi du fréquece, il s agit le plus souvet (et c est ce qui est fait ici) d u rapport du type effectif d ue modalité sur effectif total mais quelquefois il est utilisé à la place du terme effectif lui-même. O peut pour être o ambigu parler de fréquece relative et de fréquece absolue. 3 idicateurs : mode, médiae, moyee. - mode : valeur pour laquelle la fréquece est la plus élevée. Ue distributio peut être uimodale, bimodale, - médiae : valeur qui sépare la distributio e deux classes de fréquece égale. Il est évidemmet écessaire que la variable soit ordiale pour que so iterprétatio ait u ses. Vous savez que cet idicateur est préféré à la moyee e présece de valeurs «aberrates» (outliers) qui sot des valeurs d observatios si extrêmes qu elles paraisset raisoablemet e pas apparteir à la populatio dot l échatillo est tiré. - moyee : c est le rapport de la somme des observatios à leur ombre. La variable est au mois mesurée sur ue échelle d itervalle. Pour ue série groupée d effectif i das la i ème modalité o a [ ] p lim x = E x. x = x i i i = f x i i i. Pour des séries ergodiques statioaires o a Pour ue distributio uimodale symétrique ces trois idicateurs sot égaux 4

Lorsque des doées aberrates sot présetes das les observatios des estimateurs robustes du cetre de la distributio autres que la médiae ot été proposés : La moyee wisorisée (wisorized mea) : les k observatios les plus petites sot remplacées par la k+ ième plus petite observatio et les k observatios les plus grades sot remplacées par la k+ ième plus grade observatio, soit (les rags des observatios sot mis etre parethèses pour sigifier que les doées ot été triées par ordre croissat) : k x = ( k + ) x + x + ( k + ) x wk ( k + ) ( i) ( k ) i= k + Par exemple avec les observatios suivates :,, 7, 8, 9,,,, 3, 4 o a : x = ( + + 7 + 8 + 9 + + + + 3 + 4 ) / = 85 / = 8.5, et x w = ( 7 + 7 + 7 + 8 + 9 + + + + + ) / = 95/ = 9.5 Pour ue distributio symétrique x wk est u estimateur sas biais de l espérace mais sa distributio est o ormale, et ceci même si les x i sot gaussies. Sa variace est doé par : k ( )( ( + ) ) ( ( ) ) ( )( ( ) ) wk = + k wk + i wk + + k wk i= k + s k x x x x k x x La moyee troquée (trimmed mea) : les k observatios les plus petites et les k observatios les plus grades sot simplemet omises das les calculs. Aisi : x tk k = x k i= k + ( i) So écart-type est doé par : s tk = s wk ( k )( k ) La dispersio d ue distributio Les mesures les plus usitées sot aturellemet la variace et/ou l écart-type. Sur u pla puremet descriptif o peut employer l étedue qui est simplemet la différece etre la plus grade et la plus petite valeur d ue variable ayat au mois ue échelle d itervalle. L écart iterquartile, égal à la différece etre les valeurs correspodat aux premier et troisième 5

quartiles, est aussi utilisé otammet lorsque l o soupçoe l existece d outliers aux extrémités de la distributio empirique. Par défiitio Q3-Q cotiet 5% des observatios. Pour ue distributio ormale o peut obteir u estimateur de l écart-type e divisat l écart iterquartile par.34898. Ue mesure de dispersio parfois utile est le coefficiet de variatio, rapport de l écart-type à la moyee empiriques. Cette mesure facilite les comparaisos de dispersio etre échatillos pour lesquels la taille des observatios est trop différete. E effet, l emploi des écarts-types ou des variaces est pas recommadable, leurs valeurs état dépedates de la taille des observatios alors que le coefficiet de variatio est u ombre pur. Par exemple avec échatillos E = {.,.5,.,.8,.4,.,.8,.} et E = {,5,,8,4,,8,}, o a x E =.475, x 4.75 E =, s, MCO =.468, s, MCO = 4.683 ( MCO sigifie que l o a recouru à ue podératio par le ombre de degrés de liberté) mais cv E ( =.468.475) = cv E ( = 4.683 4.75 ) =.375 : avec cette mesure la variabilité das E est idetique à celle afférete à E et o pas fois plus grade comme le ferait coclure l exame des écarttypes (imagiez que les valeurs soiet des prix exprimés das ue certaie moaie das E et das ue autre moaie pour E avec u taux de coversio de cotre et réfléchissez à la mesure de variabilité la mieux adaptée). Notez que das les sorties SAS ce coefficiet de variatio est multiplié par. SAS, das la procédure UNIVARIATE, propose d autres estimateurs robustes de la dispersio (la différece moyee de Gii, la mesure MAD de Hampel, et les statistiques et S de Rousseeuw et Croux. Voir la documetatio pour plus de détails sur ces quatités relativemet peu usitées). Q Skewess et Kurtosis Tedace cetrale et dispersio e sot pas les seules caractéristiques itéressates d ue distributio. Au-delà des momets d ordre et o peut être ameé à s iterroger sur les propriétés des momets d ordre supérieurs, otammet 3 et 4 qui vot ous reseiger sur sa symétrie et sa courbure. Ces quatités sot itéressates lorsque l o veut discuter de l hypothèse de ormalité à laquelle o se réfère souvet pour meer des tests paramétriques. 6

La skewess Il s agit doc de préciser la symétrie ou la dissymétrie de la distributio. Le coefficiet de skewess est défii comme le rapport du momet d ordre 3 à la puissace troisième de so écart-type : m sk = σ 3 3 et il est gééralemet estimé par (c est la formule par défaut de SAS, elle correspod à l optio VARDEF=DF das les procédures qui l autoriset): sk = mˆ s ( )( ) 3 3 avec ˆ ( ) 3 m = x x 3 Si o précise VARDEF=N alors il y a pas de correctio sur les podératios et la skewess et estimée simplemet par : sk 3 xi x = s i Lorsque la distributio est symétrique autour de l espérace sk vaut zéro. Il est positif pour ue distributio présetat ue asymétrie à droite et égatif pour ue asymétrie à gauche. O utilise parfois égalemet le coefficiet de skewess de Pearso défii par : P sk 3( x M ) = où M est la médiae de l échatillo s Ce coefficiet varie etre -3 et 3 et vaut égalemet zéro pour ue distributio symétrique. Il fait bie apparaître ue valeur égative (resp. positive) lorsque x que l o a ue asymétrie à gauche (resp. à droite). < M (resp. x > M ) et doc Par exemple le graphique suivate représete la desité d ue log-ormale de paramètres (,). So espérace est 4.4869 alors que sa médiae vaut.788. Clairemet elle possède ue asymétrie positive (d ailleurs ue log-ormale est écessairemet dissymétrique compteteu de so espace de défiitio). 7

..5..5 4 6 8 U test de ullité de sk, et doc de symétrie de la distributio, passe par la créatio d ue gaussiee cetrée-réduite sous H : z = sk ( )( ) 6 Ce test est pas implémeté das SAS. La kurtosis L objectif est de caractériser la courbure de la foctio de desité, ou de la foctio de répartitio, de la distributio. Le plus souvet il s agit de la comparer à celle d ue gaussiee. Selo le cas, o dira qu ue distributio est mesokurtique si so aplatissemet est «modéré», la représetate type état la distributio ormale. Elle est dite leptokurtique lorsque les queues de la distributio sot trop épaisses et que l o a doc plus de valeurs extrêmes qu e cas de tirage gaussie. Elle est dite platokurtique lorsque les queues de la distributio sot plus fies que celle d ue gaussiee et que doc il y ue cocetratio plus marquée des réalisatios autour de la tedace cetrale. La kurtosis s obtiet à partir du momet d ordre 4 et o obtiet u ombre pur e le ormat par le carré de la variace, soit (c est la formule par défaut de SAS, elle correspod à l optio VARDEF=DF das les procédures qui l autoriset) : Ku = ( + ) m4 3( ) m, avec mˆ 4 j = ( i ) ( )( )( 3) x x s i= j, j =, 4 Si o précise VARDEF=N alors il y a pas de correctio sur les podératios et la skewess et estimée simplemet par : 8

Ku 4 xi x = s 3 Pour ue gaussiee Ku =. Notez qu o trouve égalemet das la littérature ue autre mesure : ( )( ) ( )( ) ( ) 3 Ku 3 Ku ' = + + + Pour ue gaussiee Ku ' = 3. Le graphique ci-après représetet les desités d ue gaussiee cetrée réduite et d ue studet à 5 degrés de liberté pour laquelle Ku ' = 9 et qui est doc leptokurtique (o a volotairemet omis la légede : trouvez la courbe qui lui correspod! au passage, trouver aussi la valeur de la skewess pour cette studet)..4.3.. -4-4 U test de ullité de Ku peut passer par la créatio d ue gausiee cetrée-réduite sous H : z = Ku ( )( )( 3) 4( ) Ce test est pas implémeté sous SAS. Jarque et Bera proposet de combier skewess et kurtosis pour développer u test d hypothèse ulle correspodat à ue distributio symétrique et mésokurtique : 9

Ku sk jb = + 4 6 Sous H, jb possède ue distributio de chi- à deux degrés de liberté. Ce test est pas implémeté sous SAS sauf das la proc AUTOREG où il est préseté comme u test de ormalité des résidus (o e teste e fait que l aspect symétrique et mésokurtique de la distributio). TESTS D HYPOTHESE SUR LA DISTRIBUTION Préalablemet à la coduite des tests d hypothèses sur les paramètres d u modèle il est souvet utile de coaître la distributio des observatios. Par exemple l hypothèse de ormalité est souvet u préalable à la suite des opératios et c est doc cette hypothèse de distributio gaussiee qui ous itéressera ici au premier chef, sachat que d autres distributios cotiues peuvet être égalemet spécifiées (logormale, expoetielle, gamma, beta et weibull). Proc UNIVARIATE otammet propose plusieurs tests permettat de savoir si o peut raisoablemet accepter (cad que l o e rejette pas au seuil de risque choisi) que les observatios sot tirées das ue distributio spécifiée a priori. Trois test fodés sur la foctio de répartitio empirique (EDF tests) sot proposés : Kolmogorov-Smirov, Aderso-Darlig et Cramer-vo Mises. Par ailleurs lorsque le ombre d observatios est iférieur à et que la distributio spécifiée a priori est la gaussiee, la procédure évalue aussi la statistique de Shapiro-Wilk. U certai ombre de graphiques sot égalemet accessibles via l optio PLOT et les commades HISTOGRAM, PROBPLOT, QQPLOT. Efi u test d adéquatio d ue distributio spécifiée cotiue ou discrète à u esemble de doées observées souvet employé est le test du Chi. Le test de Shapiro-Wilk C est u test dédié à l hypothèse de ormalité. Etat doé u esemble d observatios x (),, ( ) x trié par ordre croissat, la statistique est obteue comme :

W = i= i= a x i ( i) ( x x ) i, où les coefficiets de podératios a i preet des valeurs qui e dépedet que de la taille de l échatillo. Cette statistique est comprise etre et. Des «petites» valeurs de W coduiset au rejet de l hypothèse ulle (W possède ue distributio fortemet asymétrique si bie qu ue valeur telle que.9 peut être cosidérée comme «petite» selo la documetatio de SAS). Lorsque le ombre d observatio est supérieur à 3, ue approximatio due à Roysto est mise e œuvre qui coduit à défiir ue gaussiee cetrée-réduite : ( ( ( W )) ) z = log γ log µ / σ si 4, et ( ( ) ) z = log W µ / σ si, les coefficiets γ, µ, σ ayat été obteus par simulatios. Ue valeur élevée e valeur absolue de z coduisat au rejet de la ormalité. Les tests EDF L idée est ici de comparer la foctio de répartitio théorique spécifiée, F( x ), et la foctio de répartitio empirique, F ( x ), défiie par : F ( ) x = pour x < x(), ( ) i F x = pour x( i) x < x ( i + ) et i =,,, F ( ) x = pour x( ). C est ue foctio e escalier avec ue hauteur de marche égale à. O peut aussi la défiir comme : F ( x) = ( xi x) où () est la foctio idicatrice. i = Ces tests EDF repose sur u théorème importat e statistique o paramétrique : si ue variable aléatoire X a ue foctio de répartitio cotiue F X alors la variable aléatoire Y = F ( X ) possède ue distributio de répartitio uiforme sur l itervalle [,]. X

Preuve : y [,], ( ) ( ( ) ) ( X X ( )) ( X ( )) P Y < y = P F X < y = P X < F y = F F y = y Remarque : ce théorème est égalemet très utile pour géérer des pseudo-ombres au hasard ayat ue distributio F dès lors que l o sait calculer so iverse et que l o sait géérer aléatoiremet des uiformes. E effet, il suffit de géérer y à partir d ue uiforme sur [,] et de calculer x = F ( y). E coséquece, x est ue pseudoréalisatio tirée das la loi correspodate à F. Le test de Kolmogorov-Smirov Pour statuer sur le caractère approprié de la foctio de répartitio F( x ) il est raisoable de s itéresser à la distace qui la sépare de la foctio empirique F ( x ). Soit D = sup F ( x) F( x). O peut motrer aisémet que la distributio de D e déped pas de la x foctio de répartitio supposée F : F ( x) F( x) = = = I( xi x) F( x) = i I( F( xi ) F( x)) F( x) (car F est mootoe croissate) = i I( yi y) y =, où y F( x) [,] i = est ue va uiforme et doc : F ( x) F( x) = I( y y) y = F ( y) y, i UNI, i = où F UNI, est la foctio de répartitio empirique costruite avec réalisatios de variables aléatoires uiformes das [,]. Au total, D = sup F ( x) F( x) = sup F ( y) y x y [,] UNI, et o voit que le derier terme e fait pas iterveir F. La derière étape repose sur le théorème de Kolmogorov (que ous e démotros pas) : Pour u esemble de variables aléatoires iid de foctio de répartitio cotiue F o a

P( D x) K( x), où K( x ) est la foctio de répartitio de Kolmogorov défiie par e. i= K( x) = ( ) i i x Pour les faibles valeurs de o trouve des tables doat les valeurs critiques aux seuils de risque usuels ; pour les tailles d échatillo importates o peut utiliser les propriétés asymptotiques et doc calculer K( x ). Les tests d Aderso-Darlig et de Cramer-vo Mises Ce sot des tests dérivés du test de Kolmogorov-Smirov mais basés sur la différece quadratique etre les foctios de répartitio théorique supposée et empirique ( F x F x ) ( ) ( ). Ils ot doc comme forme géérale ue expressio du type : + ( ) Q = F ( ) ( ) ( ) ( ) x F x ψ x df x, où ψ ( x) est ue foctio de podératio. Ces tests ot ue distributio qui, cotrairemet au test K-S, déped de la distributio supposée et doc pour lesquels les valeurs critiques variet selo l hypothèse reteue. Par ailleurs alors que das K-S o regarde la distace maximale etre les deux foctios de répartitio, das les deux tests cités maiteat l esemble des observatios est cosidéré. Cramer-vo Mises : la foctio de podératio est doée par : ψ ( x) = et la statistique de test par : W i = yi + i= O coclut au rejet de l hypothèse ulle lorsque critique. Aderso-Darlig : la foctio de podératio est doée par : ( ) ψ ( x) = F( x) F( x) et la statistique de test par : ( ( i) ( + i) ) A = i y + y i= ( ) log( ) log( ) W est supérieure à sa valeur 3

(o rappelle que l idice mis etre parethèse sigifie que l o cosidère les observatios classées par ordre croissat et que y = F ( x ) ) ( i) ( i) Elle doe plus de poids aux observatios situées das les queues de la distributio que e le fait la statistique de Kolmogorov-Smirov (vous pouvez vérifier ceci aisémet : la foctio ψ ( x) est croissate puis décroissate avec F( x ) et atteit so maximum e F( x ) =.5 ) et peut doc être itéressate das les cas ou ce sot précisémet les déviatios importates par rapport au cetre de la distributio qui importet. La décisio est de rejeter l hypothèse ulle lorsque sa valeur critique. A est supérieure à U exemple d applicatio Soit par exemple les otes sur obteues das ue certaie matière par trete-huit étudiats pris au hasard das ue promotio. O se demade si o peut accepter l hypothèse de tirage das ue gaussiee. data otes ; iput ote @@ ; cards ; 8. 7.5 9. 5.5. 3. 6.5 5.. 9..5.5 3.5 4.5. 8.5..5 9..5. 4. 7.5.5. 8.5. 4.5 9.5.. 8. 7.5.5.5 9. 5.. ; proc uivariate data=otes ormal ; var ote ; histogram ote / kerel(k=ormal c=mise w=5) ormal (mu=est sigma=est); probplot ote / ormal (mu=est sigma=est); ru ; L optio ormal utilisée das la lige d appel de la procédure spécifie que la répartitio F théorique des écritures précédetes est la répartitio d ue gaussiee. La commade histogram demade l affichage d u histogramme et l optio ormal (mu=est sigma=est) lui superpose la desité d ue gaussiee dot les paramètres sot la moyee et l écart-type estimés sur l échatillo. L optio kerel(k=ormal c=mise w=5) réclame l affichage de l estimatio de la desité par ue foctio de kerel de type ormal ; c=mise sélectioe le badwidth parameter par miimisatio de l itégrale de l erreur quadratique moyee et w=5 gère l épaisseur du trait (voir le cours de C. Hurli pour plus de détails). L istructio probplot affiche u graphique comparat les observatios ordoées avec les percetiles d ue distributio théorique, ici ue gaussiee. 4

L exécutio de ce code doe la sortie suivate (l esemble des iformatios est pas reproduit) : La procédure UNIVARIATE Variable : ote Momets N 38 Somme poids 38 Moyee 9.8578947 Somme obs. 373 Écart-type.74743 Variace 7.546344 Skewess -.38574 Kurtosis -.764 SS o corrigée 394.5 SS corrigée 79.56 Coeff Variatio 7.9859334 Moy. erreur std.4456878 Mesures statistiques de base Positio Variabilité Moyee 9.8579 Écart-type.7474 Médiae.5 Variace 7.5463 Mode. Étedue. Itervalle iterquartile 4. Tests de ormalité Test -Statistique-- -Seuil de sigificativité- Shapiro-Wilk W.978335 Pr < W.6583 Kolmogorov-Smirov D.98347 Pr > D >.5 Cramer-vo Mises W-Sq.557 Pr > W-Sq >.5 Aderso-Darlig A-Sq.3394 Pr > A-Sq >.5 Au seuil de % aucue des quatre statistiques e permet de rejeter l hypothèse de ormalité (avec peu de poits il est préférable d utiliser u seuil de risque plus élevé que ceux reteus usuellemet). 3 5 P e r c e t 5 5 4 6 8 4 6 8 ot e Globalemet ce graphique cofirme bie que les observatios peuvet être cosidérées comme des réalisatios d ue gausiee, avec cepedat ue queue de distributio à gauche 5

u peu épaisse correspodat à ue fréquece de otes basses plus importate qu attedue sous l hypothèse de distributio ormale. Fialemet le graphique des probabilités obteues reproduit ci-après cofirme bie les précédetes coclusios (e abscisse figure les percetiles. 7. 5 5.. 5 o t e. 7. 5 5.. 5 5 5 5 75 9 95 99 Normal Percet i l es Pour rappel, o doe das le tableau suivat, repris à N. Curtis, les règles d iterprétatio des graphiques obteus par les istructios probplot et/ou qqplot. Pour mémoire, o précise ecore ici quelques amélioratios itéressates pouvat être apportées à l istructio histogram. E particulier, il est possible via l optio iset de faire apparaître das le graphique les valeurs de certaies quatités, de gérer le cetre des barres 6

aisi que leur ombre par l optio midpoits, de tracer ue verticale pour ue valeur particulière de l abscisse, de spécifier l échelle e termes de fréquece d observatios représetées par les barres. Aisi le code suivat : proc uivariate data=otes ormal; var ote; histogram ote / kerel(k=ormal c=mise w=5) ormal (mu=est sigma=est) midpoits= to by href= vscale=cout; iset ="N" (.) mea="moyee" (5.) std="ecart-type" (5.) /pos=w height=3; ru; revoie le graphe : 8 C o u t 6 4 4 6 8 4 6 8 ot e Le test du Chi Ce test peut être utilisé sur des distributios discrètes et cotiues spécifiées a priori. Les classes défiies par les distributios discrètes sot «aturellemet» idetifiées par les doées traitées. Par exemple ue répartitio des idividus selo leur régio d habitatio, le ombre de persoes costituat u méage, etc Das le cas de distributios cotiues, les observatios doivet être regroupées e classes ce qui iduit ue part d arbitraire affectat les coclusios obteues par so applicatio et de toute faço etraîe ue perte d iformatio. 7

Sous H : «la foctio de répartitio est F X», où F X est doc coue, il est toujours possible de calculer la probabilité d apparteace à ue classe doée, soit p, k =,, K où K est le ombre de classes. Das ces coditios, si H est vraie, l effectif attedu das la k classe k avec u échatillo de taille est simplemet ek = pk. Soit k f l effectif observé das la classe k. Il semble raisoable de regarder l écart etre ces affectifs attedus et observés : si l écart est faible o acceptera raisoablemet H, s il e l est pas o la rejettera. Tout le problème est de juger de la sigificativité d u tel écart. Pour cela o défiit la statistique Q comme : Q K = k = ( f e ) k e k k La distributio de Q à distace fiie est difficile à obteir. E revache asymptotiquemet, et e se fodat sur des argumets revoyat au test LRT développé das le cadre des estimateurs du maximum de vraisemblace, o peut motrer «plus» aisémet que cette distributio va tedre vers ue loi de Chi à K dégrés de liberté. Cette approximatio est cepedat mauvaise pour les faibles probabilités et ue règle souvet posée est que l effectif théorique de chaque classe doit être au mois égal à 5, ce qui peut impliquer des regroupemets de classes iitiales. Par ailleurs la loi F X déped gééralemet de p paramètres icous que l o doit estimer préalablemet au calcul de Q. Das ces cas, le ombre de degrés à utiliser pour le Chi est K p. Par exemple, si o veut juger de l adéquatio à ue ormale de paramètres µ et σ icous, o doit les remplacer par ˆµ et s et Q est comparée à la valeur critique d u Chi à K 3 degrés de liberté. E théorie égalemet pour que l adéquatio à la loi asymptotique soit justifiée il faudrait que les paramètres icous soiet estimés par la méthode du maximum de vraisemblace sur les doées regroupées e classes et o pas, pour les distributios cotiues, sur les observatios iitiales o regroupées. Sous SAS cette statistique est dispoible das la procédure FREQ. Par défaut l optio CHISQ suppose des proportios égales das chacue des classes, soit des effectifs attedus égaux à ek = / K pour k =,,, K. Il est aturellemet possible de spécifier des effectifs attedus différets avec l optio TESTF=(liste de fréqueces), ou des proportios attedues avec l optio TESTP=(liste de proportios). Par ailleurs il est possible de demader le calcul du seuil de sigificativité exact e plus de celui doé par l approximatio asymptotique. 8

Soit l exemple d applicatio suivat : O pese que sur étudiats de première aée toutes spécialités de formatio cofodues, u seul obtiet so aée avec la metio «très bie», quatre avec la metio «bie», dix avec la metio «assez bie», quarate-ciq avec la metio «passable» et que quarate sot ajourés. Des doées ot été collectées das deux uiversités. Elles paraisset das le programme suivat : data repartitio; iput uiv $ metio $ eff @@; cards; uiva tb uivb tb 7 uiva b 55 uivb b 48 uiva ab 43 uivb ab 55 uiva p 8 uivb p 68 uiva aj 798 uivb aj 573 ; ru; Il s agit de savoir si ces doées sot compatibles avec la distributio supposée des metios et cela au sei de chacue des uiversités. La réalisatio de l exrcice faisat à l évidece appel à l optio by uiv, il coviet de procéder à u tri préalable : proc sort data=repartitio; by uiv; ru; Le test lui-même est réalisé au moye des istructios qui suivet : proc freq data=repartitio order=data; by uiv; tables metio / testp=( 4 45 4); weight eff; ru; Pour chacue des 5 classes de metios correspod doc la proportio attedue précisée das l optio testp. O e demade pas le calcul du seuil de sigificativité exact de la statistique du Chi le temps de ce calcul état prohibitif. L optio order=data force la procédure à ordoer les classes de metio selo l ordre qu elles ot das le fichier de doées, soit (tb,b,ab,p,aj). E so absece SAS aurait utilisé par défaut l ordre lexicographique (ab,aj,b,p,tb) et il faudrait aturellemet e teir compte das l idicatio de la liste des proportios attedues, laquelle est précisée par testp=( 4 45 4). Les résultats obteus sot : 9

------------------------------------------- uiv=uiva -------------------------------------------- La procédure FREQ Test Cumulative Cumulative metio Fréquece Percet Percet Frequecy Percet ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ tb... b 55.5 4. 77 3.5 ab 43.5. 3 4.55 p 8 49.8 45. 4 63.73 aj 798 36.7 4.. Test du Khi-#pour proportios spécifiées ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Khi- 3.9699 DDL 4 Pr > Khi- <. Taille de l'échatillo = ------------------------------------------- uiv=uivb -------------------------------------------- La procédure FREQ Test Cumulative Cumulative metio Fréquece Percet Percet Frequecy Percet ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ tb 7.5. 7.5 b 48 3.5 4. 65 4.4 ab 55.5. 4.9 p 68 46.4 45. 9 6.5 aj 573 38.85 4. 475. Test du Khi-#pour proportios spécifiées ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Khi- 3.767 DDL 4 Pr > Khi-.4385 Taille de l'échatillo = 475 Pour l Uiversité B les doées sot compatibles avec la distributio supposée (statistique Q=3.767, seuil de sigificativité asymptotique=.4385). E revache, pour l Uiversité B ous devos rejeter cette adéquatio au seuil de 5%. Le calcul du seuil de sigificativité exact peut demader u temps d exécutio assez log que ous avos jugé ici prohibitif. Il est possible d iterrompre les calculs des seuils exacts via, sous Widows, les touches Ctrl-Break (Break=Arrêt défil). Il est ormalemet possible das ces coditios d évaluer le seuil exact avec u temps de calcul ettemet plus réduit grâce à des simulatios de Mote Carlo si l o e fait pas cofiace à l approximatio asymptotique. Cette possibilité sera étudiée ultérieuremet, l emploi de l optio MC cojoitemet avec celle de BY géérat des erreurs das cette procédure FREQ, au mois jusqu à la versio 8. (Alert Note SN-543).

Efi il était possible de tester l hypothèse ulle sur la totalité des étudiats sas teir compte de leur spécialité de formatio. U tel exercice coduit aisi aux résultats doés ci-dessous : La procédure FREQ Test Cumulative Cumulative metio Fréquece Percet Percet Frequecy Percet ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ tb 39.6. 39.6 b 3.8 4. 4 3.86 ab 398.83. 54 4.69 p 764 48. 45. 34 6.69 aj 37 37.3 4. 3675. Test du Khi-#pour proportios spécifiées ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Khi- 9.8565 DDL 4 Pr > Khi- <. Taille de l'échatillo = 3675 L hypothèse ulle est aisi rejetée sur l échatillo total. Ceci illustre la écessité das ce type de test de teir compte d ue possible hétérogééité des idividus. Aisi das le cas étudié, la répartitio supposée a priori est pas ivalidée sur le sous-échatillo des étudiats de l Uiversité B. TESTS SUR LA VALEUR CENTRALE Avat d aborder les tests o paramétriques ous allos faire quelques rappels sur les tests paramétriques employés habituellemet pour faire répodre à des iterrogatios sur la tedace cetrale d ue distributio et sa mise e œuvre sous SAS. Les aspects théoriques sot das cette première partie cosidérés comme déjà cous et e sot doc pas détaillés. L APPROCHE PARAMERIQUE Le test le plus commu pour tester ue valeur particulière de l espérace ou l égalité des espéraces des moyees de deux groupes est u test de studet. Si le ombre de groupes est supérieur à deux o doit réaliser ue aalyse de la variace.

Ces tests supposet que les échatillos sot des tirages de gaussiees d espéraces icoues. Cepedat o peut toujours se référer à u théorème cetral-limite : même si les distributios e sot pas ormales, la moyee empirique ted vers ue gaussiee lorsque le ombre d observatios,, est grad. E pratique au-delà d ue vigtaie de poits l approximatio est souvet jugée suffisate. Test de studet sur l espérace avec u seul échatillo Il repose sur le fait que sous H : E ( x) c x c =, t = t( ) avec s x xi i = x =, ( ), et sx s = xi x ( ) i= s = =écart-type de la moyee. Sous SAS, o peut utiliser au mois trois procédures pour réaliser ce test : TTEST, MEANS, et UNIVARIATE. Par exemple, o si o peut accepter l hypothèse que le cetre de la distributio des otes utilisées das l exemple précédet vaut. La proc TTEST de SAS/STAT demade simplemet que l o spécifie la valeur testée, c, avec l optio h=c, le seuil de risque de première espèce, α, choisi au moye de l optio alpha=α et, aturellemet, le om de la variable coteat les observatios. Das le cas préset, la sytaxe est doc : proc ttest data=otes h= alpha=.5 ; var ote ; ru ; La sortie géérée est : The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL

Variable N Mea Mea Mea Std Dev Std Dev Std Dev Std Err Miimum Maximum ote 38 8.99 9.858.79.396.747 3.554.4456 3.5 5.5 T-Tests Variable DF t Value Pr > t ote 37 -.4.687 O y trouve les otes maximales et miimales de l échatillo, le ombre d observatios, la ote moyee (ici 9.858) avec idicatio des bores d u itervalle de cofiace à 95% (ici l espérace a 95 chaces sur de se situer etre 8.99 et.79), l estimatio de l écarttype d échatillo s (ici.747) avec idicatio des bores d u itervalle de cofiace à 95% (ici l écart-type a 95 chaces sur de se situer etre.396 et 3.554). Efi la valeur 9.858 de la statistique t = =.4 et so iveau de sigificativité (ici.687) calculé e.747 38 supposat ue studet à 37 degrés de liberté. O accepterait doc l hypothèse ulle au seuil de 5%. La proc MEANS costruit égalemet ce test de studet mais uiquemet pour ue valeur de c égale à zéro. Aisi pour obteir les mêmes sorties que précédemmet, il faut passer par ue étape DATA et soustraire aux observatios iitiales puisqu e effet, H : E( x) = H : E( x ) =. O aurait alors : data otes ; set otes ; ote=ote- ; ru; proc meas data=otes mea std stderr t probt clm alpha=.5; var ote; ru; Les optios mea, std, stderr, t, probt et clm demadet respectivemet l affichage de la moyee et de l écart-type d échatillo (x et s ), de l écart-type de la moyee ( s ), de la statistique t de studet, de so iveau de sigificativité (bi-directioel) aisi que les bores d u itervalle de cofiace à 95% pour l espérace (aturellemet il faut maiteat ajouter à certaies de ces quatités pour retrouver les résultats affichés par proc TTEST). x 3

L exécutio de ce code doe: The MEANS Procedure Aalysis Variable : ote Lower 95% Upper 95% Moyee Écart-type Erreur std t Value Pr > t CL for Mea CL for Mea ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ -.845.74743.445688 -.4.687 -.874.7879 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Proc UNIVARIATE autorise égalemet la réalisatio de ce test. Toutefois cette procédure doat aussi les résultats de tests o paramétriques ous la préseteros ultérieuremet. Test de studet d idetité des espéraces avec échatillo apparié Das u échatillo apparié type o dispose des observatios à de plusieurs variables. L exemple type est celui d idividus sur lesquels o a mesuré ue variable avat et après u traitemet. L hypothèse ulle souvet posée est celle de l égalité des espéraces des deux variables et le test se coduit simplemet e réalisat u test de studet sur la différece des valeurs de la paire de variables. Soit dif i cette différece calculée sur le i ième idividu et c la valeur supposée (usuellemet ), o a doc H : µ dif = c, l alterative pouvat être uidirectioelle ou bidirectioelle. Sous H la statistique dif c t =, avec dif = dif i, s dif s = difi dif s et dif s =, suit u studet à degrés de liberté. Pour poursuivre l exemple précédet selo cette logique, ous avos repris les mêmes étudiats et collecté les otes obteues das ue ue secode épreuve sur la même matière après correctio de la première épreuve. O est e droit d admettre que des caractéristiques 4

idividuelles itervieet de sorte que pour u étudiat doé il y a pas idépedace de ses otes das les deux iterrogatios. La questio est de savoir si la moyee des otes s est modifiée etre les deux épreuves. data u; iput ote @@ ; cards ; 8. 7.5 9. 5.5. 3. 6.5 5.. 9..5.5 3.5 4.5. 8.5..5 9..5. 4. 7.5.5. 8.5. 4.5 9.5.. 8. 7.5.5.5 9. 5.. ; data deux; iput ote @@ ; cards; 9. 7. 9.5 5. 3. 3. 7. 6. 4. 8.5.. 6. 4. 3.5 8..5.5...5 5. 9...5 9.5. 5.5...5 9.5 7.... 6.5 9.5 ; data otes; merge u deux; ru; Le test s effectue aisémet avec la procédure ttest selo : proc ttest data=otes; paired ote*ote; ru; Avec, sur os doées les résultats suivats : The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Differece N Mea Mea Mea Std Dev Std Dev Std Dev Std Err ote - ote 38.57.4868.8.888.67.353.649 T-Tests Differece DF t Value Pr > t ote - ote 37.95.55 Ue élévatio sigificative de la moyee d eviro ½ poit est aisi révélée. La sytaxe de paired autorise la costructio de plusieurs tests avec u seul appel à la procédure FREQ. Aisi, il est autorisé d écrire : paired (x y)*(z*w), ce qui est équivalet à paired x*y x*w y*z y*w. De même, avec paired (x y):(z*w) o obtiet des résultats 5

similaires à ceux doés par paired x*z y*w. La sytaxe autorise égalemet la référece à des arrays avec par exemple : paired (x-x):(y-y). E revache, l emploi de paired iterdit l emploi simultaé des istructios var et class. Comme avec le test de studet précédet il est possible d employer les procédures MEANS ou UNIVARIATE plutôt que TTEST. L icovéiet est qu il est écessaire pour ces deux procédures de créer la différece des deux variables, via ue étape DATA préalable, différece sur laquelle o fait porter le test. Test de studet de comparaiso d espéraces avec deux échatillos idépedats L hypothèse essetielle pour tester l égalité des moyees de deux aléatoires idépedates pour lesquelles o dispose de respectivemet et réalisatios est celle d égalité des variaces des aléatoires e questio. Il est doc importat d e tester la validité sachat qu e cas de rejet il est ecore possible de costruire des approximatios de la studet. L hypothèse de ormalité e semble pas essetielle : il faut pourtat se méfier de ce test de studet lorsque les distributios sot très différetes de la gaussiee otammet pour de faibles tailles d échatillos.. E cas d égalité des variaces : La statistique de test de l hypothèse H : µ µ = c (le cas d égalité des moyees est aturellemet obteu e posat c = ) est simplemet : où t = s ( ) x x c Pooled + s pooled est la variace estimée sur l échatillo costitué par l uio des deux échatillos iitiaux mais faisat cepedat appel à des moyees empiriques différetes (ce qui explique le ombre de libertés de la statistique), soit : s pooled = ( x i x ) + ( xi x). + Sous la ulle t possède ue distributio de studet à + degrés de liberté. 6

. Le test d égalité des variaces des deux aléatoires doit égalemet vous être cou : il repose sur le fait que les statistiques d écart-type calculées sur chaque échatillo obéisset à u loi de chi-deux ce qui permet de dériver sas difficulté ue statistique de Fisher à sous H : σ = σ : ( s s ) ( s s ) max, F = mi, Les ombres de degrés de liberté état selo le cas (, ) où (, ). 3. E cas d iégalité des variaces. Le test des moyees de deux populatios gaussiees à variace iégale est cou sous le om de problème de Behres-Fisher. Plusieurs solutios ot été proposées (Fisher, Welch, Aspi, Qi, Howe, Ji ). SAS, das la procédure TTEST, propose de calculer l approximatio d u studet selo : t a = x x w + w, avec s w = et w s =. Esuite deux possibilités sot offertes : soit ue approximatio du seuil de sigificativité de t a (Cochra et Cox), soit ue approximatio du ombre de degrés de liberté de t a (Satterthwhaite). 3.. Approximatio de Cochra et Cox. Il s agit d approximer le seuil de sigificativité de t a. C est la valeur du seuil de risque α tel que l o vérifie l égalité : ( ) / ( ) ta = w t + w t w + w où t et t sot les valeurs critiques, au seuil α e questio, de deux distributios de studet à respectivemet et degrés de liberté. Ue autre faço de compredre so applicatio est de oter que cette approximatio mèe au rejet de l hypothèse ulle, H : µ = µ, au seuil de risque α fixé a priori si t a est supérieur à ue valeur critique obteue comme moyee podérée des valeurs critiques au seuil α de deux distributios de studet à respectivemet et degrés de liberté. 3.. Approximatio de Satterthwhaite. Elle approxime le ombre de degrés de liberté de t a selo : 7

df t a ( w + w ) = ( ) w ( ) w + E règle géérale df est pas u etier.. Par défaut, dès lors que l o spécifie das TTEST l iégalité des variaces, l approximatio de Satterthwhaite est utilisée. 4. Exemple d applicatio. O repred les 38 otes obteues lors du premier exames sachat que les 9 premières otes ot été obteues par des filles et les 9 suivates l ot été par des garços (il est pas écessaire que les échatillos soiet de tailles idetiques). Soit doc : data otes3; set otes; if <=9 the sexe='f'; else sexe='m'; ru; proc ttest data=otes3 cochra h= alpha=.; class sexe; var ote; ru; L optio cochra das l appel de TTEST demade l affichage des résultats obteus avec l approximatio de Cochra-Cox (e so absece, seule Satterthwhaite est employé). La spécificatio de h= réclame le test d égalité des moyees (elle est ici o écessaire puisqu il s agit de l hypothèse testée par défaut). Efi alpha=. spécifie que l o travaille au seuil de risque de % (par défaut TTEST utilise u seuil de 5%). Les résultats suivats sot géérés : The TTEST Procedure Statistics Lower CL Upper CL Lower CL Upper CL Variable sexe N Mea Mea Mea Std Dev Std Dev Std Dev Std Err ote F 9 8.698 9.9.44.476 3.744 4.565.753 ote M 9 8.733 9.75.688.94.4569 3.46.5637 ote Diff (-) -.34.5.7348.338.788 3.464.99 T-Tests Variable Method Variaces DF t Value Pr > t ote Pooled Equal 36.3.869 ote Satterthwaite Uequal 34.3.3.87 ote Cochra Uequal 8.3.883 Equality of Variaces Valeur Variable Method Num DF De DF F Pr > F ote Folded F 8 8.57.35 8

Das le cas préset o ote que les trois tests coduiset à la même coclusio, à savoir le o rejet aux seuils de risque usuels de l hypothèse d égalité. Par ailleurs, le test d égalité des variaces ( Folded F ) est pas défavorable à l hypothèse ulle et e coséquece il semble suffisat ici de faire référece seulemet au résultat du studet pooled. Test de comparaiso d espéraces avec deux échatillos idépedats ou plus = L aalyse de la variace Lorsque l o a deux échatillos ou plus o peut réaliser ue aalyse de la variace qui gééralise l approche précédete. Le cas type est celui où ue variable explicative (appelée souvet facteur) pred plusieurs modalités de sorte qu à chaque modalité correspod u souséchatillo d ue variable expliquée à réalisatios idépedates supposée gaussiee et plus précisémet que les réalisatios du j ième groupe sot iid, N ( µ j, σ ). O ote e particulier que la variace est idetique sur tous les groupes, seules les espéraces évetuellemet diffèret. C est ce derier aspect qui est étudié : il s agit de savoir si o a ue modificatio de l espérace avec la modalité de l explicative. Lorsque le facteur explicatif pred J modalités ( J ) l hypothèse ulle s écrit doc: H : µ = µ = = µ J. L alterative est que toutes les moyees e sot pas égales. Notez que le rejet de H e reseige i sur les moyees qui diffèret i sur le ses de la (ou des) déviatio(s). E ce cas l aalyse peut doc se poursuivre avec des méthodes de comparaisos multiples des moyees. La costructio du test de H repose sur des cocepts que vous devez déjà coaître : o cosidère les variaces itra-classes et iter-classes pour costruire ue statistique de Fisher, V it ra = J j V j j=, c est la moyee (podérée par les effectifs) des variaces de chaque classe ou variace withi, J j Vit er = ( y j y), c est la variace des moyees (égalemet podérée) ou j= variace betwee. Avec y j = moyee au sei du j ième groupe, V j = variace au sei du j ième groupe, 9

y = moyee géérale j = effectif du j ième groupe, = effectif total. Vous savez (Cf. les cours d ADD ou d écoométrie liéaire) que la variace totale est la somme des variaces itra et iter-classes et que ces deux derières permettet de costruire des chi-deux idépedats de sorte qu il est possible sous H de défiir u fisher F à ( J, J ) degrés de liberté comme : Vit er /( J ) F = V it ra /( J ) ue valeur élevée de F soulige qu il y a relativemet plus de différece etre les groupes qu à l itérieur des groupes et est doc u sigal défavorable à l hypothèse ulle.. Exemple d aalyse de la variace à u facteur Nous disposos d u fichier cliets idiquat le ombre de visites de dépaages réalisées au cours d ue aée sur u type de matériel (variable visites), l existece d u cotrat d etretie (variable cotrat codée si le cliet possède u tel cotrat et sio) et d ue évaluatio sur l utilisatio du matériel (variable emploi codée si très itesive, si itesive, 3 si ormal, 4 si peu itesif). O veut étudier l impact de l itesivité de l utilisatio sur le ombre moye de dépaages. data paes; iput visites cotrat emploi @@; cards; 3 9 4 3 8 4 3 9 4 4 3 4 3 8 4 3 3 4 9 8 3 8 4 9 8 3 7 4 8 8 9 3 8 4 9 9 8 3 8 4 9 9 6 3 7 4 8 9 8 3 9 4 9 ; ru; O commece par calculer des statistiques descriptives et otammet la moyee du ombre de visites selo les modalités d utilisatio du matériel : proc meas data=paes mea; class emploi; var visites; 3

ru; Avec comme résultats : The MEANS Procedure Aalysis Variable : visites Nb emploi obs. Moyee ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 3.76938 3. 3 9.5 4 8.466667 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Assez logiquemet il semble que le ombre d itervetios soit lié au mode d utilisatio. Ceci peut toutefois être qu u effet puremet aléatoire et o veut doc costruire u test formel de l hypothèse H : µ = µ = µ 3 = µ 4. Pour réaliser ue aalyse de la variace plusieurs procédures sot offertes par SAS et otammet les procs ANOVA et GLM. La première est applicable que si la taille des souséchatillos est idetique alors que la secode autorise de travailler avec des effectifs de groupes égaux ou différets (si les j sot égaux etre eux, proc ANOVA est plus rapide et écessite mois de ressources machie que proc GLM). O mettra ici e œuvre GLM. Le code à exécuter est alors : proc glm data=paes; class emploi; model visites = emploi; ru; quit; La commade model spécifie le om de l expliquée et du facteur, class créé les idicatrices de chaque modalités. GLM état ue procédure iteractive o e sort avec quit. Les résultats associés sot les suivats : The GLM Procedure Class Level Iformatio Class Levels Values emploi 4 3 4 Number of observatios 5 3

Depedet Variable: visites Somme des Valeur Source DDL carrés Carré moye F Pr > F Model 3 36.7564.9883 4.63.66 Error 46.4359.63573 Corrected Total 49 56.5 R-Square Coeff Var Root MSE visites Mea.3793 6.66655.66655 9.7 Valeur Source DDL Type I SS Carré moye F Pr > F emploi 3 36.75643.98834 4.63.66 Valeur Source DDL Type III SS Carré moye F Pr > F emploi 3 36.75643.98834 4.63.66 Ici la valeur du Fisher (4.63) cofirme le rejet de l hypothèse ulle avec u degré de sigificativité particulièremet faible (.66) : l itesité de l utilisatio du matériel affecte le ombre moye de paes. Il peut dès lors être itéressat de comparer les moyees etre elles. L istructio cotrast permet la réalisatio de tests sur des combiaisos liéaires des espéraces. Par exemple, si ous voulos tester (i) espérace du 3 ième groupe = espérace du premier (ii) espérace du 3 ième groupe = espérace du secod (iii) espérace du 3 ième groupe = espérace du quatrième (iv) espérace du er groupe =espérace du secod (v) moyee des espéraces groupe & = moyee des espéraces groupe 3 & 4 il suffit d exécuter : proc glm data=paes; class emploi; model visites = emploi; cotrast 'ormal-itesif' emploi - ; cotrast 'ormal-très itesif' emploi - ; cotrast 'ormal-peu itesif=' emploi -; cotrast 'très itesif-itesif=' emploi - ; 3

cotrast 'trés itesif+itesif=ormal+peu itesif' emploi - -; ru; quit; et o obtiet (o e doe qu ue partie des résultats) : Cotrast DDL Cotrast SS Carré moye F Pr > F ormal-itesif.56.56.6.4437 ormal-très itesif.53769.53769 3.85.559 ormal-peu itesif= 7.466667 7.466667.69.75 très itesif-itesif= 3.8465385 3.8465385.47.33 trés itesif+itesif=ormal+peu itesif 5.38785 5.38785 9.7.3 O vous laisse iterpréter les résultats e questio. Rappelez-vous que das ces comparaisos de plusieurs moyees l absece de sigificativité des écarts est pas trasitive : par exemple e comparat 3 moyees, µ, µ et µ 3 telles que x < x < x3 o peut coclure que les deux extrêmes µ et µ 3 sot différetes alors qu elles peuvet e pas être idividuellemet sigificativemet différetes de µ. La procédure GLM offre plusieurs possibilités pour comparer u esemble d espéraces etre elles et autorise otammet la costructio d itervalles de cofiace sur les écarts de moyees. E particulier lorsque l o veut cosidérer tous les couples d écarts possibles etre les moyees des J groupes ou etre les moyees de J groupes avec ue moyee de référece il est coseillé d utiliser les tests de Scheffe ou mieux ecore de Tukey ou de Duett (Sur ces aspects voir la documetatio de proc GLM et spécialemet la partie Details->Comparig Groups->Multiple Comparisos) où ecore d ajuster le degré de risque utilisé pour juger du rejet e foctio du ombre de comparaisos effectués. Le problème das ce type de comparaisos multiples de moyees est e effet que l o est ameé à réaliser u ombre relativemet importat de tests d hypothèse simple et la difficulté est de maîtriser le seuil de risque (ou de cofiace) : avec u seul test, le risque de première espèce correspod bie à celui choisi a priori, par exemple 5%. E revache si l o effectue m tests, la probabilité de rejeter à tort passe à -(-.5) m, soit avec tests supposés idépedats à près de 4%, et avec tests à plus de 6%. Il existe plusieurs solutios pour cotrôler ce risque de première espèce. La plus simple est la méthode de Boferroi : le seuil de risque appliqué sur chaque hypothèse simple est égal au seuil de risque choisi divisé par le ombre de tests simples réalisés. Aisi, avec tests et u seuil de risque de 5%, o va travailler idividuellemet avec u seuil de 5%/=.5%. E d autres termes l hypothèse ulle sera acceptée pour u test idividuel si so seuil de sigificativité est supérieur à.5% et 33

o pas à 5%. La méthode est simple mais elle possède l icovéiet de privilégier fortemet l hypothèse ulle de sorte que l o peut l accepter trop souvet à tort. Les méthodes dites de stepdow essayet de corriger cette tedace (par exemple les méthodes de Hochberg ou de Holm). Le test de Sidak, égalemet dispoible avec la proc GLM, est aussi ue variate de l ajustemet de Boferroi du seuil de risque de première espèce. Ue autre solutio est d employer u test bootstrap (Cf. cours de Ch. Hurli) ce qui s effectue aisémet avec la procédure MULTTEST (membre de SAS/STAT) comme le motre l exemple ci-dessous : proc multtest data=paes boot = seed=3 bo pvals; class emploi; cotrast 'ormal-itesif' - ; cotrast 'ormal-très itesif' - ; cotrast 'ormal-peu itesif=' -; cotrast 'très itesif-itesif=' - ; cotrast 'trés itesif+itesif=ormal+peu itesif' - -; test mea(visites); ru; O réclame la costructio de échatillos boostrap (optio =), l affichage des seuils ajustés selo la méthode de boferroi (optio bo), l affichage des seuils de sigificativité (optio pvals). L optio seed= iitialise le géérateur de ombre au hasard de sorte que les résultats peuvet être répétés. Efi, la commade test demade à ce que les tests portet sur la moyee de chacue des variables spécifiées, ici ue seule : visites. Les résultats sot les suivats : Model Iformatio Test for cotiuous variables: Mea t-test Tails for cotiuous tests: Two-tailed Strata weights: Noe P-value adjustmet: Boferroi P-value adjustmet: Bootstrap Ceter cotiuous variables? Yes Number of resamples: Seed: 3 Cotrast Coefficiets emploi Cotrast 3 4 ormal-itesif - ormal-très itesif - ormal-peu itesif= - 34

très itesif-itesi - trés itesif+itesi - - Cotiuous Variable Tabulatios Stadard Variable emploi NumObs Mea Deviatio visites 3.769.95 visites 3..44 visites 3 9.5.936 visites 4 8.467.996 p-values Variable Cotrast Raw Boferroi Bootstrap visites ormal-itesif.4437..84 visites ormal-très itesif.559.796.8 visites ormal-peu itesif=.75.5377.3 visites très itesif-itesi.33..567 visites trés itesif+itesi.3.57. Au seuil de 5% la méthode bootsrap et celle de Boferroi cofirmet le rejet d ue espérace égale pour les deux sous groupes {usage très itesif et itesif} versus {usage ormal et peu itesif}. E revache à ce même seuil o accepte les autres hypothèses ulles. O ote égalemet que toutes deux cotrediset au seuil de % le résultat obteu avec le test usuel de l hypothèse d égalité des moyees des groupes {usage ormal} et {usage très itesif} puisqu elles e permettet pas so rejet. Plutôt que de travailler avec les statistiques usuelles, o peut doc aussi recourir à des tests costruits spécialemet pour les comparaisos multiples. Aisi le test de Tuckey est-il fodé sur le studetized rage : pour chaque couple de moyees possible o calcule l écart etre les moyees empiriques mais la ormalisatio tiet compte du ombre de couples possibles. Aisi, alors que le test de studet met au déomiateur l écart-type de l écart de moyee, la statistique studetized rage utilise l écart-type de la moyee. Elle teste doc l hypothèse que les plus grade et plus petite moyee de J groupes sot égales. Si cet écart est o sigificatif alors o e peut rejeter l hypothèse que l esemble des moyees e diffèret pas au seuil α choisi a priori. Le test de Tuckey est fodé sur ce type de statistique et va cosidérer tous les couples possibles de moyees. Das otre exemple, e exécutat le code suivat : 35

proc glm data=paes; class emploi; model visites = emploi; meas emploi / tuckey; ru; Nous obteos : Test de Tukey's Studetized Rage (HSD) pour visites NOTE: This test cotrols the Type I experimetwise error rate. Alpha.5 Erreur Degrés de Liberté 46 Erreur du Carré Moye.63573 Valeur critique de l'étedue modifiée selo la loi de Studet 3.76958 Comparaisos sigificatives au iveau.5 idiquées par : ***. Differece emploi Betwee Simultaé 95% Compariso Meas Cofidece Limits -.769 -.9.4594-3.69 -.4558.9943-4.356.675 4.776 *** - -.769 -.4594.9-3.5 -.5.5-4.5833 -.47 3.384 3 - -.69 -.9943.4558 3 - -.5 -.5.5 3-4.833 -.6759.846 4 - -.356-4.776 -.675 *** 4 - -.5833-3.384.47 4-3 -.833 -.846.6759 Le seul écart sigificatif au seuil de 5% cocere la moyee du ombre de visites des groupes utilisatio peu itesive et utilisatio très itesive. Pour la validité des tests effectués jusqu ici ous avos implicitemet supposé que les variaces au sei des divers sous-groupes étaiet égales. Ue règle souvet acceptée est que l hétéroscédasticité est pas u problème pour les tests précédets si le rapport de la plus grade à la plus petite variace se situe das u rapport de à. Si o regarde de plus près cet aspect, il semble que l hypothèse e questio soit iteable. proc meas data=paes std; class emploi; var visites; ru; 36

doe e effet : The MEANS Procedure Aalysis Variable : visites Nb emploi obs. Écart-type ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 3.95378 3.4436 3.93646 4.99649 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ O peut imagier de réaliser u test d égalité des variaces. Ceci est possible toujours avec la procédure GLM avec laquelle o peut otammet mettre e œuvre le test de Bartlett, optimal lorsque les doées sot gaussiees mais est fortemet sesible au o respect de cette hypothèse distributioelle, de Levee qui cosiste à créer ue variable mesurat la dispersio des observatios e preat le carré où la valeur absolue (e précisat TYPE=SQUARE, valeur par défaut, ou TYPE=ABS) des écarts etre chaque observatio et la moyee de so groupe puis à réaliser ue aalyse de la variace sur cette ouvelle variable, et le test de Brow et Forsythe qui cosidère comme variable de dispersio la valeur absolue des écarts etre ue observatio et la médiae de so groupe (Ces choix sot guidés par l istructio HOVTEST=BARTLETT / LEVENE / BF). Selo la documetatio de SAS, la puissace de ces tests reste cepedat limitée alors que l aalyse stadard, sauf coditios extrêmes (variaces très différetes), doe des résultats assez robustes. Das les cas extrêmes, détectés otammet par les test robustes (Levee ou BF), il est possible d utiliser le test de Welch d égalité des moyees. Das otre cas ous pouvos demader par exemple l exécutio de : proc glm data=paes; class emploi; model visites = emploi; meas emploi / hovtest welch; ru; Ce qui iduit comme résultats : Levee's Test for Homogeeity of visites Variace ANOVA of Squared Deviatios from Group Meas Somme 37

des Carré Valeur Source DDL carrés moye F Pr > F emploi 3 56.574 8.755.95.44 Error 46 9.3 6.3553 Welch's ANOVA for visites Valeur Source DDL F Pr > F emploi 3. 6.44.3 Le test de Levee (test par défaut) détecte à 5% ue hétérogééité des variaces. L emploi du test de Welch coforte cepedat la précédete coclusio, à savoir l iégalité du ombre moye de dépaages selo l itesité de l utilisatio du matériel.. Exemple d aalyse de la variace à deux facteurs Nous ous limitos ici à u simple exemple et ue discussio (trop) brève de l extesio à plusieurs facteurs. Il est évidemmet possible de predre e compte plus d u facteur explicatif. Aisi das otre fichier d exemple ous disposos, e plus d ue iformatio sur le mode d utilisatio du matériel, d ue iformatio sur l existece ou o d u cotrat de maiteace. O veut doc savoir si le ombre de visites moye est affecté par ces deux variables et évetuellemet par leur iteractio. Ce derier aspect sigifiat simplemet que l impact d ue modalité d ue des variables déped de la valeur prise par l autre. Lorsque les effectifs des divers souséchatillos diffèret la questio de la mesure de l espérace se pose : au mois deux moyees peuvet être calculées. La moyee habituelle, à savoir la moyee des observatios d u sous-échatillo doé, peut aturellemet toujours être obteue. So icovéiet est qu elle est ifluecée par la répartitio des idividus au sei des modalités des facteurs. O peut doc chercher à mesurer l impact d u facteur soit sur la moyee empirique au sei de chaque groupe, soit sur la moyee ajustée preat e compte l impact des autres facteurs (LS mea) obteue e supposat des effectifs égaux das chaque sousgroupes. Par exemple, si ous cherchos ici à mettre e évidece l impact des variables emploi (4 modalités), cotrat ( modalités) aisi que les évetuels effets croisés, les diverses LS meas vot selo les sous-groupes être calculées avec les coefficiets suivats (o e doe que le mode de calcul de quelques LS meas) : 38

LS Mea emploi cotrat Emploi*cotrat µ 3 4 3 3 4 4 Globale /4 /4 /4 /4 / / /8 /8 /8 /8 /8 /8 /8 /8 Emploi= / / / / Emploi=3 / / / / Cotrat= /4 /4 /4 /4 /4 /4 /4 /4 Emploi=, cotrat= Das otre cas, si ous exécutos les commades : proc glm data=paes; class emploi cotrat ; model visites = emploi cotrat emploi*cotrat / ss ss ss3 ss4; ru; O obtiet : The GLM Procedure Depedet Variable: visites Somme des Valeur Source DDL carrés Carré moye F Pr > F Model 7 8.38954 8.3436 7.39 <. Error 4 8.9476.6695 Corrected Total 49 56.5 R-Square Coeff Var Root MSE visites Mea.836 8.435366.883 9.7 Valeur Source DDL Type I SS Carré moye F Pr > F emploi 3 36.75643.98834 8.6 <. cotrat 8.766547 8.766547 3.6 <. emploi*cotrat 3 9.338888 3.93696 4.65.68 Valeur Source DDL Type II SS Carré moye F Pr > F emploi 3 34.5445.54477 7. <. cotrat 8.766547 8.766547 3.6 <. 39

emploi*cotrat 3 9.338888 3.93696 4.65.68 Valeur Source DDL Type III SS Carré moye F Pr > F emploi 3 33.745686.48487 6.8 <. cotrat 8.958 8.958.34 <. emploi*cotrat 3 9.338888 3.93696 4.65.68 Valeur Source DDL Type IV SS Carré moye F Pr > F emploi 3 33.745686.48487 6.8 <. cotrat 8.958 8.958.34 <. emploi*cotrat 3 9.338888 3.93696 4.65.68 La somme des carrés de type et pour la variable emploi cherche à mettre e évidece des différeces sur les moyees arithmétiques des 4 groupes correspodat aux 4 modalités de cette variable sas ajustemet d ue part et avec ajustemet de l ifluece de la variable cotrat d autre part. La somme des carrés de type 3 recherche des écarts etre les moyees de type LS des 4 groupes correspodat aux 4 modalités de la variable emploi. Idépedammet du mode de calcul, et doc de la moyee cosidérée, les coclusios sot idetiques : il existe u effet de chaque facteur sur le ombre de visites, cet effet état dépedat de la valeur prise par l autre facteur (effets croisés sigificatifs). L APPROCHE NON PARAMETRIQUE Ici la médiae remplace la moyee comme mesure de la tedace cetrale d ue distributio. Même si la distributio sous-jacete est pas gaussiee u théorème cetrallimite ous eseige que la distributio de la moyee empirique de réalisatios 4

idépedates l est au mois asymptotiquemet (e pratique o cosidère qu avec ue tretaie de poits l approximatio peut être utilisée). Les tests o paramétriques e sot doc ici utiles que si la distributio dévie fortemet de la ormale et que l o a peu d observatios. Tests avec u seul échatillo ou deux échatillos appariés. Le test du sige O dispose d ue variable aléatoire de distributio cotiue à tirages idépedats et d échelle au mois ordiale. O e suppose pas l hypothèse de distributio gaussiee. Ce test s emploi doc pour des échatillos o gaussies de petites tailles (avec ue limite iférieure dépedate du seuil de risque choisi. Par exemple à 5% il faut avoir au mois 6 poits sio o e peut pas costruire d itervalle de rejet). L objectif est le test de H : la médiae est égale à M cotre l alterative H: la médiae est différete de M, où M est ue valeur spécifiée a priori. Ceci peut doc ecore s écrire : H : Pr( x M ) p / = = cotre H: Pr( x M ) = p / Ce test peut égalemet s appliquer das le cas d échatillos appariés costitués des paires d observatios ( x, i, x, i ). La variable a cosidérer das ce cas est simplemet x = x x et le test d absece d effet reviet à vérifier que la médiae de x vaut zéro, soit : H : Pr( x ) = / cotre H: Pr( x ) / Le test du sige cosiste à remplacer les observatios plus grades que M par u sige + et celles qui lui sot iférieures par u sige -. Si l hypothèse ulle est vraie alors le ombre de siges +, soit +, doit être proche du ombre de siges -,. Idépedammet de la loi de x, le ombre de siges +, qui va costituer la statistique de test, possède ue distributio biomiale de paramètres et ½ (ceci est égalemet vrai pour, le ombre de siges -). Si l alterative est uidirectioel de la forme H: la médiae est supérieure à M, alors la régio de rejet est { α } + +, expressio das laquelle α est le plus petit etier tel que j= α!.5 j!( j)! α. Si l alterative est de ses opposée, H: la médiae est iférieure à 4

M, alors la régio de rejet est { ' α } + + où ' α est le plus grad etier tel que! j!( j)! ' α.5 α. La biomiale état symétrique lorsque p =.5 j= ' α α, o a aturellemet =. Lorsque l alterative est bidirectioelle, o rejette au seuil α lorsque + est supérieur à α / ou lorsqu il est iférieur à α. ' / E fait SAS das la procédure UNIVARIATE utilise ue statistique de sige o stadard : + M = ( ) / et il évalue la probabilité d u test bidirectioel selo : Pr( M M ) =.5 + mi(, ) + ( + ) j= + ( + )! + j!( + j)! (ici + et sot respectivemet les ombres d observatios strictemet supérieures et iférieures à M : les observatios égales à M e sot pas prises e compte de sorte que + + ). La lecture du test est celle utilisée pour le studet : si le seuil de probabilité est iférieur au seuil de risque choisit o rejette l hypothèse ulle. Rappel : La loi biomiale e déped que de deux paramètres : le ombre d observatios,, et la probabilité de l évèemet «favorable», p. Aisi, la probabilité d obteir résultats favorables (et doc résultats défavorables) est doée par :! Pr( x = ) = p ( p)!( )! De cette expressio o déduit celle de la foctio de répartitio :! F( ) = Pr( x ) = p ( p)!( )! j= Par exemple la probabilité d obteir deux ou mois avec 4 jets successifs d u dé (o pipé) est : Pr( x = ) + Pr( x = ) + Pr( x = ), soit : 4 3 4! 5 4! 5 4! 5 + +!4! 6 6!3! 6 6!! 6 6 =.48+.386+.6 =.984 4

O peut oter que deux approximatios sot souvet utilisées lorsque est élevé et doc que le calcul des probabilités exactes deviet coûteux (cela se pratique souvet à partir de observatios) : Approximatio par ue ormale : justifiée lorsque est «grad» et la probabilité de l évèemet favorable «éloigée» de ou. Des «règles» ot été proposées, par exemple l approximatio serait satisfaisate lorsque p et (-p) sot supérieurs à 5. La gaussiee est alors défiie par pˆ p z = p( p) O otera qu ue correctio améliorat l approximatio par ue distributio cotiue (la gaussiee) d ue distributio discrète a été proposée qui vise otammet à e rapprocher le seuil de risque effectif du seuil de risque choisi. Elle doe de bos résultats même lorsque p est relativemet «loi» de.5. La formulatio de z est alors : pˆ p z =, soit ecore : p( p) + p z = p( p) Approximatio par ue variable de Poisso : l évèemet étudié se produit raremet et e coséquece p (ou -p) est proche de. Pour ue telle variable aléatoire de paramètre λ o a : e λ λ Pr( x = ) =, et E( x) = V ( x) = λ! Par exemple, si u évèemet particulier se produit e moyee fois par mois et que l o sait que la fréquece des observatios a ue distributio de Poisso alors la probabilité de coaître u mois sas accidet est égale à P( x ) = = e =.35 et celle de coaître u mois avec 5 accidets est de 5 e P( x = 5) = =.36 5! 43

Supposos que la fréquece soit de deux évèemets sur cas cosidérés, ce qui correspod doc à ue probabilité de surveue de l évèemet de %, l emploi de la biomiale mèerait à :! Pr( 5). (.) 5!( 5)! 5 95 x = = =.353 motrat aisi qu il est pas déraisoable de simplifier les calculs par l emploi de la Poisso.. Le test de Wilcoxo ou test des rags sigés (siged rak test) Le test précédet e pred e compte que les siges et e cosidère pas l amplitude des différeces etre les observatios et M. Logiquemet, u test qui itègre égalemet cette iformatio doit être plus performat. C est précisémet ce que fait le test de Wilcoxo que l o peut employer sur des doées idépedates mesurées sur ue échelle d itervalle issues d ue distributio symétrique. O commece par costruire les écarts, ei = xi M, puis o ordoe par ordre croissat les valeurs absolues des quatités obteues et o cosidère leur rag r( e i ) tout e coservat l iformatio sur leur sige : s i = si e i > et s = si e <. Cette variable aléatoire s est ue variable de Berouilli pour laquelle, sous i i H, E( s ) = / et V ( s ) =.5. Si o costruit la variable SR + comme somme des rags i des écarts positifs : i= i + SR = s r( e ) alors il viet (o suppose l absece d observatios de même rag, i i qui correspod à u évèemet de probabilité ulle avec des aléatoires cotiues. Das tous les cas, les observatios pour lesquelles l écart est ul sot puremet et simplemet retirées des calculs et o prises e compte das le total des observatios dispoibles ) : + ( + ) E( SR ) =.5 r e =.5 i = 4 ( i ) et i= i= + ( ) = ( / ( / ) = ( + )( + ) / 4 V SR i i i= 44

O peut vérifier que d avoir SR SR ( ) + SR =. Aisi, pour ue valeur supposée de M le fait + + SR est ue idicatio favorable à l hypothèse d ue médiae supérieure à + M. La statistique de Wilcoxo est défiie comme la valeur miimale de SR + ou SR. Lorsque la taille de l échatillo est «grade» o peut utiliser l approximatio par ue gaussiee défiie coformémet aux précédets résultats par : + ( + ) mi( SR, SR ) z = 4 ( + )( + ) 4 Ici égalemet ue correctio pour la cotiuité est souvet opérée et o préfère reteir : z = + ( + ) mi( SR, SR ).5 4 ( + )( + ) 4 SAS utilise cepedat ue autre défiitio e preat comme statistique du test de Wilcoxo la variable S : + S = SR ( + ) / 4 Aisi, ue valeur égative de S est plutôt favorable à l hypothèse d ue médiae iférieur à M. Das les calculs, la procédure UNIVARIATE attribue aux observatios de même rag la moyee des rags cocerés. Ce mode de traitemet des valeurs égales provoque ue réductio de la variace de SR +. De sorte que si pour des tailles d échatillo iférieures où égale à le seuil de sigificativité de S est calculé avec la distributio exacte, e revache lorsque est supérieur à vigt poits, SAS met e œuvre ue correctio pour cette réductio de variace de sorte que l approximatio est réalisée par ue studet à - degrés de liberté. O otera efi que le test de Wilcoxo est souvet préseté comme u test de symétrie de la distributio sous-jacete aux observatios sur lesquelles o calcule les rags. Il est importat de se rappeler que le test de Wilcoxo est u test joit : la médiae est égale à M et la distributio est symétrique. Aisi e cas de rejet, il est possible que la distributio soit symétrique mais que la médiae e soit pas M, ou ecore que la distributio est pas 45

symétrique alors que la médiae est M, ou ecore que les propositios sot simultaémet fausses. E pratique si la distributio apparaît comme o symétrique, il est préférable d utiliser le test du sige, même si celui est mois puissat pour statuer uiquemet sur ue valeur particulière de la médiae. 3. U exemple d applicatio O repred le fichier de doées utilisé précédemmet et costitué des otes obteues par 38 étudiats lors d ue première épreuve. La questio posée est de savoir si o peut accepter ue médiae égale à. Il suffit d exécuter : proc uivariate mu=; var ote; ru; Pour obteir : La procédure UNIVARIATE Variable : ote Momets N 38 Somme poids 38 Moyee 9.8578947 Somme obs. 373 Écart-type.74743 Variace 7.546344 Skewess -.38574 Kurtosis -.764 SS o corrigée 394.5 SS corrigée 79.56 Coeff Variatio 7.9859334 Moy. erreur std.4456878 Mesures statistiques de base Positio Variabilité Moyee 9.8579 Écart-type.7474 Médiae.5 Variace 7.5463 Mode. Étedue. Itervalle iterquartile 4. Tests de positio : Mu= Test -Statistique- -Seuil de sigificativité- t de Studet t -.4337 Pr > t.687 Sige M Pr >= M.8679 Rags sigés S -6 Pr >= S.85 Quatiles (Défiitio 5) Quatile Estimatio 46

% Max 5.5 99% 5.5 95% 4.5 9% 3. 75% Q3. 5% Médiae.5 5% Q 8. % 5. 5% 4.5 % 3.5 % Mi 3.5 Observatios extrêmes ----Miimale--- ----Maximale--- Valeur Obs. Valeur Obs. 3.5 3.5 34 4.5 8 3. 6 5. 37 4. 5. 8 4.5 4 6.5 7 5.5 4 O voit que les tests de sige et de Wilcoxo e permettet pas aux seuils de risque usuels de rejeter l hypothèse H : M =, et avec Wilcoxo, la symétrie de la distributio des otes. Par ailleurs, retrouve aturellemet la valeur de la statistique du test de studet calculée au moye de la procédure TTEST das le chapitre précédet. Ces tests peuvet être aussi utilisés sur des échatillos appariés. E repreat les otes des deux épreuves et après avoir créé la différece ote-ote, o se demade s il y a eu ue amélioratio das la médiae des otes sur les épreuves. Soit : data otes; merge u deux; dif = ote-ote; ru; proc uivariate data=otes; var dif; ru; O obtiet (seule ue partie des résultats est reproduite) : Mesures statistiques de base Positio Variabilité Moyee.48684 Écart-type.666 Médiae.5 Variace.336 47

Mode -.5 Étedue 4. Itervalle iterquartile.5 Tests de positio : Mu= Test -Statistique- -Seuil de sigificativité- t de Studet t.9595 Pr > t.55 Sige M 4.5 Pr >= M.877 Rags sigés S 83 Pr >= S.36 Ici le test de studet et le test de Wilcoxo s accordet pour sigaler ue amélioratio du cetre de la distributio des otes (espérace pour l u, médiae pour l autre mais sous l hypothèse de symétrie, médiae et espérace sot égales) etre les deux épreuves. E revache le test du sige e permet pas de rejeter ue costace de la médiae. Peut être fautil voir là l illustratio de la moidre puissace de ce test. 4. Le test de Chi de McNemar Le test de McNemar peut être cosidéré comme ue applicatio du test de sige a des variables dichotomiques. O suppose que les idividus costituat l échatillo sot répartis e deux groupes, l u vérifiat la propriété A et l autre la propriété B. Suite à u évèemet les mêmes idividus sot à ouveau répartis etre les deux sous-groupes et la questio posée est de savoir si l évèemet a modifié la répartitio iitiale e faveur de l u ou l autre sousgroupe. Selo cette logique o dispose dos d échatillos appariés. O peut représeter par u sige + les idividus passat de la catégorie A vers la catégorie B, par u sige ceux qui effectuet le déplacemet opposé et e pas cosidérer les idividus qui sot das le même sous-groupe avat et après l évèemet. Das ces coditios o se trouve placé das les coditios d applicatio du test du sige exposé ci-dessus. Si le ombre de sige + (respectivemet -) est oté + (resp. ), la statistique M = ( + ) / permettat de réaliser u test bidirectioel aisi que so degré de sigificativité peuvet être évalués. + Si = + est supérieur à et si o emploie l approximatio asymptotique sas correctio de cotiuité alors, sous H : «la distributio est ichagée», il viet : + + + + + + p.5.5( + ).5 ) ) z = = = = = + p( p).5.5.5 ( + ) 48

Soit ecore + ( ) z = + +. Cette derière statistique est coue sous le om de Chi de McNemar et elle possède aturellemet sous H ue distributio de Chi à u degré de liberté. Comme d habitude si o désire meer u test uidirectioel il coviet de diviser par deux le seuil de sigificativité avat de le comparer au seuil de risque de première espèce choisi. Efi, e pratique, si + et/ou sot «petits» l approximatio est pas très satisfaisate et il est sas doute préférable de meer u test du sige tel que vu plus haut. SAS propose d ailleurs de calculer le seuil de sigificativité exact de la statistique de McNemar. Exemple d applicatio : O a demadé à étudiats e fi de licece leur choix d orietatio etre deux masters A et B. Soixate affirmet vouloir aller e master A et quarate e master B. Ue réuio d iformatio est orgaisée sur les cursus. A la suite de celle-ci les mêmes étudiats sot réiterrogés sur leurs choix : parmi les soixate, quarate-deux cofirmet l optio précédete alors que parmi le secod groupe de quarate, trete-quatre cotiuet d opter pour le master B. Peut-o mettre e évidece ue ifluece sigificative de la réuio sur la répartitio des flux attedus e master? La statistique de McNemar est calculée par la procédure FREQ de SAS. Pour traiter le problème, il suffit d exécuter : data masters; iput A $ B $ eff; cards; A A 4 A B 8 B A 6 B B 34 ; ru; proc freq; table a*b / agree; weight eff; exact mcem ; ru; L optio agree de l istructio table réclame e particulier le calcul de la statistique de McNemar, alors que l istructio exact mcem requiert le calcul du seuil de sigificativité exact sur cette statistique. Ue partie des résultats obteus est : 49

La procédure FREQ Table de A par B A B Fréquece Pourcetage Pourct. e lige Pourct. e col. A B Total ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A 4 8 6 4. 8. 6. 7. 3. 87.5 34.6 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ B 6 34 4 6. 34. 4. 5. 85..5 65.38 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 48 5 48. 5.. Statistiques pour table de A par B Test de McNemar ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Statistique (S) 6. DDL Asymptotic Pr > S.43 Exact Pr >= S.7 Au seuil de 5% l hypothèse ulle d absece d ifluece de la réuio est rejetée, cette coclusio état obteue tat avec l approximatio asymptotique qu avec les calculs exacts de la sigificativité (vous pouvez vérifier que l o a bie S = ( 8 6 ) /(8 + 6) = 6. Notez égalemet qu il e s agit pas de tester la stabilité idividuelle des choix mais simplemet l homogééité des marges du tableau croisé : si étudiats passet de A vers B et passet de B vers A, la statistique S vaut zéro). 5. Le test Biomial sur ue proportio Le test de sige vu ci-dessus a été utilisé pour tester ue valeur particulière pour la médiae des observatios. Il peut arriver que l iterrogatio porte sur ue proportio et das ce cas le test de sige peut aturellemet s appliquer même s il est plus usuel de passer alors par la 5

procédure FREQ. O illustre ceci au moye de l exemple relatif aux otes obteues à la première sessio d u exame. L hypothèse H cosidérée plus haut postulait ue médiae de et ous avios otammet obteu : Sige M Pr >= M.8679 Si l o suppose que pour être admis das la matière cocerée la ote obteue doit être égale ou supérieure à. O peut créer ue variable «admis» égale à si c est le cas et zéro sio, et l affirmatio selo laquelle la médiae des otes vaut est équivalete à postuler que le pourcetage d admis est de 5%. Soit doc H : «le pourcetage d admis est de.5». La ouvelle variable est ue biomiale de paramètre.5 sous H. O peut doc passer par l emploi de la procédure FREQ avec spécificatio d ue biomiale de paramètre.5 et ue demade de calcul de seuil de sigificativité exact. Soit : Et o obtiet : data u; set u; admis=; if ote>= the admis = ; ru; proc freq data=u; tables admis / biomial(p=.5); exact biomial; ru; La procédure FREQ Cumulative Cumulative admis Fréquece Percet Frequecy Percet ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 7 44.74 7 44.74 55.6 38. Proportio biomiale pour admis = ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Proportio (P).4474 ASE.87 95% Limite de cof if..893 95% Limite de cof sup..655 Limites de cofiace exactes 95% Limite de cof if..86 95% Limite de cof sup..67 Test de H : Proportio =.5 ASE sous H.8 Z -.6489 Pr < Z uilatérale.58 Pr > Z bilatéral.564 Test exact Pr <= P uilatéral.336 5

Bilatéral = * uilatéral.67 Taille de l'échatillo = 38 L hypothèse ulle est toujours acceptée, mais avec u seuil de risque de.67 sesiblemet différet de celui qu affiche la procédure UNIVARIATE qui est de.8679?? L explicatio réside das le traitemet des valeurs égales à la médiae supposée, ici : le test du sige das UNIVARIATE élimie les observatios égales à la valeur testée et e coséquece les idividus cocerés (le ième et le 38 ième ) disparaisset des calculs alors qu ils sot coservés das la procédure FREQ. Si o force leur élimiatio du fichier de doées : data u; set u; if ote e ; ru; L appel à la proc FREQ précédet mèe à : Test exact Pr <= P uilatéral.434 Bilatéral = * uilatéral.8679 Taille de l'échatillo = 36 O vérifie bie alors la similitude des résultats des deux procédures. 5