Analyse de variance à 2 facteurs imbriqués sur données de comptage - Application au contrôle de



Documents pareils
Principe de symétrisation pour la construction d un test adaptatif

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modélisation géostatistique des débits le long des cours d eau.

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results

Moments des variables aléatoires réelles

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Analyse de la variance Comparaison de plusieurs moyennes

TABLE DES MATIERES. C Exercices complémentaires 42

Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE

Introduction à l approche bootstrap

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Modélisation aléatoire en fiabilité des logiciels

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Probabilités III Introduction à l évaluation d options

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

IFT3245. Simulation et modèles

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Chapitre 3. Les distributions à deux variables

NON-LINEARITE ET RESEAUX NEURONAUX

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Probabilités Loi binomiale Exercices corrigés

Loi binomiale Lois normales

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

Texte Agrégation limitée par diffusion interne

Lois de probabilité. Anita Burgun

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Chapitre 3 : INFERENCE

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

TSTI 2D CH X : Exemples de lois à densité 1

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Soutenance de stage Laboratoire des Signaux et Systèmes

Programmes des classes préparatoires aux Grandes Ecoles

PROBABILITES ET STATISTIQUE I&II

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Le modèle de Black et Scholes

Estimation et tests statistiques, TD 5. Solutions

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Processus de comptage, Poisson mélange, fonction de perte exponentielle, système bonus-malus.

statique J. Bertrand To cite this version: HAL Id: jpa

Simulation de variables aléatoires

Transmission d informations sur le réseau électrique

Exemples de dynamique sur base modale

Modèle GARCH Application à la prévision de la volatilité

Suites numériques 4. 1 Autres recettes pour calculer les limites

Variables Aléatoires. Chapitre 2

Développement décimal d un réel

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

FIMA, 7 juillet 2005

CAPTEURS - CHAINES DE MESURES

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Chapitre 5. Équilibre concurrentiel et bien-être

Commun à tous les candidats

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Exercices - Polynômes : corrigé. Opérations sur les polynômes

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Chapitre 2 Le problème de l unicité des solutions

Probabilités sur un univers fini

Logiciel XLSTAT version rue Damrémont PARIS

Représentation d une distribution

Programmation linéaire

Quantification Scalaire et Prédictive

Systèmes de transmission

Rappels sur les suites - Algorithme

FORMULAIRE DE STATISTIQUES

PLAN DE COURS CEGEP DU VIEUX-MONTRÉAL

Chapitre VI - Méthodes de factorisation

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

BTS Groupement A. Mathématiques Session Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

Modèles et simulations informatiques des problèmes de coopération entre agents

Protocoles pour le suivi des pontes de tortues marines dans le cadre de Protomac. Professeur Marc Girondot

La simulation probabiliste avec Excel

Glossaire de termes relatifs à l assurance de la qualité et aux bonnes pratiques de laboratoire

Principe d un test statistique

ANNEXE J POTEAUX TESTÉS SELON UN CHARGEMENT STATIQUE ET TESTÉS SELON UN CHARGEMENT CYCLIQUE ET STATIQUE

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Données longitudinales et modèles de survie

POLITIQUE ET LIGNES DIRECTRICES EN MATIERE DE TRACABILITE DES RESULTATS DE MESURE

Les indices à surplus constant

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Validation probabiliste d un Système de Prévision d Ensemble

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Transcription:

Analyse de variance à 2 facteurs imbriqués sur données de comptage - Application au contrôle de qualité Florence Loingeville 1,2,3, Julien Jacques 1,2, Cristian Preda 1,2, Philippe Guarini 3 & Olivier Molinier 3 1 Inria Lille - Nord Europe - florence.loingeville@inria.fr 2 Laboratoire Paul Painlevé / Université de Lille 1 - julien.jacques@inria.fr, cristian.preda@inria.fr 3 AGLAE Hallennes-lez-Haubourdin - philippe.guarini@association-aglae.fr, olivier.molinier@association-aglae.fr Résumé. Le contrôle externe de qualité permet aux laboratoires chargés de l analyse de l environnement de vérifier, d améliorer, et de maintenir en permanence un niveau optimal de leurs analyses. La méthode principalement utilisée pour la mise en œuvre du contrôle externe de qualité est la comparaison interlaboratoires. En microbiologie, les mesures portent sur des dénombrements bactériens. Le caractère discret des données nécessite une méthode d analyse de la variance spécifique. Nous proposons ici une méthode d analyse de variance à deux facteurs fixes imbriqués sur données poissoniennes. Mots-clés. Analyse de variance, données discrètes, analyse de déviance Abstract. External quality control enables laboratories which analyse the environment always to check, improve and maintain an optimal level of their analysis. Proficiency test is the mostly used method to carry out quality control. In microbiology, measures are bacterial counts. The discrete nature of the data requires a specific analysis of variance method. In this context, we propose a two-fixed-nested-factor analysis of variance method for Poisson data. Keywords. Analysis of variance, discrete data, analysis of deviance 1 Introduction Le domaine de l analyse microbiologique de l eau et de l environnement est un secteur dans lequel les besoins en termes de maîtrise du résultat d analyse sont croissants. La comparaison interlaboratoires, exercice qui consiste à soumettre un même essai à plusieurs établissements, est l outil utilisé pour la mise en œuvre du contrôle externe de qualité. L organisation des essais interlaboratoires peut être résumée par le plan d expérience suivant : un matériau à analyser est envoyé à chaque laboratoire participant à l essai, sous la forme de deux échantillons A et B. Chaque échantillon est séparé en deux réplications 1

(A1, A2 et B1, B2) par le laboratoire, qui réalise ensuite dans des conditions de répétabilité les mesures demandées sur les quatre réplications dont il dispose. En microbiologie, la mesure sera un dénombrement de particules (germes). À partir des mesures reçues de la part de l ensemble des laboratoires, trois critères de qualité sont évalués: La capacité d un laboratoire à répéter ses analyses (écarts entre A1 et A2, B1 et B2). L hétérogénéité des préparations envoyées aux laboratoires (écarts entre A et B). La justesse des mesures des laboratoires : on détermine si les mesures de chaque laboratoire sont ou non cohérentes avec celles de l ensemble des laboratoires. L outil statistique de base pour évaluer ces trois critères de contrôle qualité est l analyse de variance, qui consiste à décomposer la variance totale des résultats de mesures en une variance inter-laboratoires et une variance intra-laboratoire, laquelle pouvant elle même être décomposée en une variance inter-échantillons (écart entre A et B) et intra-échantillon (écart entre A1 et A2 puis entre B1 et B2). L objectif est alors d évaluer la significativité des différences entre les mesures sur la base de cette décomposition. La méthodologie actuellement utilisée en microbiologie suppose que, dans la plupart des cas, les dénombrements suivent une distribution log-normale (Norme ISO/TS 22117, 2010): les données sont transformées en valeurs logarithme décimal et une analyse de variance classique pour données gaussiennes est appliquée. Il est connu qu appliquer une transformation aux données n est pas toujours pertinent (R.B. O Hara, D.J Kotze, 2010). Nous proposons une méthode alternative d analyse de la variance à deux facteurs imbriqués, sous l hypothèse que les données sont distribuées suivant une loi de Poisson. En section 2, nous modélisons le problème. Les différentes configurations possibles et les tests associés sont ensuite exposés (section 3). Nous décrivons en section 4 l un des tests, puis nous comparons sa puissance à celle du test utilisé en microbiologie (section 5). Les perspectives de ce travail sont présentées dans la section 6. 2 Modélisation du problème Le plan d expérience des essais interlaboratoires peut être décrit par un modèle d analyse de la variance à deux facteurs imbriqués. Le facteur Laboratoire a a niveaux, et le facteur Flacon a b niveaux imbriqués dans chaque niveau du facteur Laboratoire. Nous considérons n réplications par flacon. Notons y ijk le résultat de la mesure réalisée sur la k ième réplication du flacon j par le laboratoire i. Les résultats de mesure peuvent être décrits par le modèle linéaire suivant: y ijk = µ + τ i + β j(i) + ɛ (ij)k 2 i = 1,..., a j = 1,..., b k = 1,..., n (1)

où µ est la moyenne globale, τ i l effet du laboratoire i, β j(i) l effet du flacon j imbriqué dans le laboratoire i, et ɛ (ij)k l erreur de mesure entre les réplications d un flacon pour un laboratoire. Nous considérons un plan équilibré comportant le même nombre de niveaux de Flacon (b = 2) sous chaque niveau de Laboratoire, et un même nombre de réplications (n = 2). Nous considérons dans la suite de ce document que les deux facteurs sont fixes. 3 Tests des effets fixes Laboratoire et Flacon Pour un modèle à facteurs fixes, les tests d hypothèses s écrivent de la façon suivante : Effet Laboratoire: H 0 : i/ 1 i a, τ i = 0 contre H 1 : i / τ i 0 Effet Flacon: H 0 : (i, j) /1 i a, 1 j b, β j(i) = 0 contre H 1 : (i, j) /β j(i) 0 Lorsque l on travaille sur données gaussiennes, on considère les erreurs ɛ (ij)k identiquement distribuées suivant une loi normale N(0, σ 2 ). Cette hypothèse permet de réaliser les tests des effets Laboratoire et Flacon indépendemment l un de l autre, en effectuant une analyse de variance à deux facteurs imbriqués (D.C. Montgomery, 2005). Nous cherchons ici à définir des méthodes de test applicables sur données de comptage. L hypothèse de distribution normale des erreurs n est alors pas vérifiée. Nous considérerons dans la suite de ce document que la variable y ijk suit une loi de Poisson P (λ). Notons L et F les propositions Il y a un effet Laboratoire, et Il y a un effet Flacon. Pour chaque configuration, L F, L F, L F, et L F, le paramètre λ s exprime en fonction de i (λ i ), de j (λ j ), de i et de j (λ ij ), ou indépendemment de i et de j (λ). Test H 0 /H 1 Loi de y ijk sous H 0 Loi de y ijk sous H 1 0 1 2 3 4 Test d existence d un effet quelconque Test modèle à effet Labo contre modèle sans effet Test modèle à effet Flacon contre modèle sans effet Test modèle à deux effets contre modèle effet Labo Test modèle à deux effets contre modèle effet Flacon L F / L F LF y ijk P (λ) y ijk P (λ ij ) L F /L F y ijk P (λ) y ijk P (λ i ) L F / LF y ijk P (λ) y ijk 1 2 P (λ 1) + 1 2 P (λ 2) L F /LF y ijk P (λ i ) y ijk P (λ ij ) LF /LF y ijk 1 2 P (λ 1) + 1 2 P (λ 2) y ijk P (λ ij ) Table 1: Tests des effets Laboratoire et Flacon 3

Il est donc nécessaire de distinguer les cinq tests de la Table 1. Pour effectuer ces tests, il nous faut estimer les paramètres λ, λ i, λ ij, λ 1, et λ 2. Le paramètre λ correspond au cas L F (H 0 des tests 0, 1 et 2). Nous considérons alors les mesures y ijk effectuées par l ensemble des laboratoires indépendantes et identiquement distribuées suivant une loi de Poisson P (λ). Nous estimons λ par: ˆλ = ȳ... = a i=1 k=1 y ijk 4a (2) Les estimateurs ˆλ i de λ i (configuration L F, hypothèses H 1 du test 1 et H 0 du test 3) et ˆλ ij de λ ij (configuration L F, hypothèses H 1 des tests 0 et 3, H 1 du test 4) sont: ˆλ i = ȳ i.. = k=1 y ijk 4 (3) ˆλij = ȳ ij. = k=1 y ijk Dans le cas L F (H 1 du test 2 et H 0 du test 4), les flacons 1 et 2 n étant pas identifiés, la variable y ijk suit une loi mélange de deux lois de poisson de paramètres λ 1 et λ 2, dont nous connaissons les proportions. En effet, 50% des variables y ijk suivent une loi de Poisson P (λ 1 ) et les 50 % restants une loi de Poisson P (λ 2 ). Les paramètres λ 1 et λ 2 sont alors estimés par un algorithme EM (A.P. Dempster, N.M. Laird, D.B. Rubin, 1977). Pour effectuer l un des tests de la Table 1, nous formons son rapport de vraisemblance, Λ = L H 0 L H1, où L H 0 et L H 1 correspondent aux vraisemblances du modèle (1) sous les hypothèses H 0 et H 1. Nous calculons ainsi la déviance associée à un test, D=-2 log(λ). En fonction du problème, nous pourrons utiliser un ou plusieurs des tests de la Table 1. Dans le cadre de la problématique introduite en section 1, le test 0 permet d identifier un éventuel effet. Si l on détecte un effet (rejet de H 0 ), le test 3 permet alors d identifier si cet effet est uniquement dû au laboratoire. Lorsque l on rejette l hypothèse H 0 du test 3, nous ne pouvons cependant pas identifier si nous sommes en présence d un effet Flacon seul (modèle LF ) ou d un effet Flacon et d un effet Laboratoire (modèle LF ). Il nous faudra travailler sur un modèle à facteurs aléatoires pour le déterminer. Les tests 2 et 4 peuvent quant à eux être utilisés lorsque les laboratoires qui participent à l essai reçoivent deux flacons présentant des niveaux de concentration différents, ou issus de deux cuves différentes. 4 Test d existence d un effet Nous allons expliciter ici le test 0 de la Table 1. Les hypothèses de ce test sont: H 0 : L F : y ijk P (λ) H 1 : L F LF LF : y ijk P (λ ij ) Le rapport de vraisemblance nous permet de comparer le modèle LF (H 1 ), et le modèle L F (H 0 ). Les estimateurs de λ sont ˆλ (expression (2)) sous H 0, et ˆλ ij (expression (4)) 2 (4) 4

sous H 1. Nous pouvons alors former le rapport de vraisemblance du test 0, puis obtenir l expression de sa déviance D 0 : a ( ) ȳ... D 0 = 4 ȳ ij. log (5) i=1 Dans le cadre de notre étude, il peut arriver que les mesures rapportées par un laboratoire sur l un des flacons pour un essai soient nulles (typiquement lorsque λ est faible). Dans ce cas, ȳ ij. = 0, et la déviance D 0 du jeu de données est indéfinie. En observant que lim ȳ ij. 0 ( ȳ ij. log( ȳ... ȳ ij. ) ) = 0, l expression (5) devient: a D 0 = 2 log(λ 0 ) = 4 i=1 2 j / ȳ ij. 0 ȳ ij. ȳ ij. log ( ȳ... ȳ ij. ) (6) D après un théorème asymptotique (Lehmann, 1986), sous H 0, la distribution de la déviance tend vers une loi du χ 2 à 2a 1 degrés de liberté lorsque le nombre de réplications n tend vers l infini. Etant donné le petit nombre de réplications considérées ici (n = 2), le théorème de Lehmann ne peut être appliqué. Cependant, pour de grandes valeurs de λ (typiquement λ > 10), la loi de Poisson peut être approchée par une loi normale. Or, puisque dans le cas de données gaussiennes la déviance suit une loi du χ 2 quelque que soit n (J.J Droesbeke, M. Lejeune, G. Saporta, 2005), la loi de notre déviance D 0 pourra être approchée par une loi du χ 2 à 2a 1 degrés de liberté. Pour des valeurs de λ plus faibles, nous proposons d approcher la loi de la déviance (sous H 0 ) par simulation. 5 Puissance des tests Pour évaluer les tests proposés, nous comparons leurs puissances à celle de la méthode utilisée en microbiologie. Nous présentons ici les courbes de puissance du test 0 pour λ = 1 et λ = 15. Pour nous placer sous H 1, nous introduisons un effet Laboratoire. Pour cela, nous simulons les résultats des mesures de 14 laboratoires suivant P(λ), et celles d un laboratoire suivant P(λ + δ). Nous effectuons 1000 tests sur 1000 jeux de données ainsi simulés, pour différentes valeurs de δ. Pour λ = 1, nous comparons la puissance du test basé sur des simulations de la loi de la déviance sous H 0 (courbe bleue, 10 4 simulations par p-valeur), avec celle du test d ANOVA (courbe rouge). Pour λ = 15, nous étudions les puissances des trois tests suivants : le test où la loi de la déviance est assimilée à une distribution du χ 2 à 2a 1 degrés de liberté (courbe verte), le test où la loi de la déviance est approchée par simulation (courbe bleue), et le test d ANOVA (courbe rouge). Sur la Figure 1, nous constatons que, pour les deux valeurs de λ considérées, la méthode de test proposée ici est beaucoup plus puissante que la méthode utilisée en microbiologie (ANOVA sur données ayant subi une transformation log-normale). Pour λ = 15, le test basé sur la loi du χ 2 donne des résultats très proches de ceux obtenus avec le test par simulation. Cela s explique par le fait que, à λ = 15, la loi de Poisson peut être approchée par une loi normale. On note qu ici la méthode d ANOVA détecte mal les effets. 5

6 Conclusion Figure 1: Comparaison des puissances des trois méthodes Nous proposons ici une méthode d analyse de variance à deux facteurs fixes imbriqués sur données de poisson. Les tests de puissance montrent que cette méthode est plus pertinente que celle qui est utilisée en microbiologie. En pratique, il s avère parfois que la dispersion des résultats de dénombrements de germes soit supérieure à celle attendue d après le modèle de poisson (BCR Information, 1993). Il pourrait alors être nécessaire de définir des méthodes de test similaires à partir d une loi de probabilité adaptée à la surdispersion, telle que la loi binomiale négative. Bibliographie [1] BCR Information (1993), Statistical Analysis of Certification Trials for Microbiological Reference Materials, Report EUR 15008 EN. [2] P. McCullagh, J.A. Nelder (1989), Generalized Linear Models, pp. 21-43. [3] C.E. McCulloch, S.R. Searle (2001), Generalized, Linear, and Mixed Models (Wiley Series in Probability and Statistics), pp. 28-68. [4] A.P. Dempster, N.M. Laird, D B. Rubin (1977), Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Society, Vol. 39, n.1, pp. 1-38. [5] J.J. Droesbeke, M. Lejeune, G. Saporta (2005), Modèles statistiques pour données qualitatives, pp. 83-90. [6] R.B. O Hara, D.J Kotze (2010), Do not log-transform count data, British Ecological Society, Methods in Ecology and Evolution, vol. 1, pp. 118-122. [7] ISO/TS 22117 (2010), Microbiologie des aliments - Exigences spécifiques et lignes directrices pour les essais d aptitude par comparaison interlaboratoires. [8] E.L. Lehmann, J.P. Romano (2005), Testing Statistical Hypotheses, pp. 504-517. [9] D.C. Montgomery (2005), Design and Analysis of Experiments, pp. 60-118, pp. 525-536. 6