UNIVERSITÉ PARIS-SUD 11 FACULTÉ DE MÉDECINE

Dimension: px
Commencer à balayer dès la page:

Download "UNIVERSITÉ PARIS-SUD 11 FACULTÉ DE MÉDECINE"

Transcription

1 UNIVERSITÉ PARIS-SUD 11 FACULTÉ DE MÉDECINE Année : 2009 N attribué par la bibiothèque THÈSE en vue de l obtention du diplôme de DOCTEUR DE L UNIVERSITÉ PARIS-SUD 11 Spécialité : BIOSTATISTIQUE Présentée et soutenue publiquement par Ismaïl AHMED Le 8 avril 2009 Détection automatique de signaux en pharmacovigilance : Approche statistique fondée sur les comparaisons multiples Directeur de thèse : M me Pascale Tubert-Bitter JURY M. Jean Christophe Thalabard, Pr. Président M. Stephen Evans, Pr. Rapporteur M me Sylvia Richardson, Pr. Rapporteur M. Stéphane Robin, Pr. Examinateur M me Pascale Tubert-Bitter, DR. Examinateur

2 Mes remerciements s adressent en premier lieu à Pascale Tubert-Bitter. Travailler avec elle a été un très grand plaisir et je lui suis profondément reconnaissant d avoir su si bien me guider et m encourager tout au long de ce parcours. Je tiens aussi à remercier chaleureusement Françoise Haramburu, Annie Fourrier- Réglat, Frantz Thiessard, Carmen Kreft-Jais, Ghada Miremont-Salamé et Bernard Bégaud pour leur aide et l intérêt qu ils ont porté à ce travail. Mes remerciements s adressent ensuite à Cyril Dalmasso avec qui j ai eu grand plaisir à travailler ainsi qu à Philippe Broët. Je remercie également les membres et ex-membres de l équipe biostatistique, et plus particulièrement Laurence Watier et Thierry Moreau, pour leur accueil, leur disponibilité et leurs conseils. Je tiens aussi à remercier vivement M. Lellouch pour nos longues conversations, ses lectures attentives et ses conseils avisés. Merci aux membres de l unité 780 qui ont rendu ces trois années de thèse très agréables et plus particulièrement à Jérémie, Hélène, Antoine, Estelle, Olivier, Hélèna, Yves, Dorota, Sigrid, Juliette, Mounia, Raphaëlle, Marie, Alexia et David avec lesquels j ai le plus partagé. L occasion m est donnée de remercier l Institut de Recherche en Santé Publique qui a contribué financièrement à l accomplissement de ce travail. Je remercie Stephen Evans et Sylvia Richardson pour avoir accepté d être les rapporteurs de ma thèse ainsi que Stéphane Robin et Jean Christophe Thalabard pour leur participation à mon jury. Mes derniers remerciements s adressent à ma famille et à Aurélie. i

3 Valorisation scientifique Communications orales I. Ahmed, C. Dalmasso, F. Haramburu, A. Fourrier-Réglat, F. Thiessard, C. Kreft-Jaïs, G. Miremont-Salamé, B. Bégaud, P. Broët, P. Tubert-Bitter, Fisher s Exact Test Applied to Pharmacovigilance, 29th Annual Conference of the International Society for Clinical Biostatistics, August 2008, Copenhagen, Denmark. I. Ahmed, F. Haramburu, A. Fourrier-Réglat, F. Thiessard, C. Kreft-Jais, G. Miremont- Salamé, B. Bégaud, P. Tubert-Bitter, Signal Ranking-Based Comparison of Automatic Detection Methods in Pharmacovigilance : A Hypothesis Test Approach, Epidemiology and Biometry 2008, IBS Channel Network, July 2008, Paris, France. I. Ahmed, F. Haramburu, A. Fourrier-Réglat, F. Thiessard, G. Miremont-Salamé, C. Kreft- Jaïs, P. Tubert-Bitter, Bayesian Pharmacovigilance Signal Detection Methods Revisited in a Multiple Comparison Setting, First IBS Channel Network Conference, 8-11 May 2007, Rolduc, The Netherlands. I. Ahmed, F. Haramburu, A. Fourrier-Réglat, F. Thiessard, G. Miremont-Salamé, C. Kreft- Jaïs, P. Tubert-Bitter, A New Automatic Signal Detection Method in Pharmacovigilance ; A Bayesian Multiple Comparisons Setting, 22nd International Conference on Pharmacoepidemiology & Therapeutic Risk Management, August 2006, Lisbon, Portugal. Publications avec comité de lecture I. Ahmed, C. Dalmasso, F. Haramburu, F. Thiessard, P. Broët, P. Tubert-Bitter, False Discovery Rate Estimation for Frequentist Pharmacovigilance Signal Detection Methods, Biometrics, Accepté. I. Ahmed, F. Haramburu, A. Fourrier-Réglat, F. Thiessard, C. Kreft-Jais, G. Miremont- Salamé, B. Bégaud, P. Tubert-Bitter, Bayesian Pharmacovigilance Signal Detection Methods Revisited in a Multiple Comparison Setting Statistics in Medicine, Accepté. ii

4 Table des matières Remerciements i Valorisation scientifique Communications orales Publications avec comité de lecture ii ii ii Table des matières iii Table des figures vi Liste des tableaux viii Liste des abréviations ix 1 Introduction Contexte Problématique Objectif Description des principales méthodes de détection automatique Structure des données analysées Les méthodes fréquentistes La méthode Reporting Odds Ratio (ROR) iii

5 TABLE DES MATIÈRES iv La méthode Proportional Reporting Ratio (PRR) Les méthodes bayésiennes La méthode Bayesian Confidence Propagation Neural Network (BCPNN) La méthode Gamma Poisson Shrinker (GPS) Quelques remarques générales Méthodes de détection automatique revisitées dans le cadre des comparaisons multiples Comparaisons multiples et méthodes fréquentistes ROR, PRR et test d hypothèses Test exact de Fisher et mid-p-values FDR et méthodes fréquentistes Comparaisons multiples et méthodes bayésiennes GPS et BCPNN dans le cadre bayésien de la théorie de la décision Autres approches proposées pour la prise en compte des comparaisons multiples à partir du modèle GPS Quelques remarques Étude de simulations Modèle de simulation Comparaison des approches fréquentistes Étude de la densité des degrés de signification Estimation de π 0 π Comparaison des méthodes selon le FDR et son estimation Comparaison des approches bayésiennes GPS et règles de classement

6 TABLE DES MATIÈRES v Comparaison de GPS et BCPNN basés sur Pr(H 0 ) Comparaison à partir du modèle de simulations proposé Comparaison à partir du modèle de simulations de Roux et al Conclusion des simulations Application aux données françaises de pharmacovigilance Comparaison des méthodes sur les données de Les données Estimation des quantités caractéristiques (FDR, FNR, Se et Sp) Comparaison des signaux générés Évaluation séquentielle à partir de cas d alertes réels Plan d analyse Premier scénario : Mise en place d un système de détection automatique Deuxième scénario : Utilisation en routine de GPS Conclusion 90 Réferences 94 Annexes 98 A Résultats complémentaires pour l étude de simulations 98 B Résultats complémentaires pour l application 102 C Publications 114

7 Table des figures 3.1 Histogrammes de la densité marginale des degrés de signification obtenus à partir de la méthode midrfet sur les données de la base française Histogramme de la distribution de Pr(λ ij 1) obtenu à partir des données de la base Française Histogrammes du logarithme des risques observés dans la base française et dans les données simulées Histogrammes des distributions marginales, sous H 0 et sous H 1 des degrés de signification pour ROR, RFET et midrfet Estimations de π 0 π 0 obtenues avec LBE et Qvalue à partir de la distribution marginale des degrés de signification transformés (p ) pour RFET Comparaison de ROR, RFET et midrfet selon le FDR et son estimation pour n ij Comparaison de ROR, RFET et midrfet selon le FDR et son estimation pour n ij Biais relatif observé dans l estimation du FDR pour ROR, RFET et midrfet Comparaison selon le FDR et son estimation des différentes règles de classement pour GPS Variabilité du FDR et de son estimation pour GPS basé sur Pr(H 0) Comparaison selon le FDR et son estimation de BCPNN et GPS basés sur Pr(H 0) Comparaison selon le FNR et son estimation de BCPNN et GPS basés sur Pr(H 0 ) Comparaison selon la sensibilité et son estimation de BCPNN et GPS basés sur Pr(H 0 ) Comparaison selon la spécificité et son estimation de BCPNN et GPS basés sur Pr(H 0) Comparaison du FDR obtenu avec midrfet, ROR, BCPNN et GPS basé sur Pr(H 0) vi

8 TABLE DES FIGURES vii 4.14 Comparaison du FDR et de son estimation pour midrfet, BCPNN et GPS basé sur Pr(H 0) Comparaison du FDR et de son estimation pour ROR, midrfet, BCPNN et GPS basé Pr(H 0) à partir du plan de simulation de Roux et al. (2005) Comparaison des estimations du FDR sur la base de pharmacovigilance française Proportion de signaux communs entre les méthodes proposées en fonction du nombre de signaux générés Proportion de signaux communs entre les méthodes proposées pour {ψ 0 = 1, RR 0 = 1} en fonction du FDR estimé par GPS basé sur Pr(H 0) Proportion de signaux communs entre les différentes règles de classement pour GPS et RR 0 = Évolution au cours du temps du nombre de couples médicamentévénements présentant au moins une et au moins trois notifications dans la base française créée au 1 er janvier Histogramme des délais observés entre la date de détection par le modèle GPS basé sur Pr(H 0 ) et la date d alerte en comité technique - Scénario Évolution du nombre de nouveaux signaux générés à partir du modèle GPS basé sur Pr(H 0 ) et d un seuil de 5% pour le FDR - Scénario Évolution du seuil sur Pr(H 0) pour FDR = 5% lors de l utilisation de GPS - Scénario Histogramme des 216 délais observés entre la date de détection par le modèle GPS basé sur Pr(H 0 ) et la date d alerte en comité technique - Scénario Évolution du nombre de nouveaux signaux générés à partir du modèle GPS basé sur Pr(H 0 ) et FDR = 1% - Scénario A.1 Histogrammes de la distribution des degrés de signification sous H 0 pour ROR, RFET et midrfet avec n ij A.2 Histogrammes de la distribution des degrés de signification sous H 0 pour ROR, RFET et midrfet avec n ij A.3 Estimations de π 0 π 0 obtenues avec LBE et Qvalue à partir de la distribution marginale des degrés de signification transformés (p ) pour ROR B.1 Proportion de signaux communs entre les méthodes proposées en fonction du FDR estimé par GPS

9 Liste des tableaux 2.1 Représentation des données pour le couple (i, j) Tableau récapitulatif des méthodes étudiées Estimation des quantités caractéristiques avec GPS et Pr(H 0 ) sur les données de pharmacovigilance française Nombre de signaux de référence détectés par GPS basé sur Pr(H 0) et Q 0.05 (λ ), midrfet et ROR - Scénario Comparaison des signaux de référence détectés dans les cas n ij 3 et n ij 1 pour GPS basé sur Pr(H 0) et pour midrfet - Scénario Rangs moyens dans le délai de détection des 309 signaux de référence pour GPS basé sur Pr(H 0) et Q 0.05 (λ ), midrfet et ROR - Scénario Rangs moyens dans le délai de détection des 164 signaux de référence pour GPS basé sur Pr(H 0 ) et Q 0.05(λ ), midrfet et ROR - Scénario Capacité de détection du modèle GPS basé sur Pr(H 0) et FDR = 5% en fonction du nombre de notifications associé aux signaux de référence au 1 er juillet Scénario B.1 Signaux de référence (47) avec moins de 3 notifications spontanées au 1 er juillet B.2 Signaux de référence (216) détectés par le modèle GPS basé sur Pr(H 0) et FDR = 5% - Scénario B.3 Signaux de référence (46) avec au moins 3 notifications spontanées au 1 er juillet 2002 et non détectés par le modèle GPS basé sur Pr(H 0) et FDR = 5% - Scénario viii

10 Liste des abréviations Afssaps Agence française de sécurité sanitaire des produits de santé ATC Anatomical Therapeutical Clinical ATC5 Code ATC à 5 caractères BCPNN Bayesian Confidence Propagation Neural Network CRPV Centre régional de pharmacovigilance FDA Food and Drug Administration FDP False Discovery Proportion FDR False Discovery Rate FNP False Negative Proportion FNR False Negative Rate GPS Gamma Poisson Shrinker HLT High Level Term LBE Location Based Estimator MedDRA Medical Dictionary for Regulatory Activities MGPS Multi-Item Gamma Poisson Shrinker midrfet mid-p-values calculées à partir du test exact de Fisher PRR Proportional Reporting Ratio RFET Reporting Fisher s Exact Test ROR Reporting Odds Ratio. Se Sensibilité Sp Spécificité ix

11 Chapitre 1 Introduction 1.1 Contexte Les effets indésirables des médicaments sont le plus souvent découverts après leur autorisation de mise sur le marché et ceci pour au moins deux raisons. La première tient à la nature même des effets indésirables qui peuvent être rares, spécifiques à certaines catégories de la population ou se manifester après une grande période de latence. Une autre raison est qu une fois le médicament commercialisé, ses conditions d utilisation sont en général différentes de celles étudiées dans les cadres expérimentaux précédant sa mise sur le marché. Les systèmes de pharmacovigilance ont donc pour but de détecter le plus précocement possible l existence d associations entre médicaments et événements indésirables. Ils reposent en général sur la déclaration par des professionnels de santé (médecins ou pharmaciens) de la survenue d événements indésirables dont la cause suspectée est médicamenteuse. Prises individuellement, ces notifications spontanées ne comportent que très rarement l assurance de la responsabilité du ou des médicaments incriminés. C est donc leur accumulation qui conduit les pharmacologues à mettre en évidence l existence d effets indésirables médicamenteux. Une difficulté rencontrée dans l analyse de telles données réside dans le fait que 1

12 1.1 Contexte 2 les effets indésirables des médicaments commercialisés ne sont pas tous reconnus ni rapportés aux instances de pharmacovigilance. Des études montrent que cette sousnotification peut être très importante même dans le cas d effets indésirables graves (Bégaud et al., 2002). Il est très vraisemblable qu elle soit fonction de l événement indésirable, du médicament ou du couple événement-médicament étudié ce qui peut biaiser les conclusions tirées de l information brute (van der Heijden et al., 2002). Néanmoins, malgré ses limites, l analyse des notifications spontanées demeure certainement le moyen le plus rapide et économique pour identifier de nouveaux effets médicamenteux après l autorisation de mise sur le marché et est par conséquent à la base de la plupart des décisions prises par les instances de pharmacovigilance. Le système de pharmacovigilance français a été mis en place en Il reposait alors sur un réseau de 15 centres régionnaux de pharmacovigilance (CRPV) qui fut rapidement étendu à 29 en 1984 puis à 31 en Ces centres ont une mission d information auprès des professionnels de santé. Ils ont aussi en charge la collecte des notifications ainsi que leur enregistrement au sein de la base nationale coordonnée par l unité de pharmacovigilance de l Agence Française de Sécurité Sanitaire des Produits de Santé (Afssaps). C est aussi au niveau de ces centres que s exerce une partie de la surveillance; les cas suspectés étant par la suite discutés par le comité technique de pharmacovigilance lors de réunions mensuelles au siège de l Afssaps. Entre 1986 et 2001, les données de pharmacovigilance françaises ont été enrichies de notifications spontanées avec une augmentation linéaire à travers le temps pour atteindre le nombre annuel de en 2001 (Thiessard et al., 2005). Cette base doit être cependant considérée comme petite face aux deux principales bases mondiales : la base américaine coordonnée par la Food and Drug Administration (FDA) et la base de l Organisation Mondiale de la Santé administrée par l Uppsala Moni-

13 1.2 Problématique 3 toring Center en Suède, qui, en décembre 2004, contenaient respectivement environ 2.6 et 3.7 millions de notifications (Almenoff et al., 2005). Face à ce flux très important de données, ces deux systèmes de pharmacovigilance ainsi que d autres ont développé depuis une dizaine d années des méthodes statistiques de génération automatique de signaux. Ces méthodes ont pour but de détecter les couples événement-médicament dont la présence est anormalement fréquente par rapport à ce qui est attendu compte tenu de l information présente dans le reste de la base. Du fait des limites des notifications spontanées énoncées plus haut et de la nature essentiellement exploratoire des ces analyses, les signaux ainsi générés doivent être examinés par des experts pour en évaluer la pertinence. Il s agit donc plutôt d outils complémentaires à la veille opérée par les pharmacovigilants ayant pour objectif d aider à l exploration de l immensité des données et agissant comme des générateurs d hypothèses. 1.2 Problématique Les principales méthodes de détection automatique décrites dans la littérature sont les méthodes Proportional Reporting Ratio (PRR, Evans et al. 2001), Reporting Odds Ratio (ROR, van Puijenbroek et al. 2002), Bayesian Confidence Propagation Neural Network (BCPNN, Bate et al. 1998; Norén et al. 2006) et (Multi- Item) Gamma Poisson Shrinker ((M)GPS, DuMouchel 1999; DuMouchel et Pregibon 2001). La méthode PRR est utilisée à la fois par le système de pharmacovigilance anglais (Medical Control Agency) et par le système de pharmacovigilance européen EudraVigilance. La méthode ROR est utilisée sur la base nationale des Pays Bas. La méthode BCPNN est utilisée sur la base de l OMS tandis que la méthode MGPS est utilisée par la FDA (Almenoff et al., 2005; Hauben et al., 2005). La France, pour sa part, n utilise pas encore de système de détection automatique. Néanmoins, le tra-

14 1.2 Problématique 4 vail de thèse de Frantz Thiessard (Thiessard, 2004), l étude par simulation de Roux et al. (2005) et ce travail réalisé en collaboration avec l unité de pharmacovigilance de l Afssaps et le CRPV de Bordeaux (Inserm U. 687) témoignent de la volonté de mettre en place un tel système à moyen terme. Les méthodes de détection automatique citées plus haut reposent sur une représentation simplifiée de la base de pharmacovigilance dans laquelle les données sont agrégées de manière à obtenir une très grande table de contingence croisant l ensemble des événements indésirables et des médicaments. Chaque couple se voit ensuite associer une mesure de disproportionnalité qui conduit par comparaison à un seuil à la génération ou non d un signal. Ces méthodes diffèrent sur la mesure de disproportionnalité choisie, le modèle de probabilité à l origine de cette mesure ainsi que sur les seuils de génération d alerte. De plus, elles ne présentent pas le même degré de complexité. En effet, les méthodes PRR et ROR sont des méthodes simples de nature fréquentiste alors que BCPNN et GPS sont des méthodes bayésiennes reposant sur une modélisation des données plus complexe. Une limite de ces méthodes réside dans les seuils actuellement utilisés qui ont été déterminés de manière arbitraire, au mieux sur la seule base d études rétrospectives empiriques. Il nous a donc semblé intéressant de réfléchir à une détermination plus objective de ces derniers, fondée en particulier sur des critères d erreurs statistiques tenant compte du nombre très important de comparaisons effectuées simultanément. La prise en compte de la multiplicité des comparaisons est un problème statistique qui a reçu un intérêt croissant ces dernières années, en grande partie motivé par l arrivée de technologies pour l analyse de données génomiques que sont les biopuces. Le fruit de ces travaux a été le développement d une multitude de méthodes pour contrôler ou estimer de nouveaux critères d erreurs. Parmi eux, le False Discovery Rate (FDR) proposé par Benjamini et Hochberg (1995) et défini comme l espérance

15 1.3 Objectif 5 du taux de fausses découvertes a reçu un intérêt particulier dans la mesure où il est adapté à l exploration de jeux de données de grandes tailles. 1.3 Objectif Ce travail a été initié par la volonté de proposer des seuils de détection pour les méthodes existantes fondés sur le FDR. Pour ce faire, les méthodes ont été revisitées dans le cadre des tests d hypothèses, ce qui ne modifie en rien leur modèle statistique sous-jacent mais conduit néanmoins à des stratégies de détection relativement différentes. Nous nous sommes intéressés au FDR dans la mesure où ce critère semblait a priori répondre au caractère exploratoire de l analyse des données de pharmacovigilance. La nature fréquentiste ou bayésienne des méthodes nous a conduit à son estimation selon deux approches différentes. En ce qui concerne les méthodes fréquentistes, nous avons étudié les approches d estimation du FDR par la modélisation des degrés de signification à l aide de mélanges de distributions (Storey, 2002) tandis que pour les méthodes bayésiennes, l approche envisagée s est appuyée sur le cadre de la théorie de la décision proposé par Müller et al. (2004). Le plan de ce manuscrit est le suivant. Nous présentons dans le chapitre 2 les principales méthodes de détection automatique. Le chapitre 3 expose l extension de ces méthodes au cadre des comparaisons multiples. Le chapitre 4 est consacré à la présentation de deux études par simulations visant à comparer les stratégies de détection proposées à celles actuellement en vigueur. La première se fonde sur un modèle de simulation utilisant des caractéristiques de la base française de pharmacovigilance tandis que la deuxième reprend le modèle de simulation de Roux et al. (2005) qui vise à reproduire un système complet de notifications spontanées. Le chapitre 5 inclut d une part les résultats de ce travail sur l ensemble des données françaises de pharmacovigilance collectées entre 1984 et D autre part nous présentons les

16 1.3 Objectif 6 résultats d une étude rétrospective ayant pour objectif d évaluer les méthodes proposées en utilisation séquentielle à partir de cas d alertes réels. Le chapitre 6 conclut sur le travail réalisé.

17 Chapitre 2 Description des principales méthodes de détection automatique 2.1 Structure des données analysées Toutes les méthodes de détection automatique de signaux citées en introduction se fondent sur une représentation des données de pharmacovigilance sous la forme d une très grande table de contingence de dimension I J croisant l ensemble des médicaments et des événements indésirables impliqués au moins une fois dans une notification spontanée. Comme nous le verrons dans le chapitre 5, la taille de cette table de contingence dépend fortement du degré de précision utilisé pour le codage des événements indésirables et des médicaments. Cette table est aussi caractérisée par une grande proportion de cellules vides dépendant, là encore, du codage utilisé. Une grande partie des notifications spontanées envoyées aux CRPV implique plusieurs médicaments et/ou plusieurs événements indésirables. Dans de tels cas, 7

18 2.1 Structure des données analysées 8 chacune des combinaisons médicament-événement indésirable présente dans la notification est reportée dans la table de contingence. Les méthodes automatiques étudiées reposent sur des mesures de disproportionnalité calculées pour l ensemble des couples ayant fait l objet d au moins une notification spontanée. Ces dernières constituent les statistiques d intérêt et sont calculées pour un couple (i, j) par agrégation de la table I J en une table de contingence 2 2 présentée dans le tableau 2.1. Tab. 2.1: Représentation des données pour le couple (i, j). Evénement Autres événement indésirable j indésirables Médicament i n ij n i j n i. Autres médicaments n īj n ī j n ī. n.j n. j n n ij avec i {1,...I} et j {1,...J} indique donc le nombre de notifications impliquant à la fois le médicament i et l événement indésirable j. n i. = i n ij, n.j = j n ij et n = ij n ij représentent les comptes marginaux. Il faut néanmoins noter que du fait de la multiplicité des couples impliqués dans certaines notifications spontanées, ces comptes marginaux ne correspondent pas au nombre de notifications impliquant le médicament i (n i. ), l événement indésirable j (n.j ) ou les deux (n). Dans la suite de l exposé, les méthodes existantes sont passées en revue.

19 2.2 Les méthodes fréquentistes Les méthodes fréquentistes La méthode Reporting Odds Ratio(ROR) La méthode ROR proposée par van Puijenbroek et al. (2002) consiste à estimer pour chacun des couples (i, j) l odds ratio ψ ij à partir de la table 2.1 : ˆψ ij = n ijn ī j. n īj n i j Le logarithme de ˆψ ij est supposé suivre une loi normale dont la variance est estimée à partir de la delta méthode : var{ln( ˆψ ij )} = 1 n ij + 1 n ī j + 1 n īj + 1. n i j Un signal est généré lorsque la borne inférieure de l intervalle de confiance à 95% de ln( ˆψ ij ) est strictement supérieure à 0. De par sa définition, ˆψij n est pas calculable dans les cas très rares où le médicament i n est associé qu à l événement indésirable j (n i j = 0) ou lorsque l événement indésirable j n est associé qu au médicament i (n īj =0) La méthode Proportional Reporting Ratio(PRR) La méthode PRR proposée par Evans et al. (2001) est basée sur le calcul du risque relatif observé dans la table 2.1 : ˆϕ ij = n ij/n i.. n īj /n ī. De manière analogue à ˆψ ij, ˆϕ ij n est pas calculable dans le cas où n īj = 0.

20 2.3 Les méthodes bayésiennes 10 La règle proposée par Evans et al. et utilisée au MCA pour la génération d un signal est fondée sur 3 critères : (i) ˆϕ ij 2, (ii) n ij 3 et (iii) la statistique de χ 2 à 1 degré de liberté 4. D autre part, van Puijenbroek et al. (2002) ont proposé le même type de règle de décision que celle utilisée pour la méthode ROR. Le logarithme de ˆϕ ij est supposé suivre une loi normale de variance estimée par : var{ln(ˆϕ ij )} = 1 n ij + 1 n i. + 1 n īj + 1, n ī. et un signal est généré lorsque la borne inférieure de l intervalle de confiance à 95% de ln(ˆϕ ij ) est strictement supérieure à 0. En pratique, les deux statistiques ˆψ et ˆϕ donnent des résultats très proches ce qui s explique par le fait que l on observe pour la très grande majorité des couples n ij (n īj, n i j) n ī j (Almenoff et al., 2007). 2.3 Les méthodes bayésiennes La méthode Bayesian Confidence Propagation Neural Network(BCPNN) Le modèle La méthode initialement proposée par Bate et al. (1998) repose sur 3 modèles beta-binomiaux : n ij p ij Bi(n, p ij ) avec p ij Be(α ij, β ij ) n i. p i. Bi(n, p i. ) avec p ij Be(α i., β i. ) n.j p.j Bi(n, p.j ) avec p.j Be(α.j, β.j )

21 2.3 Les méthodes bayésiennes 11 dans lesquels p i., p.j et p ij indiquent respectivement la probabilité dans la base d être exposé au médicament i, d observer l événement indésirable j et de rencontrer les deux. Les distributions des paramètres a posteriori sont donc aussi des lois beta : p ij p ij n ij Be(α ij + n ij, β ij + n n ij ) p i. p i. n i. Be(α i. + n i., β i. + n n i. ) p.j p.j n.j Be(α.j + n.j, β.j + n n.j ). Dans la suite de l exposé, le symbole sera utilisé pour indiquer des variables aléatoires conditionnelles aux observations appropriées. Les hyperparamètres proposés par Bate et al. (1998) pour les distributions a priori sont les suivants : α ij = 1, β ij = 1 E(p i. )E(p.j ) 1, α i. = 1, β i. = 1, α.j = 1 et β.j = 1 avec E(p i. ) = α i. + n i. α i. + β i. + n et E(p.j ) = α.j + n.j α.j + β.j + n. Bate et al. définissent donc deux lois uniformes pour p i. et p.j. Quant aux valeurs choisies pour les hyperparamètres α ij et β ij, elles sont justifiées par le fait que l espérance a priori de p ij correspond ainsi au produit des espérances a posteriori des probabilités marginales. Plus récemment, Norén et al. (2006) ont proposé de généraliser ces 3 modèles beta-binomiaux à un modèle Dirichlet-multinomial afin de mieux prendre en compte les dépendances existant entre la probabilité de la cellule considérée et les probabilités

22 2.3 Les méthodes bayésiennes 12 marginales correspondantes : (n ij, n i j, n īj, n ī j) Mu(n, p ij, p i j, p īj, p ī j) avec (p ij, p i j, p īj, p ī j) Di(α ij, α i j, α īj, α ī j). La distribution a posteriori de (p ij, p i j, p īj, p ī j) est donc aussi une loi de Dirichlet : (p ij, p i j, p īj, p ī j) Di(γ ij, γ i j, γ īj, γ ī j) où γ kl désigne α kl + n kl. p i., p.j et p ij sont toujours distribuées selon des lois beta mais avec une paramétrisation légèrement différente : p ij Be(γ ij, γ i j + γ īj + γ ī j) p i. = p ij + p i j Be(γ ij + γ i j, γ īj + γ ī j) p.j = p ij + p īj Be(γ ij + γ īj, γ i j + γ ī j). Les hyperparamètres choisis sont les suivants : α ij = q i. q.j α.., α i j = q i. q. j α.., α īj = q ī. q.j α.., α ī j = q ī. q. j α.., avec α.. = 0.5 q i. q.j et q i. = n i n + 1, qī. = nī n + 1, q.j = n.j n + 1, q. j = n. j n + 1.

23 2.3 Les méthodes bayésiennes 13 Règle de décision utilisée pour la génération de signaux La statistique d intérêt est fondée sur l Information Component défini pour la cellule (i, j) comme IC ij = log 2 ( p ij p i. p.j ). Un signal est généré si le quantile à 2.5% de la distribution de IC ij est plus grand que 0 : Q (IC ij) > 0. Que ce soit pour le modèle beta-binomial ou sa généralisation, la distribution de IC ij n a pas de forme analytique. La stratégie initiale décrite dans Bate et al. (1998) consistait à en faire une approximation par une loi normale N{E(IC ij), var(ic ij)}, les deux moments étant approximés par la delta méthode. Par la suite, ces deux moments furent développés exactement dans l article de Gould (2003) en utilisant le fait que la fonction génératrice des moments d une variable aléatoire Y = ln(x), où X est distribuée selon une loi beta de paramètres (α, β), a la forme suivante : m Y (t) = Γ(α + t) Γ(α + β) Γ(α + β + t) Γ(α). où Γ indique la fonction gamma 1. Il est alors possible d obtenir les moments d ordre 1 et 2 de IC ij par dérivation à l ordre 1 et à l ordre 2 de la fonction génératrice des 1 Γ(x) = 0 t x 1 e t dt.

24 2.3 Les méthodes bayésiennes 14 moments de IC ij prise au point 0 : E(IC ij) = = [ 1 Ψ(α ij + n ij ) Ψ(α ij + β ij + n) ln(2) ] Ψ(α i. + n i. ) + Ψ(α i. + β i. + n) Ψ(α.j + n.j ) + Ψ(α.j + β.j + n) [ { } 1 (2 + n) 2 Ψ(1 + n ij ) Ψ ln(2) (1 + n i. )(1 + n.j ) ] Ψ(1 + n i. ) + Ψ(2 + n) Ψ(1 + n.j ) + Ψ(2 + n) { } var(ic ij ) = 1 [Ψ (1 + n ln(2) 2 ij ) Ψ (2 + n) 2 (1 + n i. )(1 + n.j ) ] +Ψ (1 + n i. ) Ψ (2 + n) + Ψ (1 + n.j ) Ψ (2 + n) où Ψ et Ψ indiquent respectivement les fonctions digamma et trigamma 2. Dans l article de Norén et al. (2006), les auteurs reconnaissent que l utilisation de la loi normale s avère trop approximative pour les cellules contenant peu de notifications alors même que ces dernières sont les plus représentées dans la base. Ils proposent par conséquent une méthode pour estimer plus finement Q (IC ij ). Celle-ci repose sur l équation suivante : Q (IC ij ) = mode(ic ij ) ˆ ij dans laquelle ˆ ij désigne l estimation de l écart entre le mode de la distribution de IC ij et son quantile à 2.5%. L estimateur employé pour le mode de IC ij est identique 2 Les fonctions digamma Ψ et trigamma Ψ sont définies comme les dérivées première et seconde du logarithme de la fonction gamma Γ : Ψ(x) = d ln Γ(x) dx et Ψ (x) = d2 ln Γ(x) dx2

25 2.3 Les méthodes bayésiennes 15 à celui utilisé pour estimer E(IC ij ) dans Bate et al. (1998) : mode(ic ij) = log 2 E(p ij ) E(p i. ) E(p.j ). ij est estimé à l aide du modèle de régression suivant : ij (γ ij ) = A r γ 1/2 ij + B r γ 3/2 ij. Les paramètres A r et B r dépendent de r = γ ij / min(γ i., γ.j ). Ils sont estimés à l aide de simulations par Monte Carlo pour différentes configurations simulées basées sur 11 valeurs de r (0.0, 0.1,..., 1.0). Par la suite, pour une valeur observée de r, A r et B r sont calculés par interpolation linéaire. Le choix d utiliser cette modélisation plutôt que de recourir à l estimation de Q (IC ij) pour chaque couple (i, j) à l aide de simulations par Monte Carlo est justifié par la taille très importante de la base de l OMS La méthode Gamma Poisson Shrinker (GPS) Le modèle L approche proposée par DuMouchel (1999) suppose que les n ij sont distribués selon une loi de Poisson : n ij Pn(λ ij e ij ) où e ij est une quantité fixe indiquant le nombre de notifications attendu dans la cellule (i, j) en supposant l indépendance entre les lignes (médicaments) et les colonnes (événements indésirables) de la table de contingence : e ij = n i. n.j n.

26 2.3 Les méthodes bayésiennes 16 La distribution a priori choisie pour les λ ij est un mélange de deux lois gamma : λ ij ŵ Ga(ˆα 1, ˆβ 1 ) + (1 ŵ) Ga(ˆα 2, ˆβ 2 ), dans laquelle les hyperparamètres ˆθ = (ˆα 1, ˆβ 1, ˆα 2, ˆβ 2, ŵ) sont calculés par maximisation de la vraisemblance marginale des n ij : f(n;e, α 1, β 1, α 2, β 2, w) (2.1) = ij = ij 0 f Pn (n ij ; λ ij e ij ){w f Ga (λ ij ; α 1, β 1 ) + (1 w) f Ga (λ ij ; α 2, β 2 )}dλ ij [ w fbn {n ij ; α 1, β 1 /(β 1 + e ij )} + (1 w) f Bn {n ij ; α 2, β 2 /(β 2 + e ij )} ] où n = {n 11,...,n IJ }, e = {e 11,...,e IJ } et f Pn, f Ga, f Bn indiquent respectivement les densités de probabilité de lois de Poisson, gamma et binomiale négative. Il s agit donc d une approche bayésienne empirique. La distribution a posteriori de λ ij est calculée de la manière suivante : f(λ ij n ij ) = = = f Pn (n ij ; λ ij e ij ){ŵ f Ga (λ ij ; ˆα 1, ˆβ 1 ) + (1 ŵ) f Ga (λ ij ; ˆα 2, ˆβ 2 )} f 0 Pn (n ij ; λ ij e ij ){ŵ f Ga (λ ij ; ˆα 1, ˆβ 1 ) + (1 ŵ) f Ga (λ ij ; ˆα 2, ˆβ 2 )}dλ ij f Pn (n ij ; λ ij e ij ){ŵ f Ga (λ ij ; ˆα 1, ˆβ 1 ) + (1 ŵ) f Ga (λ ij ; ˆα 2, ˆβ 2 )} ŵ f Bn {n ij ; ˆα 1, ˆβ 1 /(ˆβ 1 + e ij )} + (1 ŵ) f Bn {n ij ; ˆα 2, ˆβ 2 /(ˆβ 2 + e ij )} ŵ f Bn {n ij ; ˆα 1, ˆβ 1 /(ˆβ 1 + e ij )} f Pn(n ij ;λ ij e ij ) f Ga (λ ij ;ˆα 1,ˆβ 1 ) f Bn {n ij ;ˆα 1,ˆβ 1 /(ˆβ 1 +e ij )} ŵ f Bn {n ij ; ˆα 1, ˆβ 1 /(ˆβ 1 + e ij )} + (1 ŵ) f Bn {n ij ; ˆα 2, ˆβ 2 /(ˆβ 2 + e ij )} (1 ŵ) f Bn {n ij ; ˆα 2, ˆβ 2 /(ˆβ 2 + e ij )} f Pn(n ij ;λ ij e ij ) f Ga (λ ij ;ˆα 2,ˆβ 2 ) f + Bn {n ij ;ˆα 2,ˆβ 2 /(ˆβ 2 +e ij )} ŵ f Bn {n ij ; ˆα 1, ˆβ 1 /(ˆβ 1 + e ij )} + (1 ŵ) f Bn {n ij ; ˆα 2, ˆβ 2 /(ˆβ 2 + e ij )}. (2.2)

27 2.3 Les méthodes bayésiennes 17 En définissant w ij comme : w ij = = ŵ f Bn {n ij ; ˆα 1, ˆβ 1 /(ˆβ 1 + e ij )} ŵ f Bn {n ij ; ˆα 1, ˆβ 1 /(ˆβ 1 + e ij )} + (1 ŵ) f Bn {n ij ; ˆα 2, ˆβ 2 /(ˆβ 2 + e ij )} [ ŵ ŵ f Bn {n ij ; ˆα 2, ˆβ ] 1 2 /(ˆβ 2 + e ij )} f Bn {n ij ; ˆα 1, ˆβ, (2.3) 1 /(ˆβ 1 + e ij )} l expression (2.2) devient : f(λ ij n ij ) = w ij f Pn (n ij ; λ ij e ij ) f Ga (λ ij ; ˆα 1, ˆβ 1 ) f Bn {n ij ; ˆα 1, ˆβ 1 /(ˆβ 1 + e ij )} + (1 w ij ) f Pn(n ij ; λ ij e ij ) f Ga (λ ij ; ˆα 2, ˆβ 2 ) f Bn {n ij ; ˆα 2, ˆβ. 2 /(ˆβ 2 + e ij )} On en déduit que la distribution a posteriori de λ ij est un mélange de deux lois gamma : λ ij n ij λ ij w ij Ga(ˆα 1 + n ij, ˆβ 1 + e ij ) + (1 w ij ) Ga(ˆα 2 + n ij, ˆβ 2 + e ij ). (2.4) La méthode utilisée actuellement par la FDA propose en réalité un degré de sophistication plus élevé pour le calcul du nombre de signaux attendu e ij. Ce dernier est calculé par stratification en tenant compte de variables comme l âge ou le sexe des patients. De plus, la méthode MGPS permet de s intéresser à des associations impliquant plusieurs médicaments et/ou plusieurs événements indésirables à l aide de modèles log-linéaires (DuMouchel et Pregibon, 2001; Agresti, 2002). Le travail présenté ici s est fondé uniquement sur le modèle de la méthode GPS.

28 2.4 Quelques remarques générales 18 Règle de décision utilisée pour la génération de signaux La stratégie proposée initialement par DuMouchel (1999) consistait à ranger les couples (i, j) en fonction de l espérance a posteriori de E{log 2 (λ)} : E{log 2 (λ ij )} = ln(2) 1 [w ij {Ψ(ˆα 1 + n ij ) ln(ˆβ 1 + e ij )} +(1 w ij ){Ψ(ˆα 2 + n ij ) ln(ˆβ 2 + e ij )}]. Plus tard, DuMouchel et Pregibon (2001) proposaient une autre possibilité consistant à ranger les cellules selon le quantile à 5% de la distribution des λ ij : Q 0.05 (λ ij). Par la suite, Szarfman et al. (2002) ont proposé le seuil de détection suivant : Q 0.05 (λ ij ) 2. Cette règle de décision a notamment été utilisée dans une étude récente comparant GPS à PRR (Almenoff et al., 2006). 2.4 Quelques remarques générales D autres méthodes ont été proposées mais ne semblent pas être employées actuellement. On trouve par exemple une méthode utilisant le sequential probability ratio test (Evans, 2003) ainsi que d autres basées sur la distribution de Poisson, le calcul du χ 2 avec correction de Yates ou du Yule s Q (van Puijenbroek et al., 2002). Concernant les méthodes décrites plus haut, il est difficile de savoir de quelle manière elles s inscrivent effectivement dans le processus de surveillance des systèmes de pharmacovigilance. La littérature rapporte néanmoins des travaux attestant de leur utilité potentielle à travers des études rétrospectives (Lindquist et al., 2000; Szarfman et al., 2002).

29 2.4 Quelques remarques générales 19 Actuellement, aucune méthode ne fait l objet d un consensus, les méthodes étant finalement utilisées par les systèmes de pharmacovigilance les ayant développées. Ceci s explique aussi peut être par le fait que peu d études comparant l ensemble des méthodes n aient été publiées. Une étude sur données réelles a été proposée par van Puijenbroek et al. (2002) mais en prenant BCPNN comme méthode de référence. La seule étude de simulations visant à une comparaison de l ensemble des méthodes a été proposée par Roux et al. (2005) et indique que les méthodes bayésiennes sont les plus performantes du point de vue de la sensibilité et spécificité. Enfin, les seuils choisis pour la génération de signaux ont été le sujet de peu d investigations et sont, somme toute, arbitraires. L objet du chapitre suivant est de proposer un cadre statistique général permettant notamment d assoir le choix de ces seuils pour les principales méthodes de détection automatique.

30 Chapitre 3 Méthodes de détection automatique revisitées dans le cadre des comparaisons multiples Les méthodes présentées dans le chapitre précédent s appuient sur des seuils ne prenant pas en compte la multiplicité des comparaisons réalisées si bien qu aucun critère statistique n accompagne les listes de signaux générés. Il existe une littérature abondante consacrée à la prise en compte de la multiplicité des comparaisons. Les méthodes sont basées sur l estimation ou le contrôle de critères d erreurs tels que le Family Wise Error Rate (FWER, Hochberg et Tamhane, 1987) défini comme la probabilité de commettre une fausse découverte ou le False Discovery Rate (FDR, Benjamini et Hochberg, 1995) défini comme l espérance du taux de faux positifs. Ce dernier étant moins restrictif que le FWER, il permet un gain de puissance et est plus adapté pour les analyses dans lesquelles un très grand nombre de comparaisons est réalisé. Depuis l article de Benjamini et Hochberg (1995), beaucoup de procédures ont été proposées pour estimer ou contrôler le FDR ou des quantités dérivées. La nature 20

31 3.1 Comparaisons multiples et méthodes fréquentistes 21 fréquentiste et bayésienne des méthodes de pharmacovigilance nous a conduit à nous intéresser à deux types d approches. La première se fonde sur la modélisation des degrés de signification par un modèle de mélange tandis que la deuxième approche utilise le cadre décisionnel de la statistique bayésienne. 3.1 Comparaisons multiples et méthodes fréquentistes ROR, PRR et test d hypothèses L objectif des méthodes de détection automatique est de générer des signaux pour lesquels le nombre de cas notifiés est significativement supérieur à ce qui aurait été observé en cas d indépendance entre le médicament et l événement indésirable considéré dans la table de contingence. Si l on prend l exemple de la méthode ROR, la mesure d association étant l odds ratio, il s agit donc de tester pour un couple donné (i, j) : H 0ij : ψ ij ψ 0 versus H 1ij : ψ ij > ψ 0. (3.1) Le même raisonnement peut être aussi effectué avec la méthode PRR, la mesure d association d intérêt devenant le risque relatif. Pour la méthode ROR, une vraie association dans la base est définie par ψ > 1 ce qui conduit à choisir naturellement ψ 0 = 1. Néanmoins, on peut aussi s intéresser à des associations plus fortes et donc utiliser des valeurs pour ψ 0 strictement supérieures à 1. A partir de (3.1) on peut donc proposer le calcul des degrés de signification suivant : p ij = 1 F N [ln( ˆψ ij ); ln(ψ 0 ), var{ln( ˆψ ij )} 1/2 ] où F N {ln( ˆψ ij ); a, b} indique la fonction de répartition au point ln( ˆψ ij ) d une loi normale N(a, b). En particulier, la méthode proposée par van Puijenbroek et al. (2002) consiste à définir une région de rejet à 2.5% pour les degrés de signification que ce soit pour la méthode ROR ou

32 3.1 Comparaisons multiples et méthodes fréquentistes 22 PRR. En revanche, il n est pas possible de trouver d équivalent à la règle de décision proposée par Evans et al. (2001) Test exact de Fisher et mid-p-values Une grande proportion des couples dans la base étant associée à de faibles nombres de notifications, nous proposons d étudier le test de Fisher comme alternative aux méthodes PRR et ROR. Ce test est simple et ne repose sur aucune approximation de distribution. Dans la suite de l exposé, il sera appelé RFET (pour Reporting Fisher s Exact Test) par souci d homogénéité avec les appellations des autres méthodes fréquentistes. Pour une cellule donnée (i, j) le test est construit en supposant que les comptages marginaux (n i., n.j et n) sont fixes et la variable aléatoire N ij est distribuée selon une loi hypergéométrique décentrée (Agresti, 2002). On a donc : Pr(N ij = n ij ; n i., n.j, n, ψ ij ) = ( ni. n ij x=min(n i.,n.j ) x=max(0,n i. +n.j n) )( n ni. n.j n ij ( ni. x ) ψ n ij ij )( ) n ni. n.j x ψ x ij. (3.2) Lorsque ψ ij = 1, la formule (3.2) se réduit à la probabilité d une loi hypergéométrique. Les degrés de signification associés au test (3.1) sont calculés de la manière suivante : p ij = Pr(N ij n ij n i., n.j, n, ψ 0 ). Par ailleurs, comme le test de Fisher est connu pour être conservatif, nous avons aussi étudié l utilisation des mid-p-values définies comme 1 Pr(N 2 ij = n ij ; n i., n.j, n, ψ 0 ) + Pr(N ij > n ij ; n i., n.j, n, ψ 0 ) (Agresti, 2002). Par la suite, l association des mid-p-values avec le test exact de Fisher sera notée midrfet.

33 3.1 Comparaisons multiples et méthodes fréquentistes FDR et méthodes fréquentistes Si l on désigne par V et R les deux variables aléatoires correspondant respectivement au nombre de fausses découvertes et au nombre de signaux générés, alors le FDR tel qu il est défini par Benjamini et Hochberg (1995) s écrit : ( ) V FDR = E R R>0 Pr(R>0). Plus récemment Storey (2002) a popularisé un critère dérivé du FDR : le pfdr (pour positive FDR) défini comme ( ) V pfdr = E R R>0. Ces deux critères sont asymptotiquement équivalents puisque Pr(R > 0) tend vers 1 lorsque le nombre de comparaisons augmente. Comme le nombre de comparaisons réalisées en pharmacovigilance est très important, nous utiliserons indifféremment la notation FDR. L approche proposée par Storey (2002) s appuie sur la modélisation des statistiques d intérêt notées P ij supposées i.i.d selon un mélange de deux distributions : f(p) = π 0 f 0 (p) + (1 π 0 )f 1 (p), (3.3) dans lequel f 0 et f 1 sont les densités de probabilité de P ij sous l hypothèse nulle et alternative. π 0 représente donc la probabilité marginale de l hypothèse nulle. En particulier, lorsque les P ij sont des degrés de signification, Storey montre que le FDR associé à une région de rejet pour les degrés de signification [0, γ] avec γ [0, 1] est égal à FDR(γ) = π 0 F 0 (γ) F(γ) (3.4)

34 3.1 Comparaisons multiples et méthodes fréquentistes 24 où F 0 indique la fonction de répartition des degrés de signification au point γ sous l hypothèse nulle et F la fonction de répartition marginale au point γ. Il s agit donc de la probabilité a posteriori de l hypothèse nulle. Cas d hypothèses simples Dans le cas de tests d hypothèses nulles simples, la distribution des degrés de signification sous l hypothèse nulle est uniforme. Le modèle (3.3) se ramène donc à f(p) = π 0 + (1 π 0 )f 1 (p) (3.5) et l équation (3.4) peut donc s exprimer comme FDR(γ) = π 0γ F(γ). F(γ) peut être estimée en utilisant la distribution empirique des degrés de signification observés : ˆF(γ) = ij 1 [p ij γ] m où 1 [ ] représente la fonction indicatrice et m indique le nombre d hypothèses testées. La principale difficulté réside donc dans l estimation de π 0. Sans hypothèse distributionnelle sur f 1, le modèle (3.5) est non identifiable et seule une borne supérieure de π 0 peut être estimée ce qui conduit à surestimer le FDR. Il existe un grand nombre de procédures destinées à estimer un majorant de π 0. Il s agit le plus souvent d estimer π 0 +(1 π 0 ) inf p {f 1 (p)}. C est le cas par exemple de la procédure Qvalue développée par Storey et Tibshirani (2003) qui est la plus utilisée actuellement.

35 3.1 Comparaisons multiples et méthodes fréquentistes 25 La procédure Qvalue La procédure Qvalue s appuie sur l estimateur de π 0 proposé par Schweder et Spjøtvoll (1982). Cet estimateur repose sur l hypothèse qu il existe une valeur λ [0, 1] telle que f 1 est nulle pour toute valeur de p λ et donc que F 1 (p) = 1. Il s ensuit d après l équation (3.5) : F(λ) = π 0 λ + (1 π 0 ) ce qui conduit à l estimateur suivant : ˆπ 0 (λ) = 1 ˆF(λ) 1 λ. (3.6) L approche de Storey et Tibshirani (2003) a pour objectif de calculer (3.6) lorsque λ tend vers 1, c est-à-dire f(1). Pour cela, ˆπ 0 (λ) est calculé pour un ensemble de valeurs de λ. Une fonction de lissage par splines cubiques est ensuite ajustée à l ensemble de ces points. L estimation de π 0 correspond à la valeur de cette fonction au point 1. D autres procédures sont aussi couramment citées telles que la procédure LBE (pour Location Based Estimator) qui a démontré de bonnes performances par simulations (Dalmasso et al., 2005; Lai, 2007) et qui jouit de certaines propriétés asymptotiques. Notre travail s est principalement appuyé sur cette procédure. La procédure Location Based Estimator LBE est fondée sur l égalité suivante : E{ϕ(P)} E 0 {ϕ(p)} = π 0 + (1 π 0 ) E 1{ϕ(P)} E 0 {ϕ(p)} } {{ } biais, 0 (3.7) où E 0 {ϕ(p)} et E 1 {ϕ(p)} indiquent respectivement l espérance d une transformation ϕ des degrés de signification sous l hypothèse nulle et sous l hypothèse alternative. La transformation ϕ(p) = { ln(1 p)} a avec a IR + est choisie de manière à minimiser

36 3.1 Comparaisons multiples et méthodes fréquentistes 26 le terme positif dans l équation (3.7) ce qui conduit à l estimateur de π 0 suivant : ˆπ 0 = Ê{ϕ(P)} 1 E 0 {ϕ(p)} = m ij ϕ(p 1 ij) E 0 {ϕ(p)} = m ij { ln(1 p ij)} a Γ(a + 1) où Γ( ) indique la fonction gamma. Une propriété intéressante de l estimateur LBE est qu il est asymptotiquement distribué selon une loi normale avec une variance bornée par var(ˆπ 0(a) ) = 1 { } Γ(2a + 1) m Γ(a + 1) 1. (3.8) 2 Dalmasso et al. (2005) montrent que le biais de LBE diminue lorsque a augmente alors que var(ˆπ 0(a) ) augmente avec a. Dans la suite, a est choisi de manière à ce que l écart type de LBE soit inférieur à Cas d hypothèses unilatérales Comme l indique (3.1), les hypothèses testées dans le cas de la pharmacovigilance sont unilatérales. Or les degrés de signification ne sont pas calculés sous H 0 mais sous l hypothèse H 0 : ψ ij = ψ 0. Par conséquent la distribution des degrés de signification n est pas uniforme sous H 0. Au vu des histogrammes des densités marginales observés sur les données de la base française de pharmacovigilance pour les différentes méthodes (illustrés pour la méthode midrfet par la figure 3.1), nous faisons l hypothèse que la distribution f 0 des degrés de signification sous H 0 est une fonction croissante résultant du mélange d une distribution uniforme et d une fonction croissante f 1 (p), pour laquelle il existe une valeur p 0 [0, 1] telle que f 1 (p 0 ) = 0. Il en résulte que le modèle (3.3) peut s exprimer de la manière suivante : f(p) = π 0 f 0 (p) + (1 π 0 )f 1 (p) = π 0 {π 0 + (1 π 0 )f 1 (p)} + (1 π 0 )f 1 (p) (3.9)

37 3.1 Comparaisons multiples et méthodes fréquentistes 27 et (3.4) comme suit : FDR(γ) = π 0{π 0 F 0 (γ) + (1 π 0 ) F 1 (γ)}. (3.10) F(γ) En pratique, les valeurs de FDR supérieures à 0.15 ne nous intéressent pas si bien que seules les faibles valeurs de γ seront considérées. Si l on suppose qu elles sont inférieures à p 0, alors (3.10) se réduit à FDR(γ) = π 0π 0 γ F(γ). L objectif devient donc d estimer π 0 π 0. Récemment Pounds et Cheng (2006) ont étudié par simulation un cas particulier de la méthode LBE dans lequel ϕ est choisie comme fonction identité. Dans le cas de tests unilatéraux, ils proposent d appliquer LBE sur la transformation P = 1 2 P 1. Pour être complètement rigoureux, il 2 nous faut montrer que P a une distribution décroissante. Lemme : Si P = 1 2 P 1 où P désigne une variable aléatoire définie sur [0, 1] 2 dont la densité de probabilité peut s exprimer comme : f(p) = π 0 {π 0 + (1 π 0 )f 1 (p)} + (1 π 0 )f 1 (p) et où f 1 et f 1 sont des fonctions dérivables, convexes, respectivement croissantes et décroissantes, alors la densité de probabilité de P est décroissante et peut s exprimer de la manière suivante : f P (p ) = π 0 π 0 + (1 π 0 π 0 )f 1P (p ).

38 3.1 Comparaisons multiples et méthodes fréquentistes 28 Démonstration : Soient F P et F les fonctions de répartition de P et P. F P (p ) = Pr(P p ) = Pr(P p P 1 2 ) Pr(P 1 2 ) + Pr(P p P > 1 2 ) Pr(P > 1 2 ). Pour P [0, 1 2 ], on a P = 2P et pour P [ 1 2, 1], on a P = 2(1 P). F P peut donc s écrire de la manière suivante : F P (p ) = Pr(2P p P 1 2 ) + Pr{2(1 P) p P > 1 2 } = Pr(P p p ) + Pr(P 1 ) 2 2 = F( p p ) + 1 F(1 ). 2 2 On a donc : et : f P (p ) = 1 ) f(p p f(1 ) f P (p ) = 1 4 f ( p 2 ) 1 4 f (1 p 2 ). f P est négative puisque f P est convexe car définie comme combinaison linéaire positive de deux fonctions convexes. Par conséquent, f P est décroissante. De plus, la fonction de répartition de P peut être exprimée comme : f(p) = π 0 π 0 + (1 π 0 π 0 )f 1P (p), ce qui conduit à : f P (p ) = 1 2 {π 0π 0 + (1 π 0 π 0 )f 1P ( p 2 )} {π 0π 0 + (1 π 0 π 0 )f 1P (1 p 2 )} = π 0 π (1 π 0π 0 ){f 1P ( p 2 ) + f 1P(1 p 2 )}.

39 3.2 Comparaisons multiples et méthodes bayésiennes 29 On peut par conséquent appliquer les méthodes LBE, Qvalue ainsi que d autres telles que BUM (Pounds et Morris, 2003) ou SPLOSH (Pounds et Cheng, 2004) pour estimer un majorant de π 0 π 0. ψ 0 = 1 ψ 0 = 2 ψ 0 = 5 f(p) π0π0 = f(p) π0π0 = f(p) π0π0 = ( a ) ( b ) ( c ) Fig. 3.1: Histogrammes de la densité marginale des degrés de signification obtenus à partir de la méthode midrfet sur les cellules non-vides de la base française (codage ATC5 - HLT, ) pour des valeurs de ψ 0 = 1, 2 ou 5. Les lignes horizontales matérialisent les estimations de π 0 π 0 obtenues avec la méthode LBE. Il est à noter que l approche proposée pour estimer un majorant de π 0 π 0 s appuie sur une modélisation des degrés de signification au moyen d un mélange à trois composantes (cf (3.9)) pour lesquelles nous avons choisi de recourir à très peu d hypothèses distributionnelles. La principale conséquence de ce choix est que l ensemble des poids des différentes composantes ne peut être estimé. En particulier, ni π 0, ni même π 0, c est-à-dire la proportion d hypothèses nulles ne peuvent être obtenus sans hypothèses distributionnelles supplémentaires sur f 1 et f Comparaisons multiples et méthodes bayésiennes Une grande partie des méthodes proposées pour l estimation du FDR repose sur la modélisation de la distribution marginale de la quantité d intérêt au moyen de mélange de distributions, une composante représentant généralement l hypothèse nulle,

40 3.2 Comparaisons multiples et méthodes bayésiennes 30 l autre ou les autres l hypothèse alternative. Cette approche par modèle de mélange a donné lieu à de nombreux travaux dans le cadre bayésien, développés pour l analyse des biopuces dans les études comparatives en génomique (Broët et al. (2004); Newton et al. (2004); Gottardo et al. (2006); Lewin et al. (2007)). Le modèle y est formulé soit avec un mélange au niveau des observations ou de statistiques fonctions des observations, soit au niveau de la distribution a priori des paramètres gouvernant l expression différentielle des gènes. Le cadre bayésien conduit naturellement à fonder la règle de décision sur la probabilité a posteriori de l hypothèse nulle qui dans le cas d un modèle de mélange correspond à calculer pour chaque individu sa probabilité d appartenance à la composante nulle conditionnellement aux données. Pour un ensemble d individus sélectionnés à partir d un seuil sur cette règle de décision, le FDR est simplement estimé par la moyenne de leur probabilité a posteriori de l hypothèse nulle. Cette quantité joue donc un rôle double en intervenant à la fois dans la sélection des individus et dans l estimation du FDR. La méthode GPS étant fondée sur un modèle de mélange, il pourrait sembler naturel d envisager ce type d approche. Néanmoins, comme il est souligné dans la discussion de DuMouchel (1999), les deux composantes n ont pas vocation à modéliser les hypothèses en concurrence, en témoigne l approche bayésienne empirique utilisée pour la détermination des hyperparamètres. Nous verrons cependant, dans la partie 3.2.2, que ce modèle a récemment été généralisé par Gould (2007) dans l esprit des travaux cités ci-dessus. L approche que nous proposons s appuie sur le cadre décisionnel bayésien proposé par Müller et al. (2004) et ne repose pas sur la modélisation par mélanges de distributions ce qui permet notamment de l appliquer directement aux deux méthodes bayésiennes existantes en pharmacovigilance.

41 3.2 Comparaisons multiples et méthodes bayésiennes GPS et BCPNN dans le cadre bayésien de la théorie de la décision Estimation bayésienne du FDR et du FNR Pour chacune des cellules (i, j) on définit d une part z ij {0, 1} comme l indicatrice du statut inconnu de l hypothèse testée (z ij = 0 signifie que l hypothèse nulle testée est vraie). D autre part d ij {0, 1} est l indicatrice de la décision de générer un signal. A partir de ces deux quantités, la proportion de fausses découvertes (FDP) et de faux négatifs (FNP) s écrivent de la manière suivante : FDP = ij (1 z ij)d ij ij d ij et FNP = ij (1 d ij)z ij m ij d. ij Comme le soulignent Müller et al. (2004), FDR = E(FNP) et FNR = E(FNP) sont difficiles à obtenir car ces quantités font intervenir des ratios de variables aléatoires. Ils proposent donc de s intéresser à leur équivalent bayésien, à savoir les espérances a posteriori de FDP et FNP que l on notera FDR et FNR. En particulier, si l on considère que la décision d ij se fonde uniquement sur les données observées alors le calcul de FDR et FNR est direct : FDR = ij (1 v ij)d ij ij d ij et FNR = ij (1 d ij)v ij m ij d ij (3.11) où v ij = Pr(z ij = 1) indique la probabilité a posteriori que l hypothèse alternative soit vraie. La détermination de v ij dépend à la fois de l hypothèse nulle testée et du modèle de probabilité supposé. Ainsi, si l on utilise la méthode GPS et que l on s intéresse à de vraies associations dans la base, alors v ij = Pr(λ ij > 1). Dans le cas de BCPNN on a v ij = Pr(IC ij > 0). Plus généralement, pour une valeur donnée de RR 0 et pour

42 3.2 Comparaisons multiples et méthodes bayésiennes 32 GPS, on peut définir v ij de la manère suivante : v ij (GPS, RR 0 ) = Pr(λ ij > RR 0 ) = 1 {w ij F Ga (RR 0 ; ˆα 1 + n ij, ˆβ 1 + e ij ) +(1 w ij ) F Ga (RR 0 ; ˆα 2 + n ij, ˆβ 2 + e ij )} où F Ga (RR 0, s, t) indique la fonction de répartition d une loi gamma de paramètre s et t au point RR 0. Dans le cas de BCPNN, on a : v ij (BCPNN, RR 0 ) = Pr{IC ij > log 2 (RR 0 )} ( p ij = Pr p i. p.j > RR 0 ). La distribution exacte de IC ij n a pas de forme analytique. Dans le cas de la version initiale de la méthode BCPNN (Bate et al., 1998), la distribution de IC ij est supposée être normale et il est donc facile de calculer v ij. Cette approximation n est plus faite dans l extension proposée par Norén et al. (2006) qui proposent uniquement une nouvelle estimation de Q (IC ij). Néanmoins, on peut obtenir pour chacune des cellules (i, j) la distribution de IC ij à l aide de simulations par Monte Carlo. Cette solution est cependant très coûteuse en temps de calcul, en particulier si l on souhaite obtenir une précision raisonnable pour v ij (BCPNN, RR 0 ). Règles de décision pour la génération de signaux La règle de décision (d ij ) que nous avons choisi d étudier est celle proposée par Müller et al. (2004). Elle se fonde sur v ij et les auteurs ont montré qu elle était optimale selon plusieurs fonctions de coûts combinant FDR, FNR ou des quantités

43 3.2 Comparaisons multiples et méthodes bayésiennes 33 apparentées. d ij est donc définie de la manière suivante : d ij = 1 [vij >1 α] où 1 [ ] indique la fonction indicatrice. Les règles de décision en vigueur pour BCPNN et GPS (décrites dans les paragraphes page 13 et page 18) peuvent être formulées dans le cadre décisionnel proposé par Müller et al.. Dans le cas de la méthode BCPNN, la règle de décision utilisée par l OMS correspond à définir l hypothèse testée et la décision pour la génération d un signal sur la base de RR 0 = 1 et α = Pour GPS, la règle de décision proposée par Szarfman et al. (2002) revient à utiliser RR 0 = 2 et à générer des signaux en fixant α à Remarquons que dans les articles de DuMouchel (1999) et de DuMouchel et Pregibon (2001), les cellules sont rangées selon E{log 2 (λ ij)} ou Q 0.05 (λ ij). L approche proposée ici diffère en ce que les cellules sont classées par rapport à 1 v ij. Estimation bayésienne de la sensibilité et de la spécificité La sensibité (Se) et la spécificité (Sp) observées sont définies de la manière suivante : Se = ij z ij d ij ij z ij et Sp = ij (1 d ij)(1 z ij ) m ij z. ij McLachlan et al. (2006) proposent d estimer ces deux quantités en remplaçant z ij par son espérance a posteriori v ij ce qui conduit aux estimateurs suivants : Se = ij v ij d ij ij v ij et Sp = ij (1 d ij)(1 v ij ) m ij v. ij

44 3.2 Comparaisons multiples et méthodes bayésiennes Autres approches proposées pour la prise en compte des comparaisons multiples à partir du modèle GPS Deux approches différentes de celle étudiée dans ce travail ont récemment été proposées par Gould (2007) à partir du modèle GPS. La première, reprenant une idée de Roux et al. (2005), propose de donner une interprétation aux deux composantes du modèle de mélange de DuMouchel (1999). Chaque cellule se voit donc associer une indicatrice z ij de son appartenance à l une des deux lois gamma. λ ij z ij (1 z ij ) Ga(α 1, β 1 ) + z ij Ga(α 2, β 2 ). z ij est supposé suivre a priori une loi de Bernouilli de paramètre w lui même distribué selon une loi beta de paramètres ξ et 1 avec ξ choisi entre 3 et 4. La statistique d intérêt est la suivante : Pr(z ij = 0 n,e, α 1, β 1, α 2, β 2, ξ) = (3.12) [ ] w 1 f Bn {n ij ; α 2, β 2 /(β 2 + e ij )} f(w n,e, α 1, β 1, α 2, β 2, ξ) dw w f Bn {n ij ; α 1, β 1 /(β 1 + e ij )} p=0 avec f(w n,e, α 1, β 1, α 2, β 2, ξ) f Be (w; ξ, 1) ij [ w fbn {n ij ; α 1, β 1 /(β 1 + e ij )} + (1 w) f Bn {n ij ; α 1, β 1 /(β 1 + e ij )} ]. Notons que dans le travail de Roux et al. (2005), il s agissait simplement de w ij (cf (2.3), page 17) correspondant au terme entre crochets de l équation (3.12). Cette approche se veut plus subjective que celle proposée par DuMouchel (1999) dans la mesure où l utilisateur doit spécifier les hyperparamètres des deux lois gamma

45 3.2 Comparaisons multiples et méthodes bayésiennes 35 et déterminer de ce fait la distribution a priori de λ ij en présence et en absence d association. Les cellules sont classées selon (3.12) qui tient compte naturellement de la multiplicité des comparaisons (Scott et Berger, 2006) sans que pour autant ne soit proposé de seuil de détection basé sur des critères tels que le FDR. La seconde approche proposée par Gould (2007) consiste à utiliser la procédure Qvalue de Storey et Tibshirani (2003) sur Pr(λ ij RR 0 ) = 1 v ij (GPS, RR 0 ) (cf (3.12)); l idée étant que sous l hypothèse nulle λ ij RR 0, Pr(λ ij RR 0 ) est, de manière analogue aux degrés de signification, distribuée selon une loi uniforme. Cependant, cette hypothèse ne semble pas vérifiée en pratique sur nos données comme l illustre la figure 3.2 pour RR 0 = 1. En effet, on observe un pic important pour les valeurs de Pr(λ ij 1) proches de Pr(λ ij 1) Fig. 3.2: Histogramme de la distribution de Pr(λ ij 1) obtenu à partir des données de la base française (codage ATC5 - HLT, ) à partir de cellules avec n ij 3.

46 3.3 Quelques remarques Quelques remarques Partant avec l idée de proposer des seuils de détection plus objectifs se basant sur la prise en compte de la multiplicité des comparaisons, ce travail nous a conduit d une part à la proposition d un nouveau modèle pour la détection automatique de signaux, à savoir midrfet, et d autre part à la proposition de statistiques d intérêt alternatives pour les méthodes existantes : les degrés de signification pour les méthodes fréquentistes et la distribution a posteriori de l hypothèse nulle pour les méthodes bayésiennes. Des méthodes existantes, nous ne conservons finalement que les modèles de probabilité sous-jacents, les règles de décision ainsi que les seuils de détection ayant été modifiés. Le tableau 3.1 récapitule l ensemble des méthodes étudiées. Modèle Méthodes existantes Nouvelles méthodes Statistique Décision H 0ij Statistique Décision ROR normal Borne inf. de l int. de conf. à 95% de ln( ˆψ ij ) > 0 ψ ij ψ 0 degré de signification FDR PRR ˆϕ ij 2, n ij 3, χ normal Borne inf. > 0 ϕ ij ϕ 0 degré de FDR de l int. de conf. à 95% de ln(ˆϕ ij ) signification RFET ψ ij ψ 0 degré de FDR hypergéométrique signification midrfet hypergéométrique ψ ij ψ 0 Mid-P-value FDR BCPNN Dirichletmultinomial GPS Poisson- 2 gamma Q (IC ij ) > 0 IC ij RR 0 Pr(H0 ij ) Monte Carlo E{log 2 (λ ij )} Q 0.05 (λ ij ) Q 0.05 (λ ij ) classement classement > 2 λ ij RR 0 λ ij RR 0 λ ij RR 0 E{log 2 (λ ij )} Q 0.05 (λ ij ) Pr(H 0 ij ) FDR FDR FDR FDR Ces cas correspondent à l utilisation des règles de classement proposées par DuMouchel (1999) et DuMouchel et Pregibon (2001) en association avec un seuil fondé sur le FDR. Tab. 3.1: Tableau récapitulatif des méthodes étudiées.

47 3.3 Quelques remarques 37 Dans un souci de clarté, en l absence de précision, les appellations ROR, RFET, midrfet et BCPNN feront désormais références aux modèles de probabilité en association avec les règles de classement proposées. En revanche, GPS sera utilisé pour désigner uniquement le modèle de probabilité et nous préciserons systématiquement la règle de classement utilisée. Il s agit donc maintenant d évaluer l apport de ces nouvelles méthodes par rapport aux méthodes existantes mais aussi de caractériser et comparer l ensemble des approches proposées afin de conclure sur l éventuelle supériorité de l une d entres elles. C est l objet des deux chapitres suivants.

48 Chapitre 4 Étude de simulations La seule étude de simulations comparant l ensemble des méthodes de détection déjà existantes en pharmacovigilance a été proposée par Roux et al. (2005) selon un modèle de simulation décrit dans Roux et al. (2003, 2007). Dans cette étude, pour chaque couple médicament i événement j, le nombre de notifications n ij obtenu sur une période t = [t, t + ] est supposé suivre une loi de Poisson : n ij ( t ) Po{RR ij T i (t) I j p ij (t)} où RR ij indique pour l événement j, le risque relatif lié à l exposition au médicament i, T i (t) indique la fréquence d exposition au médicament i, c est-à-dire le nombre de patients exposés au médicament i au temps t, I j indique l incidence de base de l événement j et p ij (t) indique la probabilité de notification du couple médicament i événement j au temps t. 38

49 39 Le système de notifications spontanées est simulé sur une période de 10 ans pour 150 médicaments et 100 événements indésirables. Le statut d un couple est défini à partir de RR ij qui vaut 1 en cas d absence d association (90% des couples), ou qui suit une loi exponentielle sur l intervalle [1.2, 10]. Le plan de simulation affecte aussi une date de mise sur le marché aux médicaments ainsi qu un niveau de gravité, sous forme de variable binaire, aux événements indésirables. La quantité clef de cette modélisation est la probabilité de notification p ij (t). Cette dernière varie au cours du temps en fonction de règles floues basées sur la date de lancement du médicament, la gravité de l événement ainsi que du nombre de notifications cumulées au temps t. La fréquence d exposition obéit aussi à des règles floues déterminées sur la base de l ancienneté du médicament et dépend d une exposition maximale prenant trois valeurs : 3 millions, et Enfin, pour chaque événement j, l incidence de base est choisie parmi deux valeurs : 1/ et 1/ Le plan de simulation que nous proposons n a pas pour but de simuler un système complet de notifications mais plutôt d obtenir des données ressemblant aux données étudiées du point de vue des risques observés (n ij /e ij ) et des comptes marginaux (n i., n.j et n). Pour ce faire, des caractéristiques de la base étudiée sont utilisées dans le processus de génération des données. L objectif global de cette étude par simulations est de comparer les performances des différentes méthodes ainsi que d évaluer la qualité des estimateurs proposés pour différentes quantités caractéristiques : le FDR dans le cas des méthodes fréquentistes, le FDR, le FNR, la sensibilité et la spécificité dans le cas des méthodes bayésiennes. Dans la première partie de ce chapitre, nous présentons la procédure de simulation des données proposée. Nous exposons ensuite les résultats de la comparaison des méthodes fréquentistes d une part, et des méthodes bayésiennes d autre part avant de présenter les résultats de la comparaison de l ensemble des méthodes évaluées.

50 4.1 Modèle de simulation 40 Pour terminer, nous confrontons ces résultats à ceux obtenus à partir d une étude par simulations utilisant des données générées suivant le modèle de Roux et al. (2005). 4.1 Modèle de simulation Le plan de simulation s appuie sur la représentation des données sous la forme d une table de contingence. Pour chaque jeu de simulation s, un vecteur de notifications n s = (n s 11,...,ns IJ ) de longueur égale au nombre de cellules de la base française est généré selon une loi multinomiale n s Mu(n,p s ) où n correspond à la somme des n ij observés dans la base de pharmacovigilance étudiée et p s = (p s 11,...,p s IJ ). La génération de p s se fait de la manière suivante. Deux vecteurs temporaires sont générés selon deux lois de Dirichlet utilisant les comptes marginaux de la base française comme paramètres : (p s w1., p s w2.,...,p s wi.) Di(n 1., n 2.,...,n I. ) (p s w.1, p s w.2,...,p s w.j) Di(n.1, n.2,...,n.j ). (4.1) D autre part, pour chaque cellule (i, j), un risque temporaire r s wij est généré selon l exponentiel d une loi logistique de paramètres 0 et 0.5. Le calcul de p s ij se fait à partir de ces trois quantités : p s ij = rs wij ps wi. ps w.j. ij rs wij ps wi. ps w.j

51 4.1 Modèle de simulation 41 Les probabilités marginales d être exposé au médicament i ou d observer l événement indésirable j sont respectivement : p s i. = j p s ij et p ṣ j = i p s ij. Les comptes marginaux sont calculés de la manière suivante : n s i. = j n s ij, n ṣ j = i n s ij, et n s = ij n s ij. Les méthodes de génération de signaux sont fondées sur différentes mesures d association. Pour la méthode PRR, il s agit du risque relatif : ϕ s ij = p s ij/p s i. (p ṣ j ps ij )/(1 ps i. ). Pour les méthode ROR, RFET, et midrfet, la mesure d intérêt est l odds ratio : ψ s ij = ps ij (1 + ps ij ps i. pṣ j ) (p s i. ps ij ) (pṣ j ps ij ), tandis que pour les méthodes bayésiennes, c est encore d un autre risque dont il s agit : RR ij = ps ij. p s i. pṣ j Dans l étude de simulations que nous avons menée, les différentes méthodes ont été évaluées du point de vue de leur mesure d association respective. Le choix d une distribution logistique ainsi que de ses paramètres a été fait sur la base d une comparaison graphique entre la distribution empirique du logarithme des risques observés simulés (ln(n s ij ) ln(es ij )) et celle observée sur la base française.

52 4.1 Modèle de simulation 42 La figure 4.1 illustre cette comparaison pour 50 jeux de simulations. Le nombre de cellules non vides a aussi été pris en compte Fig. 4.1: Histogrammes du logarithme des risques observés dans la base française et dans les données simulées. L histogramme pour les données simulées (gris) a été obtenu à partir de 50 jeux de données. Les jeux de données générés contenant un ou plusieurs comptes marginaux nuls ont été systématiquement éliminés. Afin d en réduire l occurrence, les comptes marginaux de la base française inférieurs à 5 n ont pas été utilisés pour le calcul des vecteurs temporaires (cf (4.1)). Finalement, 500 jeux de données ont été générés de dimension avec n égal à Le nombre moyen de cellules non vides observé pour les jeux simulés est de contre pour les données réelles. Dans la majeure partie de l étude par simulations, nous avons restreint l analyse aux cellules avec au moins trois notifications dans la mesure où peu de systèmes accordent foi à des signaux générés sur la base d une ou deux notifications. Lorsque les analyses sont restreintes de cette manière, les mesures de disproportionnalité

53 4.2 Comparaison des approches fréquentistes 43 sont tout de même calculées à partir de l ensemble des cellules, notamment en ce qui concerne les comptes marginaux et les hyperparamètres du modèle GPS. Seules les quantités caractéristiques sont calculées sur la base des cellules d intérêt (m = ij 1 [n ij 3]). Le FDR, le FNR, la sensibilité et la spécificité ont été estimés à partir de moyennes calculées sur les 500 jeux de données. Les calculs ont été réalisés à l aide du logiciel R (R Development Core Team, 2008). Par ailleurs, un package R nommé PhViD (pour Pharmacovigilance Detection) permettant l utilisation de l ensemble des méthodes évaluées dans ce travail a été récemment mis à disposition sur le site du CRAN ( Son développement a été effectué en collaboration avec Antoine Poncet, ingénieur statisticien recruté notamment pour ce projet dans notre unité. 4.2 Comparaison des approches fréquentistes Les méthodes ROR et PRR étant basées sur des mesures d association très proches dans le contexte des données de pharmacovigilance, nous avons choisi de restreindre l analyse aux méthode ROR, RFET ainsi que midrfet dans la mesure où elles reposent sur l odds ratio comme mesure d association. Cette étude par simulations a pour objectif de comparer les performances des trois méthodes du point de vue du FDR et d évaluer la qualité de son estimation avec la méthodologie proposée. Différentes hypothèses nulles basées sur ψ 0 = 1, 2 et 5 ont été étudiées.

54 4.2 Comparaison des approches fréquentistes Étude de la densité des degrés de signification La figure 4.2 présente les distributions des degrés de signification calculés à partir des méthodes ROR, RFET et midrfet dans le cas où l hypothèse testée repose sur ψ 0 = 1. Cette figure montre tout d abord que la distribution marginale (figures a, d, g et j) et la distribution sous l hypothèse alternative (figures c, f, i, l) des degrés de signification est cohérente avec les hypothèses distributionnelles supposées dans la partie En revanche la figure 4.2b montre que ce n est pas le cas pour la méthode ROR appliquée aux cellules non vides sous l hypothèse nulle. En effet, on peut voir que la distribution est fortement décroissante pour des petits degrés de signification alors que cette dernière est supposée être constante à cette endroit. Cette décroissance observée est le reflet du problème lié à l approximation normale. Une proportion trop grande de cellules sous l hypothèse nulle est affectée de petits degrés de signification ce qui aura pour conséquence une augmentation du nombre de faux positifs. La figure 4.2e montre que la distribution des degrés de signification sous l hypothèse nulle pour RFET est tout à fait conforme à celle supposée. Dans le cas de midrfet, on observe une légère décroissance pour des petits degrés de signification. La figure A.1 proposée en annexe illustre l ensemble des distributions des degrés de signification sous l hypothèse nulle pour les trois méthodes et les trois hypothèses testées (ψ 0 = 1, 2 et 5). Elle confirme que les tendances observées pour ψ 0 = 1 sont identiques pour les autres hypothèses testées. Les figures 4.2k et A.2a, b et c montrent qu en restreignant l analyse aux cellules avec n ij 3, la décroissance observée pour les petits degrés de signification est considérablement réduite. Pour midrfet, les figures A.2g, h et i montrent que la légère décroissance observée précédemment a totalement disparu.

55 4.2 Comparaison des approches fréquentistes 45 ROR : n ij 1 RFET : n ij 1 midrfet : n ij 1 ROR : n ij 3 f(p) (a) (d) f 0 (p) (b) f 1 (p) (e) (g) (h) (j) (k) (c) (f) (i) (l) Fig. 4.2: Histogrammes des distributions marginales, sous H 0 et sous H 1 des degrés de signification pour ROR, RFET et midrfet. Les histogrammes sont obtenus à partir de 50 jeux de données et calculés à partir de (i) la méthode ROR appliquée aux cellules non vides (a, b, c), (ii) la méthode RFET appliquée aux cellules non vides (d, e, f), (iii) la méthode midrfet appliquée aux cellules non vides (g, h, i) et (iv) la méthode ROR appliquée aux cellules avec n ij 3 (j, k, l). Les hypothèses testées sont basées sur ψ 0 = 1. La première ligne représente la distribution marginale des degrés de signification. Les deux dernières lignes représentent respectivement les histogrammes de la distribution des degrés de signification avec ψ ij 1 (H 0ij ) et ψ ij > 1 (H 1ij ).

56 4.2 Comparaison des approches fréquentistes Estimation de π 0 π 0 La quantité clef pour l estimation du FDR dans le cas des approches fréquentistes est π 0 π 0. Mais, du fait de la procédure de simulation des données employée, cette quantité nous est inconnue. Néanmoins la qualité de son estimation peut être évaluée graphiquement comme l illustrent les figures 4.3 et A.3. Ces figures présentent les distributions marginales des degrés de signification transformés (p ) obtenues à partir des 500 jeux de simulation pour la méthode RFET (figure 4.3) et la méthode ROR (figure A.3) et trois hypothèses nulles testées définies par ψ 0 = 1, 2 et 5. Y sont aussi représentées les estimations moyennes de π 0 π0 obtenues avec les procédures LBE et Qvalue. Rappelons que l objectif de la procédure Qvalue est d estimer le minimum de la distribution marginale qu elle suppose être en p = 1. On peut donc voir que la procédure Qvalue sous-estime très légèrement cette valeur. Le majorant de π 0 π0 qu estime LBE ne peut être représenté sur ces graphiques. En revanche, il est possible de montrer qu il est minoré par celui de la procédure Qvalue. On peut donc en conclure que la procédure LBE se comporte bien. Dans la suite de l exposé les résultats présentés ont été obtenus à partir de cette dernière. D autres procédures d estimation de π 0 π 0 ont par ailleurs été étudiées : la procédure BUM (Pounds et Morris, 2003) et la procédure SPLOSH (Pounds et Cheng, 2004). Les résultats des estimations ne sont pas présentés dans ce travail mais s avèrent beaucoup moins satisfaisants que ceux obtenus avec LBE ou Qvalue Comparaison des méthodes selon le FDR et son estimation La figure 4.4 présente les courbes du FDR ainsi que de la moyenne de son estimation obtenues à partir des méthodes ROR, RFET et midrfet, lorsque toutes les cellules non vides sont considérées. En moyenne, cellules (43.1% des cellules

57 4.2 Comparaison des approches fréquentistes 47 ψ 0 = 1 f(p) (a) ψ 0 = 2 f(p) (b) ψ 0 = 5 f(p) LBE Qvalue (c) Fig. 4.3: Estimations de π 0 π 0 obtenues avec LBE et Qvalue à partir de la distribution marginale des degrés de signification transformés (p ) pour RFET. Les histogrammes sont obtenus à partir des cellules non vides des 500 jeux de simulations. Les lignes horizontales représentent les estimations obtenues pour π 0 π 0 avec les procédures LBE et Qvalue. Les trois figures représentent les résultats pour les trois hypothèses nulles testées.

58 4.2 Comparaison des approches fréquentistes 48 ψ 0 = Nombre moyen de signaux générés ( a ) ψ 0 = Nombre moyen de signaux générés ( b ) ψ 0 = Nombre moyen de signaux générés ( c ) Fig. 4.4: Comparaison de ROR (noir), RFET (rouge) et midrfet (bleu) selon le FDR et son estimation pour n ij 1. Le FDR (courbes épaisses) et la moyenne des estimations du FDR (courbes fines) sont représentés en fonction de la moyenne du nombre de signaux générés. Les estimations du FDR sont obtenues avec la procédure LBE. Les résultats sont présentés pour les trois hypothèses nulles testées (ψ 0 = 1, 2 et 5). La règle de décision basée sur une région de rejet [0, 0.025] pour p et sur ψ 0 = 1 est identifiée par les droites verticales.

59 4.2 Comparaison des approches fréquentistes 49 non vides) ont un odds ratio supérieur à 1, (17.4%) ont un odds ratio supérieur à 2 et (3.9%) ont un odds ratio supérieur à 5. Le FDR et son estimation sont calculés pour différentes régions de rejet [0, γ] des degrés de signification p et sont représentés en fonction du nombre moyen de signaux générés correspondant. Ces figures montrent que quelle que soit l hypothèse testée, le FDR obtenu avec la méthode ROR (courbes épaisses noires) est toujours supérieur à celui obtenu avec les méthodes RFET (courbes épaisses rouges) et midrfet (courbes épaisses bleues) qui présentent quant à elles des performances identiques de ce point de vue. Les mauvaises performances observées pour la méthode ROR étaient attendues au vu de la distribution observée des degrés de signification sous l hypothèse nulle (cf figure 4.2b). Si l on s intéresse maintenant à l estimation du FDR, la figure 4.4 montre qu en moyenne, le FDR est toujours surestimé avec la méthode RFET (courbes fines rouges). Ce résultat, compatible avec une stratégie de contrôle du FDR, était attendu compte tenu de la procédure d estimation utilisée (LBE) et du respect des hypothèses distributionnelles observé (cf figure 4.2d, e, f). Néanmoins, on note que la surestimation du FDR est relativement importante. Pour la méthode ROR (courbes fines noires), le FDR est systématiquement sous-estimé pour les mêmes raisons qu évoquées précédemment. En ce qui concerne la méthode midrfet (courbes fines bleues), les estimations obtenues sont particulièrement bonnes dans le cas ψ 0 = 1. Pour ψ 0 = 2 et 5, le FDR est surestimé mais moins qu avec la méthode RFET. La figure 4.5 présente le même type de résultats que la figure 4.4 mais pour les cellules avec n ij 3. Le nombre moyen de ces dernières est égal à , soit 45% des cellules non vides. Sur ces cellules, (48.9%) ont un odds ratio supérieur à 1, (21.5%) ont un odds ratio supérieur à 2 et (5.4%) ont un odds ratio supérieur à 5. Cette figure montre que les méthodes RFET (courbes épaisses rouges) et midrfet (courbes épaisses bleues) présentent des performances

60 4.2 Comparaison des approches fréquentistes 50 ψ 0 = Nombre moyen de signaux générés ( a ) ψ 0 = Nombre moyen de signaux générés ( b ) ψ 0 = Nombre moyen de signaux générés ( c ) Fig. 4.5: Comparaison de ROR (noir), RFET (rouge) et midrfet (bleu) selon le FDR et son estimation pour n ij 3. Le FDR (courbes épaisses) et la moyenne des estimations du FDR (courbes fines) sont représentés en fonction de la moyenne du nombre de signaux générés. Les estimations du FDR sont obtenues avec la procédure LBE. Les résultats sont présentés pour les trois hypothèses nulles testées (ψ 0 = 1, 2 et 5). La règle de décision basée sur une région de rejet [0, 0.025] pour p et sur ψ 0 = 1 est identifiée par les droites verticales.

61 4.2 Comparaison des approches fréquentistes 51 légèrement meilleures que la méthode ROR (courbes épaisses noires) du point de vue du FDR pour ψ 0 = 2 et 5. Par ailleurs, la figure 4.5 montre que le FDR est surestimé par la méthode RFET (courbes fines rouges) et sous-estimé par la méthode ROR (courbes fines noires) pour des petites valeurs. La méthode midrfet (courbes fines bleues) semble, là encore, fournir un bon compromis entre ces deux méthodes puisque le FDR est surestimé en moyenne mais moins qu avec la méthode RFET. On peut remarquer que dans le cas n ij 3, la méthode midrfet conduit à une surestimation du FDR quel que soit ψ 0 alors que pour n ij 1, des estimations non biaisées sont observées pour ψ 0 = 1 (cf figure 4.4a). Ceci peut être expliqué par l étude de la distribution observée des degrés de signification. La légère décroissance observée dans le cas n ij 1 (cf figure A.1g, h, i) va dans le sens d une sous-estimation du FDR tandis que la procédure utilisée pour l estimation de π 0 π 0 va dans le sens d une surestimation de ce dernier. Aussi, il semble que pour ψ 0 = 1 ces deux biais se compensent. D autre part, les résultats présentés par les figures 4.4 et 4.5 semblent indiquer que les estimations du FDR obtenues avec les méthodes RFET (courbes fines rouges) et midreft (courbes fines bleues) sont plus conservatrices lorsque ψ 0 augmente. Ce phénomène, illustré plus clairement à travers la figure 4.6, est probablement lié au fait que le biais de l estimateur LBE tend à augmenter avec ψ 0 mais notre procédure de simulation des données ne permet pas de le vérifier dans la mesure où π 0 π 0 est inconnu. Dans les figures 4.4 et 4.5, les lignes verticales illustrent les résultats obtenus avec la règle de décision proposée par van Puijenbroek et al. (2002), c est-à-dire pour une région de rejet des degrés de signification égale à [0, 0.025] et ψ 0 = 1. L utilisation de cette règle de décision pour la méthode ROR sur l ensemble des cellules non vides (cf figure 4.4a) conduit à générer en moyenne signaux associés à un FDR de 15.7%

62 4.2 Comparaison des approches fréquentistes 52 ψ 0 = 1 ψ 0 = 1 Degrés de signification : 1=0.0001, 2=0.001, 3= 0.005, 4=0.01, 5=0.025, 6=0.05, 7=0.1, 8=0.125, 9= ROR RFET midrfet FDR ( a ) Nombre moyen de signaux générés ( d ) ψ 0 = 2 ψ 0 = FDR ( b ) ψ 0 = Nombre moyen de signaux générés ( e ) ψ 0 = FDR ( c ) Nombre moyen de signaux générés ( f ) Fig. 4.6: Biais relatif observé dans l estimation du FDR pour ROR, RFET et midrfet. Le biais relatif ({moyenne des estimations du FDR - FDR}/FDR) est représenté en fonction du FDR (a, b, c) et en fonction du nombre moyen de signaux générés (d, e, f). Les résultats sont présentés pour les cellules avec n ij 3. Les nombres figurant sur les courbes correspondent aux seuils de rejet de l hypothèse nulle pour les degrés de signification indiqués dans la légende de la figure a.

63 4.3 Comparaison des approches bayésiennes 53 et estimé en moyenne à 5.9%. Cette même règle de décision appliquée aux méthodes RFET et midrfet aboutit respectivement à et signaux associés à des FDR de 5.6% et 8.3%. De la même manière, si l on restreint l analyse aux cellules avec au moins trois notifications, la figure 4.5 montre que l utilisation de chacune des trois méthodes conduit à un nombre relativement différent de signaux générés et justifie donc l intérêt de fonder une règle de décision sur (ou d associer à une liste de signaux générés) un critère d erreur global comme le FDR. 4.3 Comparaison des approches bayésiennes La première partie de cette étude est consacrée à la comparaison des différentes règles de classement proposées pour le modèle GPS. Nous comparons ensuite les modèles GPS et BCPNN en utilisant la règle de classement basée sur la probabilité a posteriori de l hypothèse nulle. Dans cette étude, nous avons choisi de restreindre l analyse aux cellules avec au moins trois notifications dans la mesure où les méthodes bayésiennes ne reposent sur aucune approximation de lois et qu il n y a donc pas lieu d anticiper de problèmes particuliers lorsque l ensemble des cellules est pris en compte. Plusieurs hypothèses nulles ont été testées, basées sur des valeurs de RR 0 allant de 1 à 5. Sur cet ensemble restreint de cellules d intérêt, les nombres moyens de cellules avec un risque supérieur à 1, 2, 3, 4 ou 5 sont respectivement égaux à (48.9%), (21.2%), (11.6%), (7.4%) et (5.1%). Le modèle GPS repose sur une détermination des hyperparamètres par maximisation de la vraisemblance marginale (cf (2.1)). Pour ce faire, la fonction que nous avons programmée fait appel à la fonction R nlm(). Pour chaque jeu de simulation, la convergence de l algorithme a été contrôlée au moyen d un indicateur retourné par cette fonction (nlm()$code=1).

64 4.3 Comparaison des approches bayésiennes GPS et règles de classement La figure 4.7 présente les résultats de la comparaison des règles de classement proposées par DuMouchel (1999) et DuMouchel et Pregibon (2001), respectivement notées E(λ ) et Q 0.05 (λ ) à celle proposée dans ce travail notée Pr(H 0 ). Cette figure montre que Pr(H 0) (courbes ) est une meilleure règle de classement du point de vue du FDR. Néanmoins, pour de faibles valeurs de FDR (< 1 ou 2%), les figures 4.7b, d, f, h et j indiquent que les performances de Pr(H 0 ) et Q 0.05(λ ) (courbes + ) sont très proches. D autre part, la figure 4.7 montre que les estimations fournies par FDR (courbes violette) ne sont pas biaisées pour RR 0 = 1 et 3. En revanche, pour RR 0 = 2 le FDR est surestimé tandis que pour RR 0 = 4 et 5, il est sous-estimé. On note donc que l évolution du biais n est pas monotone avec RR 0. La figure 4.8 illustre d une part la variabilité de la proportion de fausses découvertes pour les 500 jeux de simulation à partir desquels est estimé le vrai FDR. D autre part, elle présente la variabilité de son estimation (FDR ). Les figures a, c, e, g et i montrent que la variance de FDP augmente avec RR 0. Quant aux figures b, d, f, h et l, elles montrent que les biais d estimation observés dans la figure 4.7 ne sont pas le résultat d une variabilité trop grande de FDR. L approche proposée pour l estimation du FDR repose nécessairement sur un bon ajustement du modèle aux données. Le modèle de simulation des données proposé dans ce travail diffère du modèle GPS et les biais observés semblent donc plutôt témoigner des limites de ce dernier à s adapter aux données générées. Néanmoins les figures 4.7 et 4.8 montrent que le biais reste modéré et qu il est compatible avec une stratégie de contrôle du FDR pour des valeurs de RR 0 3.

65 Comparaison des approches bayésiennes RR 0 = 1 E(λ) et Pr(H 0 ) Q 0.05 (λ) et Pr(H 0 ) Nombre moyen de signaux générés (a) RR 0 = Nombre moyen de signaux générés (c) RR 0 = Nombre moyen de signaux générés (e) RR 0 = Nombre moyen de signaux générés (g) Nombre moyen de signaux générés (b) Nombre moyen de signaux générés (d) Nombre moyen de signaux générés (f) Nombre moyen de signaux générés (h) RR 0 = Nombre moyen de signaux générés (i) Nombre moyen de signaux générés (j) Fig. 4.7: Comparaison selon le FDR et son estimation des différentes règles de classement pour GPS. Le FDR (courbes noires) et la moyenne des FDR (courbes violette) sont représentés en fonction du nombre moyen de signaux générés pour RR 0 = 1, 2, 3, 4 et 5. Les symboles, + et représentent respectivement E(λ ), Q 0.05 (λ ) et Pr(H 0).

66 4.3 Comparaison des approches bayésiennes RR 0 = 1 FDR FDR moyen (a) (b) RR 0 = (c) (d) RR 0 = (e) (f) RR 0 = (g) (h) RR 0 = (i) (j) Fig. 4.8: Variabilité du FDR et de son estimation pour GPS basé sur Pr(H 0 ). Le FDR (courbes épaisses noires) et la moyenne des FDR (courbes épaisses violette) sont représentés en fonction du nombre moyen de signaux générés pour RR 0 = 1, 2, 3, 4 et 5. Les courbes fines grises (figures a, c, e, g et i) représentent les quantiles à 2.5% et 97.5% de la distribution des FDP s tandis que les courbes fines en violet clair (figures b, d, f, h et j) représentent les quantiles à 2.5% et 97.5% de la distribution des FDR s.

67 4.4 Comparaison à partir du modèle de simulations proposé Comparaison de GPS etbcpnnbasés sur Pr(H 0 ) Les figures 4.9 à 4.12 illustrent les résultats de la comparaison de GPS et BCPNN fondés sur la règle de classement proposée (Pr(H 0 )) pour les différentes quantités caractéristiques estimées : le FDR, le FNR, la sensibilité et la spécificité. En ce qui concerne BPCNN, la distribution de IC ij a été obtenue pour chacune des cellules considérées au moyen de simulations par Monte Carlo. Les figures 4.9 à 4.12 montrent que les performances des deux modèles sont identiques quels que soient la caractéristique étudiée et le seuil RR 0 (courbes noires). En revanche les estimations sont très différentes. D une manière générale, pour des valeurs de RR 0 3, les estimations obtenues avec le modèle GPS (courbes ) sont meilleures que celles obtenues avec le modèle BCPNN (courbes ). En particulier, les figures 4.9a, b, c montrent que le FDR est sous-estimé de manière importante avec le modèle BCPNN. Pour RR 0 = 4, le modèle BCPNN fournit de meilleures estimations que le modèle GPS pour le FDR (figure 4.9d) et pour la spécificité (figure 4.12d). Pour RR 0 = 5, les estimations obtenues avec le modèle BCPNN sont globalement plus satisfaisantes que celles obtenues avec le modèle GPS. En effet, ce dernier sous-estime de manière importante le FDR et surestime la spécificité. 4.4 Comparaison de l ensemble des méthodes à partir du modèle de simulations proposé Plusieurs points sont à souligner pour conclure sur les résultats de cette étude par simulations. En ce qui concerne les méthodes fréquentistes, les limites de la méthode ROR apparaissent clairement et la restriction à des cellules avec au moins trois notifications ne semble pas suffisante lorsque l objectif est d estimer le FDR. La méthode

68 4.4 Comparaison à partir du modèle de simulations proposé RR 0 = 1 Nombre moyen de signaux générés (a) RR 0 = 2 Nombre moyen de signaux générés (b) RR 0 = 3 Nombre moyen de signaux générés (c) RR 0 = 4 Nombre moyen de signaux générés (d) RR 0 = 5 Nombre moyen de signaux générés (e) Fig. 4.9: Comparaison selon le FDR et son estimation de BCPNN et GPS basés sur Pr(H 0 ). Le FDR (courbes noires) et le FDR moyen (courbes violette pour GPS et vertes pour BCPNN) sont représentés en fonction du nombre moyen de signaux générés pour RR 0 = 1, 2, 3, 4 et 5. Les symboles et représentent respectivement les résultats obtenus avec BCPNN et GPS.

69 4.4 Comparaison à partir du modèle de simulations proposé RR 0 = 1 Nombre moyen de signaux générés (a) RR 0 = 2 Nombre moyen de signaux générés (b) RR 0 = 3 Nombre moyen de signaux générés (c) RR 0 = 4 Nombre moyen de signaux générés (d) RR 0 = 5 Nombre moyen de signaux générés (e) Fig. 4.10: Comparaison selon le FNR et son estimation de BCPNN et GPS basés sur Pr(H 0 ). Le FNR (courbes noires) et le FNR moyen (courbes violette pour GPS et vertes pour BCPNN) sont représentés en fonction du nombre moyen de signaux générés pour RR 0 = 1, 2, 3, 4 et 5. Les symboles et représentent respectivement les résultats obtenus avec BCPNN et GPS.

70 4.4 Comparaison à partir du modèle de simulations proposé RR 0 = 1 Nombre moyen de signaux générés (a) RR 0 = 2 Nombre moyen de signaux générés (b) RR 0 = 3 Nombre moyen de signaux générés (c) RR 0 = 4 Nombre moyen de signaux générés (d) RR 0 = 5 Nombre moyen de signaux générés (e) Fig. 4.11: Comparaison selon la sensibilité et son estimation de BCPNN et GPS basés sur Pr(H 0 ). La sensibilité (courbes noires) et la moyenne de son estimation (courbes violette pour GPS et vertes pour BCPNN) sont représentées en fonction du nombre moyen de signaux générés pour RR 0 = 1, 2, 3, 4 et 5. Les symboles et représentent respectivement les résultats obtenus avec BCPNN et GPS.

71 4.4 Comparaison à partir du modèle de simulations proposé RR 0 = 1 Nombre moyen de signaux générés (a) RR 0 = 2 Nombre moyen de signaux générés (b) RR 0 = 3 Nombre moyen de signaux générés (c) RR 0 = 4 Nombre moyen de signaux générés (d) RR 0 = 5 Nombre moyen de signaux générés (e) Fig. 4.12: Comparaison selon la spécificité et son estimation de BCPNN et GPS basés sur Pr(H 0 ). La spécificité (courbes noires) et la moyenne de son estimation (courbes violette pour GPS et vertes pour BCPNN) sont représentées en fonction du nombre moyen de signaux générés pour RR 0 = 1, 2, 3, 4 et 5. Les symboles et représentent respectivement les résultats obtenus avec BCPNN et GPS.

72 4.4 Comparaison à partir du modèle de simulations proposé 62 midrfet conduit à de meilleures estimations du FDR en accord avec la stratégie de contrôle induite par les procédures comme LBE ou Qvalue. Dans le cas des méthodes bayésiennes, cette étude par simulation montre que la qualité de l estimation des caractéristiques d intérêt dépend fortement de l hypothèse testée. Elle révèle aussi que la règle de classement Pr(H 0 ) est meilleure que celles proposées jusqu alors pour le modèle GPS du point de vue du FDR. Il est vrai cependant que les différences semblent marginales entre Q 0.05 (λ ) et Pr(H 0) pour des valeurs de FDR inférieures à 1 ou 2%. La figure 4.13 illustre les résultats de la comparaison du FDR des différentes méthodes pour des cellules associées à au moins trois notifications. Elle montre que les performances des méthodes bayésiennes (courbes en tirets longs violets pour GPS et en tirets-points verts pour BCPNN) sont très légèrement supérieures à celles observées pour les méthodes RFET (courbes en tirets courts rouges) et midrfet (courbes pleines bleues). On voit aussi que les performances de la méthode ROR (courbes en pointillés noirs) sont moins bonnes que celles des autres méthodes et que cette différence semble s accroître lorsque le risque testé augmente. La figure 4.14 permet de comparer les estimations obtenues avec midrfet, BCPNN et GPS basé sur Pr(H 0 ). Les méthodes RFET et ROR ne sont pas représentées dans la mesure où leur estimation du FDR est moins satisfaisante que celle obtenue avec midrfet (cf figures 4.4 et 4.5). Cette figure illustre le fait que s il est vrai que la méthodologie employée pour l estimation du FDR dans le cas des méthodes fréquentistes permet de s assurer du contrôle de ce dernier, la surestimation occasionnée est très importante en comparaison de celle observée pour les méthodes bayésiennes.

73 4.4 Comparaison à partir du modèle de simulations proposé 63 ψ 0 = 1, RR 0 = midrfet RFET ROR BCPNN GPS Nombre moyen de signaux générés (a) ψ 0 = 2, RR 0 = Nombre moyen de signaux générés (b) ψ 0 = 5, RR 0 = Nombre moyen de signaux générés (c) Fig. 4.13: Comparaison du FDR obtenu avec midrfet, ROR, BCPNN et GPS basé sur Pr(H 0 ). Le FDR est calculé pour des cellules avec n ij 3.

74 4.4 Comparaison à partir du modèle de simulations proposé 64 ψ 0 = 1, RR 0 = midfet GPS BCPNN Nombre moyen de signaux générés (a) ψ 0 = 2, RR 0 = Nombre moyen de signaux générés (b) ψ 0 = 5, RR 0 = Nombre moyen de signaux générés (c) Fig. 4.14: Comparaison du FDR et de son estimation pour midrfet, BCPNN et GPS basé sur Pr(H 0 ). Le FDR est représenté par les courbes en gras. Le FDR et son estimation sont calculés pour des cellules avec n ij 3.

75 4.5 Comparaison à partir du modèle de simulations de Roux et al Comparaison à partir du modèle de simulations derouxetal. Il est difficile de comparer les conclusions du travail de Roux et al. (2005) aux nôtres dans la mesure où le plan de simulation ainsi que les méthodes évaluées diffèrent de manière importante. Nous avons donc choisi d évaluer l approche proposée à partir de 500 jeux de données simulés sous le modèle de Roux et al. (2003) brièvement décrit en introduction de ce chapitre. Les méthodes retenues pour cette étude sont ROR, midrfet, BCPNN et GPS basé sur Pr(H 0). Le FDR et son estimation ont été calculés en considérant les cellules avec au moins trois notifications. Sur ces 500 jeux de données, les nombres moyens de cellules avec au moins une et au moins trois notifications sont respectivement égaux à (70.0%) et (48.8%) pour un total de cellules. Compte tenu du modèle de simulation, les méthodes n ont été évaluées que sur la base d associations d intérêt définies par RR 0 = 1 pour les méthodes bayésiennes et ψ 0 = 1 pour les méthodes fréquentistes. La figure 4.15a montre les courbes de FDR obtenues pour l ensemble des méthodes évaluées. L allure des courbes conduit aux mêmes conclusions sur les performances des méthodes du point de vue du FDR que celles énoncées dans le cas de notre modèle de simulations. Au niveau des estimations du FDR représentées en couleurs sur la figure 4.15b, les tendances semblent, là encore, être relativement proches de celles obtenues avec notre modèle de simulation excepté pour GPS (courbe en tirets violets) pour qui FDR conduit à une surestimation assez importante du FDR. Ce comportement reste néanmoins compatible avec une stratégie de contrôle de ce critère, à la différence de la sous-estimation qui se retrouve ici confirmée pour ROR. Plus généralement, les estimations obtenues dans cette étude par simulations sont moins satisfaisantes que dans l étude précédente ce qui pourrait s expliquer par le fait

76 4.5 Comparaison à partir du modèle de simulations de Roux et al. 66 ψ 0 = 1, RR 0 = midrfet ROR BCPNN GPS Nombre moyen de signaux générés (a) ψ 0 = 1, RR 0 = Nombre moyen de signaux générés (b) Fig. 4.15: Comparaison du FDR et de son estimation pour ROR, midrfet, BCPNN et GPS basé Pr(H 0 ) à partir du plan de simulation de Roux et al. (2003). La figure a présente le FDR pour chacune des méthodes. Dans la figure b, le FDR apparait en grisé tandis que les estimations sont représentées en couleur et en gras. Le FDR et son estimation sont calculés pour des cellules avec n ij 3.

77 4.6 Conclusion des simulations 67 que la définition d une véritable association diffère entre les deux études par simulations. En effet, dans l approche proposée par Roux et al., la nature des associations est définie préalablement à travers un risque lié à l exposition au médicament en population générale. Ce risque correspond bien à celui dont on aimerait disposer en réalité. Cependant, il ne correspond pas directement à celui évalué par les méthodes de détection automatiques qui sont appliquées sur des notifications restructurées en table de contingence. 4.6 Conclusion des simulations Au terme de ces études par simulations, GPS semble être le modèle le plus intéressant dans la mesure où les estimations du FDR obtenues à partir de la règle de classement proposée sont les plus satisfaisantes pour des RR 0 3 qui sont vraisemblablement les valeurs d intérêt majeur. Il présente aussi l avantage par rapport au modèle BCPNN d être beaucoup moins lourd d un point de vue computationnel pour la détermination de la distribution a posteriori de l hypothèse nulle puisque cette dernière a une forme analytique. Finalement, le cadre utilisé pour la prise en compte des comparaisons multiples permet aussi d estimer d autres quantités d intérêt que sont le FNR, la sensibilité et la spécificité.

78 Chapitre 5 Application aux données françaises de pharmacovigilance La première partie de cette application s inscrit dans le prolongement direct de l étude par simulation. L approche proposée est utilisée sur les données françaises de pharmacovigilance collectées entre 1984 et 2003 dont les caractéristiques ont été utilisées pour la génération des jeux de données de simulations. Néanmoins, l application de méthodes de détection automatique sur une base figée ne peut, en réalité, constituer qu une première étape. Le véritable objectif est bien d utiliser régulièrement ces outils sur une base de pharmacovigilance constamment alimentée par des notifications spontanées. Aussi, la deuxième partie de ce chapitre est consacrée à l étude de l application de ces méthodes en utilisation séquentielle à travers une analyse rétrospective ainsi qu à leur évaluation au regard de leur capacité de détection de cas d alertes réels. 68

79 5.1 Comparaison des méthodes sur les données de Comparaison des méthodes sur les données françaises de Les données Les données utilisées pour cette application correspondent aux notifications spontanées collectées par le système de pharmacovigilance français entre 1984 et Ces données initialement fournies par l Afssaps ont été recodées par Frantz Thiessard au cours de son travail de thèse selon la classification ATC (Anatomical Therapeutical Clinical, Miller et Britt, 1995) pour les médicaments et selon la classification MeDRA (Medical Dictionary for Regulatory Activities, Brown et al., 1999) pour les événements indésirables (Thiessard, 2004). La classification ATC est arborescente et présente 5 niveaux de précision allant du groupe anatomique (code à une lettre dénommé ATC1) à la dénomination commune internationale (code à 7 caractères ATC7). Nous avons travaillé à partir des médicaments codés en ATC5, ce qui correspond au premier niveau de regroupement de la classification ATC. La classification MedDRA présente 5 niveaux de précision (System Organ Class (SOC), High-Level Group Terms (HLGT), High-Level Terms (HLT), Preferred Terms (PT) et Lower-Level Terms (LLT)). Nous avons choisi de travailler à partir de la classification de précision moyenne HLT. Avec ce codage utilisé, les données collectées entre 1984 et 2003 impliquent 672 classes de médicaments et 820 classes d événements indésirables. Le nombre de cellules de la table de contingence ainsi constituée est donc égal à dont (17.6%) sont des cellules non vides et (8.6%) ont des n ij 3. Les résultats présentés dans la suite ont été obtenus en considérant que les signaux potentiels devaient être impliqués dans au moins trois notifications.

80 5.1 Comparaison des méthodes sur les données de Estimation des quantités caractéristiques La figure 5.1 présente les résultats de l estimation du FDR par ROR, midrfet, BCPNN et GPS basé sur Pr(H 0 ). Pour BCPNN, les estimations des distributions de IC ij ont été obtenues à l aide de simulations par Monte Carlo. Dans le cas {ψ 0 = 1, RR 0 = 1}, les résultats sont similaires à ceux obtenus par simulations (cf figure 4.14a, page 64). Pour {ψ 0 = 2, RR 0 = 2} et {ψ 0 = 3, RR 0 = 3} (dans le cas des méthodes bayésiennes), on voit apparaitre de légères différences. Par exemple, pour {ψ 0 = 2, RR 0 = 2}, les estimations obtenues avec GPS et midrfet sont plus proches que celles observées dans les simulations (cf figure 4.14b, page 64). Il faut bien évidemment rappeler que les résultats de l étude par simulations présentaient des estimations moyennes. Pour les cas {ψ 0 = 4, RR 0 = 4} et {ψ 0 = 5, RR 0 = 5}, les différences semblent s accentuer entre les résultats obtenus par simulation et ceux de l application. En particulier, pour RR 0 = 5, on observe que l estimation du FDR obtenue avec BCPNN est supérieure à celle de midrfet. Au regard de ces résultats, se manifeste l intérêt d avoir préalablement étudié par simulation le comportement des différentes approches selon un modèle de simulation proche des données réelles. Pour RR 0 3, les similitudes observées entre les résultats de l étude par simulations et ceux de cette application nous rendent confiants quant aux estimations obtenues avec GPS. Le tableau 5.1 présente les estimations des quantités caractéristiques obtenues avec GPS pour différentes valeurs de Pr(H 0 ). Il y figure, en particulier, le cas où l approche proposée et la règle de décision de Szarfman et al. (2002) (Q 0.05 (λ ) 2) sont formellement identiques et conduisent donc à la même liste de signaux.

81 5.1 Comparaison des méthodes sur les données de ψ 0 = 1, RR 0 = 1 ψ 0 = 2, RR 0 = midrfet ROR BCPNN GPS Nombre de signaux générés (a) ψ 0 = 3, RR 0 = Nombre de signaux générés (b) ψ 0 = 4, RR 0 = Nombre de signaux générés (c) Nombre de signaux générés (d) ψ 0 = 5, RR 0 = Nombre de signaux générés (e) Fig. 5.1: Comparaison des estimations du FDR sur la base de pharmacovigilance française.

82 5.1 Comparaison des méthodes sur les données de α Signaux FDR FNR Se Sp RR 0 = RR 0 = RR 0 = Tab. 5.1: Estimation des quantités caractéristiques avec GPS et Pr(H 0 ) sur les données de pharmacovigilance française. Le tableau présente pour différents seuils α sur Pr(H 0) et différentes valeurs RR 0 le nombre de signaux générés ainsi que les estimations de FDR, FNR, Se et Sp. La ligne en gras correspond au cas où l approche proposée et la règle de décision de Szarfman et al. (2002) (Q 0.05 (λ ) 2) sont formellement identiques.

83 5.1 Comparaison des méthodes sur les données de Comparaison des signaux générés Au vu des résultats des simulations montrant des performances très proches entre les méthodes proposées du point de vue du FDR (cf figure 4.13, page 63), se pose la question de la proportion de signaux partagés. La figure 5.2 présente pour ROR, midrfet, BCPNN et GPS basé sur Pr(H 0), l évolution de la proportion de signaux communs entre les méthodes prises deux à deux, ou plus, en fonction du nombre de signaux générés. Concernant BCPNN, cette figure laisse entrevoir que ce pourcentage est très faible lorsque le nombre de signaux générés est faible au regard de l hypothèse testée. La principale raison de ce résultat est que le nombre de simulations par Monte Carlo réalisé ( ) ne permet pas d avoir une précision suffisamment grande pour le calcul de Pr(H 0 ). Il en résulte qu un grand nombre de cellules ont des probabilités a posteriori de l hypothèse nulle identiques, et de manière plus problématique égales à 0. Par exemple, dans le cas de RR 0 = 1, ce dernier est égal à En dehors de ces problèmes numériques, les méthodes partagent au moins 80% de signaux quelle que soit l hypothèse testée et ce pourcentage tend à augmenter lorsque le nombre de signaux générés augmente (courbes en pointillés rouges). Les principales différences sont observées entre les méthodes bayésiennes et ROR et plus particulièrement entre BCPNN et ROR lorsque RR 0 3 (courbes en tirets). Pour de faibles nombres de signaux générés au regard de l hypothèse testée, ce sont GPS et midrfet qui partagent le plus de signaux. Lorsque le nombre de signaux générés augmente, la proportion de signaux communs entre ROR et midrfet tend vers 1. La figure 5.3 illustre le même type de résultats mais en fonction du FDR estimé avec GPS pour {ψ 0 = 1, RR 0 = 1}. Cette figure met l accent sur les différences entre les méthodes pour des nombres relativement importants de signaux générés. En effet, d après le tableau 5.1, un FDR estimé proche de 1% (0.008) conduit à la génération de signaux avec le modèle GPS basé sur Pr(H 0 ). De la même manière, un FDR

84 5.1 Comparaison des méthodes sur les données de ψ 0 = 1, RR 0 = 1 ψ 0 = 2, RR 0 = GPS BCPNN GPS midrfet GPS ROR BCPNN midrfet BCPNN ROR midrfet ROR GPS ROR midrfet GPS BCPNN ROR midrfet Nombre de signaux générés (a) ψ 0 = 3, RR 0 = Nombre de signaux générés (b) ψ 0 = 4, RR 0 = Nombre de signaux générés (c) Nombre de signaux générés (d) ψ 0 = 5, RR 0 = Nombre de signaux générés (e) Fig. 5.2: Proportion de signaux communs entre les méthodes proposées en fonction du nombre de signaux générés. L évolution de cette proportion est illustrée pour différents {ψ 0, RR 0 }.

85 5.1 Comparaison des méthodes sur les données de ψ 0 = 1, RR 0 = GPS BCPNN GPS midrfet GPS ROR BCPNN midrfet BCPNN ROR midrfet ROR GPS ROR midrfet GPS BCPNN ROR midrfet FDR estimé par GPS Fig. 5.3: Proportion de signaux communs entre les méthodes proposées pour {ψ 0 = 1, RR 0 = 1} en fonction du FDR estimé par GPS basé sur Pr(H 0). estimé proche de 5% (0.048) conduit à la génération de signaux. Les figures correspondant à l ensemble des hypothèses testées sont fournies en annexe (figure B.1). Enfin, dans le cas de GPS, la proportion de signaux communs entre les trois règles de classement a aussi été étudiée et est illustrée par la figure 5.4 dans le cas RR 0 = 1. Elle montre d importantes différences lorsque le nombre de signaux est faible (figure 5.4a). Pour E(λ ) et Pr(H 0), la proportion de signaux communs ne cesse d augmenter. Ce résultat est en accord avec les résultats des simulations qui montrent que le FDR des deux méthodes tend à devenir très proche lorsque le nombre de signaux générés augmente (cf figure 4.7a, page 55). Concernant Q 0.05 (λ ) et Pr(H 0 ), on constate que passé un certain seuil, la proportion de signaux communs diminue (figure 5.4b). Là encore, ce résultat est en accord avec celui observé par simulation dans la mesure où

86 5.1 Comparaison des méthodes sur les données de ψ 0 = 1, RR 0 = Pr(H 0 ) Q 0.05 (λ) Pr(H 0 ) E(λ) Nombre de signaux générés (a) ψ 0 = 1, RR 0 = FDR estimé par GPS (b) Fig. 5.4: Proportion de signaux communs entre E(λ ) et Pr(H 0 ) d une part, et entre Q 0.05 (λ ) et Pr(H 0 ) d autre part, pour GPS et RR 0 = 1 en fonction du nombre de signaux générés (figure a) et du FDR estimé par GPS basé sur Pr(H 0) (figure b).

87 5.2 Évaluation séquentielle à partir de cas d alertes réels 77 les différences entre les deux règles de classement se manifestent lorsque le nombre de signaux augmente (cf figure 4.7b). 5.2 Évaluation séquentielle à partir de cas d alertes réels L ensemble du travail présenté jusqu à présent à été appliqué sur une base de données figée dans le temps. Il est bien évident qu en pratique, les méthodes de détection automatique sont destinées à être appliquées régulièrement sur des données alimentées constamment. Cette partie est donc consacrée à l étude de l utilisation séquentielle des différentes méthodes. Ne disposant que des données de la période , cette étude séquentielle a donc été réalisée de manière rétrospective. De plus, ce travail s est aussi attaché à l évaluation des différentes méthodes du point de vue de la détection de cas d alertes réels dans la continuité du travail réalisé par Thiessard (2004). En reprenant l ensemble des comptes rendus des réunions du comité technique de pharmacovigilance sur la période juin 2002, Frantz Thiessard a établi une liste de 429 alertes (en utilisant les dictionnaires ATC5-HLT). Ces alertes correspondent à des enquêtes lancées par l Afssaps ce qui ne signifie pas pour autant qu elles aient abouties à la mise en évidence de véritables associations. Dans cette étude, nous considérons que ces alertes constituent des signaux de référence à partir desquels les capacités de détection des méthodes sont évaluées et comparées. Cette définition de signaux de référence n est néanmoins pas exempte de défaut dans la mesure où elle postule que les méthodes de détection automatique doivent au moins détecter les alertes mises en évidence par les experts. Or les pharmacologues ne se fondent pas uniquement sur les informations recueillies à partir des notifications spontanées. Par exemple, certaines alertes sont identifiées à partir d alertes européennes ou, plus rarement, d études récemment publiées. Ainsi nous verrons qu un certain nombre de ces signaux de référence n est même associé

88 5.2 Évaluation séquentielle à partir de cas d alertes réels 78 à aucune notification spontanée. Cette limite tend à pénaliser les performances des méthodes de détection automatique. En revanche, elle n est pas problématique dans le cas de leur comparaison Plan d analyse Pour cette étude, les données utilisées correspondent aux cas notifiés entre le 1 er janvier 1995 et le 30 juin Cette décision a été prise pour éviter des problèmes de codage rencontrés lors du transfert de la base de pharmacovigilance des Hospices Civils de Lyon à l Agence du Médicament (actuellement Afssaps) entre 1994 et L analyse séquentielle a donc été réalisée à partir du 1 er janvier 1996, de manière à avoir un recul de un an pour la première analyse. Elle a été réalisée tous les mois jusqu au 1 er juillet 2002 compris. La figure 5.5 présente l évolution du nombre de couples médicament-événements présentant au moins une et au moins trois notifications dans la base française créée à partir de janvier des 429 signaux de référence sélectionnés par Frantz Thiessard ont été initialement retenus car ils couvraient la période d analyse séquentielle. 53 d entre eux ont été retirés de l analyse dans la mesure où aucune notification n avaient été enregistrée au 1 er juillet autres ont été éliminés de l analyse car les codes ATC étaient trop peu précis pour être interprétables. Il y avait notamment des codes appartenant aux catégories V03 et V07 respectivement intitulées all other therapeutic products et all other non-therapeutic products. Finalement, le nombre de signaux de référence utilisés pour cette analyse est égal à 309 dont 262 sont associés à au moins trois notifications au 1 er juillet Les 47 signaux de référence avec moins de trois notifications au terme de l analyse sont listés dans le tableau B.1 présenté en annexe. De plus, une des particularités du système de pharmacovigilance français, est que les pharmacovigilants affectent un score d imputabilité aux notifications spontanées

89 5.2 Évaluation séquentielle à partir de cas d alertes réels n ij 1 n ij Fig. 5.5: Évolution au cours du temps du nombre de couples médicamentévénements présentant au moins une et au moins trois notifications dans la base française créée au 1 er janvier attestant de leur plausibilité ainsi que de l état des connaissances bibliographiques (Bégaud et al., 1985). Nous avons donc considéré que des couples pour lesquels les scores d imputabilité attestaient d une connaissance bibliographique (codée B3 ) dans au moins 80% des cas notifiés au cours de l année 1995 correspondaient à des signaux déjà analysés. Ainsi, au 1 er janvier 1996, 950 couples sont considérés comme connus et donc détectés par les méthodes, parmi lesquels figurent 25 signaux de référence Premier scénario: Mise en place d un système de détection automatique Dans ce scénario, nous avons évalué les méthodes dans le cas de la mise en place d un système de détection automatique. En concertation avec le groupe collaboratif

90 5.2 Évaluation séquentielle à partir de cas d alertes réels 80 de ce projet 1, nous avons convenu qu une analyse mensuelle de 100 signaux par l ensemble des pharmacologues des 31 CRPV était un scénario réaliste. Ainsi, pour chacune des méthodes évaluées, 79 analyses mensuelles ont été réalisées portant ainsi le nombre de signaux analysés au 1 er juillet 2002 à ( ). Comparaison des méthodes de détection automatique Dans un premier temps, la comparaison a porté sur le modèle GPS basé sur Pr(H 0 ) et Q 0.05 (λ ), midrfet et ROR. Les degrés de signification et Pr(H 0 ) ont été calculés à partir de {ψ 0 = 1, RR 0 = 1}. Nous avons aussi considéré qu un prérequis de trois notifications spontanées était nécessaire à la génération d un signal, ce choix ayant pour conséquence d éliminer toute détection potentielle des 47 signaux de référence ayant moins de trois notifications au terme de la période d analyse. Le tableau 5.2 présente le nombre de signaux détectés au 1 er juillet Elle montre que c est le modèle GPS qui permet de détecter le plus nombre de signaux de référence à savoir 180, soit 58.3% des 309 signaux de référence et 68.7% des signaux de référence associés à au moins trois notifications au terme de l analyse. On remarque aussi que les signaux détectés par les méthodes diffèrent légèrement et que midrfet inclut l ensemble des signaux de référence détectés par ROR. Le nombre de signaux de référence commun à l ensemble des méthodes est égal à 164. L évaluation des règles de classement fondées sur {ψ 0 = 2, RR 0 = 2} a aussi été effectuée avec midrfet et GPS basé sur Pr(H 0 ). Elle conduit à un nombre de signaux de référence détectés bien inférieur à celui observé pour {ψ 0 = 1, RR 0 = 1} : respectivement 138 et 146 pour midrfet et GPS. Par ailleurs, pour ces deux méthodes (basées sur {ψ 0 = 1, RR 0 = 1}) nous avons aussi conduit l analyse séquentielle 1 C. Kreft-Jaïs, P. Auriche, I. Bidault (Afssaps), F. Thiessard (Inserm-Bordeaux 2 U. 897/LE- SIM), B. Bégaud, A. Fourrier-Réglat, F. Haramburu, G. Miremont-Salamé (Inserm-Bordeaux 2 U. 657/ Centre de Pharmacovigilance)

91 5.2 Évaluation séquentielle à partir de cas d alertes réels 81 GPS Pr(H 0 ) GPS Q 0.05(λ ) midrfet ROR GPS Pr(H 0) GPS Q 0.05 (λ ) midrfet ROR Tab. 5.2: Nombre de signaux de référence détectés par GPS basé sur Pr(H 0) et Q 0.05 (λ ), midrfet et ROR - Scénario 1. en considérant l ensemble des couples avec au moins une notification. Les résultats illustrés dans le tableau 5.3 montrent que 181 signaux de référence sont détectés avec GPS, soit un couple de plus que précédemment. En revanche, pour midrfet, ce nombre devient inférieur à celui observé précédemment (166 contre 174). GPS Pr(H 0 ) GPS Pr(H 0 ) midrfet midrfet n ij 3 n ij 1 n ij 3 n ij 1 GPS Pr(H 0 ) n ij GPS Pr(H 0 ) n ij midrfet n ij midrfet n ij Tab. 5.3: Comparaison des signaux de référence détectés dans les cas n ij 3 et n ij 1 pour GPS basé sur Pr(H 0) et pour midrfet - Scénario 1. Nous comparons maintenant les méthodes du point de vue des délais de détection des signaux de référence. Ces délais sont calculés comme la différence entre la date de détection des signaux de référence et la date de leur première notification. Dans le cas où le signal de référence est déjà présent au début de l analyse, c est la date du 1 er janvier 1996 qui est retenue. En cas de non détection, le délai de détection est considéré comme censuré au 1 er juillet La première analyse porte sur la comparaison des délais de détection des 309 signaux de référence. Pour ce faire, nous avons utilisé le test non paramétrique de Friedman (Friedman, 1937). En cas d égalité

92 5.2 Évaluation séquentielle à partir de cas d alertes réels 82 des délais de détection (notamment en cas de censure), le rang utilisé correspond au rang moyen. Le tableau 5.4 présente les résultats de la comparaison des rangs moyens des délais de détection des 309 signaux de référence. Il montre que le modèle GPS avec la règle de classement proposée présente le meilleur rang moyen de détection. La comparaison des rangs de ces quatre méthodes à l aide du test de Friedman conduit à rejeter l hypothèse d égalité des délais de détection (p = ). GPS Pr(H 0 ) GPS Q 0.05(λ ) midrfet ROR Tab. 5.4: Rangs moyens dans le délai de détection des 309 signaux de référence pour GPS basé sur Pr(H 0 ) et Q 0.05(λ ), midrfet et ROR - Scénario 1. Le test de rang de Friedman ne permettant pas de différencier les délais censurés des autres délais, nous avons réalisé la même analyse sur les 164 signaux de référence détectés par l ensemble des méthodes de détection automatique. Le tableau 5.5 montre que l ordre des rangs moyens de détection reste inchangé. Le test de Friedman demeure également très en faveur du rejet de l hypothèse d égalité des rangs avec un degré de signification égal à GPS Pr(H 0) GPS Q 0.05 (λ ) midrfet ROR Tab. 5.5: Rangs moyens dans le délai de détection des 164 signaux de référence pour GPS basé sur Pr(H 0) et Q 0.05 (λ ), midrfet et ROR - Scénario 1. La comparaison des deux règles de classement pour le modèle GPS sur l ensemble des 309 signaux de référence montre que le rang moyen de détection avec Pr(H 0 ) est inférieur à celui de GPS Q 0.05 (λ ) (1.46 contre 1.54) et le degré de signification du test de Friedman est égal à

93 5.2 Évaluation séquentielle à partir de cas d alertes réels 83 Cette analyse concernant la comparaison des délais de détection des 4 méthodes étudiées est donc en faveur de l utilisation du modèle GPS avec la règle de classement proposée. Comparaison des délais de détection entre GPS et les alertes en comité technique de pharmacovigilance La deuxième partie de cette analyse concerne l étude du délai entre la date de détection des signaux de référence par le modèle GPS avec Pr(H 0 ) et la date d alerte en comité technique. Un délai négatif traduit une détection plus précoce du signal de référence avec le modèle GPS. La figure 5.6 montre l histogramme des 180 délais observés pour les signaux de référence détectés et illustre leur très large amplitude. Les délais moyen et médian sont respectivement égaux à 190 et 49 jours Délais en jours Fig. 5.6: Histogramme des 180 délais observés entre la date de détection par le modèle GPS basé sur Pr(H 0) et la date d alerte en comité technique - Scénario 1.

94 5.2 Évaluation séquentielle à partir de cas d alertes réels 84 A travers ce scénario, nous avons montré que les méthodes de détection automatique permettent de détecter une proportion importante des signaux de référence malgré les limites évoquées en introduction de cette partie. Cette analyse fondée sur un nombre identique de signaux analysés chaque mois nous a aussi permis de comparer de manière équitable les différentes méthodes et règles de classement étudiées. Il en ressort que le modèle GPS en association avec Pr(H 0) permet de détecter le plus de signaux de référence dans le délai le plus court. Cette étude montre aussi que les méthodes de détection ne deviennent réellement efficaces que pour des associations impliquant au moins trois notifications. Cela ne signifie pas pour autant qu il faut restreindre l analyse aux cellules avec au moins trois notifications. En effet, si l on prend l exemple du modèle GPS, nous avons vu que le nombre de signaux de référence détectés à partir des cellules non vides était même supérieur à celui observé pour des cellules avec n ij 3. Néanmoins, il faut être conscient que la capacité du modèle GPS pour la détection de telles associations semble limitée. Dans la suite nous avons reconduit l analyse séquentielle avec pour objectif d évaluer les capacités de détection de GPS en association avec le FDR Deuxième scénario: Utilisation en routine de GPS Dans cette analyse le modèle GPS basé sur la règle de classement Pr(H 0 ) est utilisé sur données restreintes aux couples avec au moins trois notifications. Pour chacune des 79 analyses réalisées, le seuil de détection pour Pr(H 0) est choisi en fonction d une valeur estimée de FDR égale à 5%. La figure 5.7 montre le nombre de nouveaux signaux analysés chaque mois. Au 1 er janvier 1996, l utilisation du FDR à 5% ainsi que des scores bibliographiques conduit à la génération de 2424 signaux parmi lesquels figurent 74 signaux de référence. Dans l idée d une utilisation en routine, ces 2 424

95 5.2 Évaluation séquentielle à partir de cas d alertes réels 85 signaux ont déjà été analysés au cours des mois précédents et l on s intéresse surtout aux signaux générés à partir de janvier La figure 5.7 montre que le nombre de nouveaux signaux varie entre 89 et 273 et tend à diminuer au cours du temps. Au 1 er juillet 2002, le nombre de signaux analysés est égal à Fig. 5.7: Évolution du nombre de nouveaux signaux générés à partir du modèle GPS basé sur Pr(H 0 ) et d un seuil de 5% pour le FDR - Scénario 2. La figure 5.8 montre l évolution du seuil de détection sur la statistique Pr(H 0) pour obtenir un FDR estimé de 5%. Si l on suppose que la qualité de l estimation de ce dernier ne varie pas au cours du temps, alors on voit que le seuil sur Pr(H 0 ) augmente avec le temps ce qui est un argument supplémentaire en faveur de l utilisation de FDR comme règle de décision. Au 1 er juillet 2002, 216 signaux de référence sont détectés, soit 69.9% des 309 signaux de référence et 82.4% des 262 signaux de référence avec au moins trois notifications. Les signaux de référence détectés incluent la totalité de ceux détectés

96 5.2 Évaluation séquentielle à partir de cas d alertes réels Fig. 5.8: Évolution du seuil sur Pr(H 0 ) pour FDR = 5% lors de l utilisation de GPS - Scénario 2. dans le scénario précédent (y compris ceux des autres méthodes). Les tableaux B.2 et B.3 présentés en annexe listent les 216 signaux de référence détectés par le modèle GPS dans ce scénario et les 46 signaux de référence non détectés mais avec plus de trois notifications au 1 er juillet Dans ce dernier tableau, les 12 signaux de référence pour lesquels le risque observé (RR ij /e ij ) ne dépasse jamais 1 tout au long de l analyse sont aussi indiqués. La figure 5.9 présente l histogramme des délais entre la date de détection par le modèle GPS avec Pr(H 0 ) et la date d alerte en comité technique pour les 216 signaux de référence. Parmi ces derniers, 148 sont détectés avant la date d alerte en comité technique. Les délais médian et moyen sont respectivement égaux à 234 et 384 jours. Le tableau 5.6 illustre ce type de résultats en fonction du nombre de notifications associées aux signaux de référence au 1 er juillet Il montre que

97 5.2 Évaluation séquentielle à partir de cas d alertes réels 87 les performances en termes de rapidité et de pourcentage de signaux de référence détectés augmente lorsque l on s intéresse à signaux de référence très notifiés Délais en jours Fig. 5.9: Histogramme des 216 délais observés entre la date de détection par le modèle GPS basé sur Pr(H 0 ) et FDR = 5% et la date d alerte en comité technique - Scénario 2. Ce scénario conduit à analyser un plus grand nombre de signaux que dans le scénario un ( contre 8 850). Nous avons donc simulé une analyse fondée sur un seuil plus restrictif pour le FDR, à savoir à 1%. La figure 5.10 présente (de la même manière que la figure 5.7) le nombre de signaux analysés chaque mois. On peut voir qu en dehors de la première étape nécessitant l analyse de signaux (1 620 signaux générés 367 signaux connus du point de vue des scores bibliographiques), le nombre de signaux varie entre 57 et 152. Au terme de cette analyse, le nombre de signaux analysés est égal à 8454, en comptant les 950 couples connus du point de vue des scores bibliographiques, ce qui est moins que le nombre de signaux analysés au cours du scénario 1. Néanmoins, les résultats obtenus sont meilleurs dans la mesure où

98 5.2 Évaluation séquentielle à partir de cas d alertes réels 88 Nb de Nb de Nb de signaux % de signaux délai délai notifications signaux de de référence de référence moyen médian au 1 er juil. 02 référence détectés détectés % % % % % % Tab. 5.6: Capacité de détection du modèle GPS basé sur Pr(H 0) et FDR = 5% en fonction du nombre de notifications associé aux signaux de référence au 1 er juillet Scénario Fig. 5.10: Évolution du nombre de nouveaux signaux générés à partir du modèle GPS basé sur Pr(H 0 ) et FDR = 1% - Scénario 2.

99 5.2 Évaluation séquentielle à partir de cas d alertes réels signaux de référence sont détectés contre 180 précédemment. De plus, les délais entre la date de détection et la date d alerte en comité technique de pharmacovigilance sont en moyenne et en médiane respectivement égaux à 356 et 155 ce qui traduit une meilleure anticipation que dans le scénario 1. Évidemment, dans ce scénario, il est tout de même nécessaire d évaluer un grand nombre de signaux lors de la première analyse et il n est pas évident que suffisamment de ressources humaines soit mobilisables pour cette première étape. Il n en reste pas moins que si l on souhaite mettre en place un système de détection qui soit réactif par rapport aux alertes d actualité, il semble nécessaire de faire cette analyse préliminaire qui vise à réaliser d une certaine manière l état des lieux du système.

100 Chapitre 6 Conclusion De par la nature des données traitées, les méthodes de détection automatique sont fondamentalement des outils d analyse exploratoire. Néanmoins, la mise en place d un cadre statistique visant à tenir compte de la multiplicité des comparaisons permet de fonder la génération de signaux sur la base de seuils liés à des critères d erreurs directement interprétables. Evidemment, les quantités caractéristiques estimées dans ce travail ne peuvent être interprétées au niveau général de l identification d associations médicamenteuses. Il s agit avant tout de caractéristiques permettant d évaluer les capacités statistiques des méthodes en prenant comme référentiel les données sur lesquelles elles sont appliquées. L approche présentée est simple à mettre en place et ne modifie pas les modèles de probabilité des différentes méthodes. Elle consiste tout d abord à proposer de nouvelles règles de classement, à savoir les degrés de signification pour les méthodes fréquentistes et les probabilités a posteriori de l hypothèse nulle pour les méthodes bayésiennes. De ce point de vue, nous avons montré à travers l étude par simulation et dans une moindre mesure à travers l évaluation séquentielle à partir de cas réels la supériorité de la règle de classement proposée sur celles existantes dans le cas du modèle GPS. Concernant les autres méthodes, étant donné l absence de référence 90

101 91 quant à la possibilité d ordonner les cellules selon une statistique d intérêt, nous avons considéré les règles de décision en vigueur comme des cas particuliers de l approche proposée. Dès lors que l on travaille à partir d une règle de classement, deux stratégies de détection sont envisageables et correspondent aux deux scénarios étudiés lors de l évaluation séquentielle des méthodes à partir des cas d alertes réels. La première consiste à analyser un certain nombre de signaux ordonnés selon la statistique de classement, ce nombre étant fixé au regard des capacités d analyses des systèmes de pharmacovigilance avec la possibilité à tout moment d estimer les quantités caractéristiques. La deuxième stratégie, plus proche de ce qui semble être fait par les principaux systèmes de pharmacovigilance, consiste à fixer préalablement un seuil de détection, dans notre cas sur la base de FDR. Le nombre de signaux à analyser devient donc variable mais semble diminuer au cours du temps. Ces stratégies de détection reposent fondamentalement sur le prérequis d une estimation sans biais du FDR ou tout du moins sur une estimation donnant des garanties sur le contrôle de celui-ci. Or, l étude par simulation montre que malgré des performances opérationnelles très proches à nombre de signaux générés égal, la qualité d estimation du FDR varie de manière importante d une méthode à l autre. Ainsi, pour le modèle BCPNN, on observe une importante sous-estimation du FDR pour des RR 0 d intérêt majeurs reflétant probablement une modélisation des données moins satisfaisante que celle obtenue avec le modèle GPS. En ajoutant à cela la lourdeur computationnelle due à l estimation de Pr(H 0 ) par Monte Carlo, il nous semble donc que l utilisation de ce modèle avec l approche proposée est peu intéressante. L approche d estimation du FDR pour les méthodes fréquentistes présente l avantage de garantir un contrôle de ce critère sous réserve du respect des hypothèses distributionnelles, ce qui n est pas le cas pour la méthode ROR, mais au prix d une

102 92 surestimation relativement importante même dans le cas de midrfet. Au terme de deux études par simulation et de l évaluation séquentielle à partir de cas d alertes réels, il semble donc que ce soit le modèle GPS en association avec la règle de décision proposée qui fournisse les résultats les plus satisfaisants. Il faut toutefois noter que des travaux récents dans le domaine de l analyse des données de génomique explorent les limites de l utilisation des méthodes d estimation du FDR en présence de dépendances. En particulier, Qiu et al. (2005) ont montré par simulations que plusieurs estimateurs du FDR (dont Qvalue) pouvaient être entachés dans ce cas d une variance importante. Les scénarios étudiés sont néanmoins très pessimistes dans la mesure où les données sont générées sous une structure de dépendance complète (tous les gènes sont corrélés) et sur un nombre relativement restreint de gènes (1 255). Il n en demeure pas moins que certaines formes de dépendance entre événements ou entre médicaments existent très vraisemblablement dans les données de pharmacovigilance analysées. Par conséquent, les récents développements ayant pour objectif d améliorer les qualités des estimateurs du FDR par l utilisation d informations supplémentaires disponibles constituent des sources d inspiration précieuses (Ferkingstad et Frigessi, 2008; Leek et Storey, 2008). Plus généralement, la prise en compte d informations supplémentaires semble être d autant plus attrayante qu elle doit aussi permettre d augmenter les chances de générer des signaux pertinents. La méthode GPS permet déjà de prendre en compte, par stratification, certaines caractéristiques des patients à l origine des notifications pour la détermination du nombre attendu e ij. Très récemment Prieto-Merino et al. (2008) ont utilisé le modèle bayésien hiérarchique de Berry et Berry (2004) ainsi que des méthodes de classification non supervisées afin de prendre en compte les corrélations observées entre événements indésirables dans la base de pharmacovigilance pour améliorer le calcul du ROR. En ce qui concerne les médicaments, une voie d ex-

103 93 ploration pourrait être de prendre en compte les mécanismes d actions des principes actifs à travers l utilisation, par exemple, de profils d affinité aux différents récepteurs moléculaires. Pour conclure, l évaluation rétrospective des approches proposées à partir de cas réels vient confirmer l utilité de ces outils de détection automatique. Par conséquent, en parallèle des perspectives de recherche méthodologique citées plus haut, il paraît essentiel de travailler à la mise en place rapide d un système de détection automatique en France.

104 Bibliographie Agresti, A. (2002). Categorical data analysis. Wiley Interscience. Almenoff, J. S., Lacroix, K. K., Yuen, N. A., Fram, D. et DuMouchel, W. (2006). Comparative performance of two quantitative safety signalling methods : Implications for use in a pharmacovigilance department. Drug Safety, 29(10): Almenoff, J. S., Pattishall, E. N., Gibbs, T. G., DuMouchel, W., Evans, S. J. W. et Yuen, N. (2007). Novel statistical tools for monitoring the safety of marketed drugs. Clinical Pharmacology & Therapeutics, 82(2): Almenoff, J. S., Tonning, J. M., Gould, A. L., Szarfman, A., Hauben, M., Ouellet- Hellstrom, R., Ball, R., Hornbuckle, K., Walsh, L., Yee, C., Sacks, S. T., Yuen, N. A., Patadia, V., Blum, M., Johnston, M., Gerrits, C., Seifert, H. et LaCroix, K. K. (2005). Perspectives on the use of data mining in pharmacovigilance. Drug Safety, 28(11): Bate, A., Lindquist, M., Edwards, I. R., Olsson, S., Orre, R., Lansner, A. et De Freitas, R. M. (1998). A bayesian neural network method for adverse drug reaction signal generation. European Journal of Clinical Pharmacology, 54(4): Benjamini, Y. et Hochberg, Y. (1995). Controlling the false discovery rate : a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society, Series B, 57(1): Berry, S. M. et Berry, D. A. (2004). Accounting for multiplicities in assessing drug safety : A three-level hierarchical mixture model. Biometrics, 60(2): Brown, E. G., Wood, L. et Wood, S. (1999). The medical dictionary for regulatory activities (MedDRA). Drug Safety, 20(2):1999. Broët, P., Lewin, A., Richardson, S., Dalmasso, C. et Magdelenat, H. (2004). A mixture model-based strategy for selecting sets of genes in multiclass response microarray experiments. Bioinformatics, 20(16): Bégaud, B., Evreux, J. C., Jouglard, J. et Lagier, G. (1985). Imputabilité des effets inattendus ou toxiques des médicaments : actualisation de la méthode utilisée en france. Thérapie, 40(2): Bégaud, B., Martin, K., Haramburu, F. et Moore, N. (2002). Rates of spontaneous reporting of adverse drug reactions in france. JAMA, 288:1588. Dalmasso, C., Broët, P. et Moreau, T. (2005). A simple procedure for estimating the false discovery rate. Bioinformatics, 21(5):

105 BIBLIOGRAPHIE 95 DuMouchel, W. (1999). Bayesian data mining in large frequency tables, with an application to the fda spontaneous reporting system. The American Statistician, 53(3): DuMouchel, W. et Pregibon, D. (2001). Empirical bayes screening for multi-item associations. In KDD 01 : Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages Evans, S. (2003). Sequential probability ratio tests applied to public health problems. Controlled Clinical Trials, 24:67S. Evans, S. J., Waller, P. C. et Davis, S. (2001). Use of proportional reporting ratios (PRRs) for signal generation from spontaneous adverse drug reaction reports. Pharmacoepidemiology and Drug Safety, 10(6): Ferkingstad, E. et Frigessi, A. (2008). Unsupervised empirical bayesian multiple testing with external covariates. Annals of Applied Statistics, 2(2): Friedman, M. (1937). The use of ranks to avoid the assumption of normality implicit in the analysis of variance. Journal of the American Statistical Association, 32(200): Gottardo, R., Raftery, A. E., Yeung, K. Y. et Bumgarner, R. (2006). Bayesian robust inference for differential gene expression in cdna microarrays with multiple samples. Biometrics, 62: Gould, A. L. (2003). Practical pharmacovigilance analysis strategies. Pharmacoepidemiology and Drug Safety, 12(7): Gould, A. L. (2007). Accounting for multiplicity in the evaluation of signals obtained by data mining from spontaneous report adverse event databases. Biometrical Journal, 49: Hauben, M., Madigan, D., Gerrits, C. M., Walsh, L. et van Puijenbroek, E. P. (2005). The role of data mining in pharmacovigilance. Expert Opinion on Drug Safety, 4(5): Hochberg, Y. et Tamhane, A. C. (1987). Multiple Comparison Procedures. Wiley. Lai, Y. (2007). A moment-based method for estimating the proportion of true null hypotheses and its application to microarray gene expression data. Biostatistics, 8(4): Leek, J. T. et Storey, J. D. (2008). A general framework for multiple testing dependence. Proceedings of the National Academy of Sciences, 105(48): Lewin, A., Bochkina, N. et Richardson, S. (2007). Fully bayesian mixture model for differential gene expression : Simulations and model checks. Statistical Applications in Genetics and Molecular Biology, 6:Article 36. Lindquist, M., Ståhl, M., Bate, A., Edwards, I. et Meyboom, R. H. B. (2000). A retrospective evaluation of a data mining approach to aid finding new adverse drug reaction signals in the who international database. Drug Safety, 23(6): McLachlan, G. J., Bean, R. W. et Ben-Tovim Jones, L. (2006). A simple implementation of a normal mixture approach to differential gene expression in multiclass microarrays. Bioinformatics, 22(13): Miller, G. C. et Britt, H. (1995). A new drug classification for computer systems : the ATC extension code. International Journal of Bio-Medical Computing, 40(2):

106 BIBLIOGRAPHIE 96 Müller, P., Parmigiani, G., Robert, C. et Rousseau, J. (2004). Optimal sample size for multiple testing : the case of gene expression microarrays. Journal of The American Statistical Association, 99: Newton, M. A., Noueiry, A., Sarkar, D. et Ahlquist, P. (2004). Detecting differential gene expression with a semiparametric hierarchical mixture method. Biostatistics, 5(2): Norén, G. N., Bate, A., Orre, R. et Edwards, I. R. (2006). Extending the methods used to screen the who drug safety database towards analysis of complex associations and improved accuracy for rare events. Statistics in Medicine, 25(21): Pounds, P. et Cheng, C. (2006). Robust estimation of the false discovery rate. Bioinformatics, 22(16): Pounds, S. et Cheng, C. (2004). Improving false discovery rate estimation. Bioinformatics, 20(11): Pounds, S. et Morris, S. W. (2003). Estimating the occurrence of false positives and false negatives in microarray studies by approximating and partitioning the empirical distribution of p-values. Bioinformatics, 19(10): Prieto-Merino, D., Evans, S. J. W., Whittaker, J., Smeeth, L. et Spiegelhalter, D. J. (2008). Different groupings of drug adverse events in a bayesian analyses. In 29 th Annual Conference of the International Society for Clinical Biostatistics. Qiu, X., Klebanov, L. et Yakovlev, A. (2005). Correlation between gene expression levels and limitations of the empirical bayes methodology for finding differentially expressed genes. Statistical Applications in Genetics and Molecular Biology, 4:Article34. R Development Core Team (2008). R : A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN Roux, E., Thiessard, F., Fourrier, A., Bégaud, B. et Tubert-Bitter, P. (2005). Evaluation of statistical association measures for the automatic signal generation in pharmacovigilance. IEEE Transactions on Information Technology in Biomedicine, 9(4): Roux, E., Thiessard, F., Fourrier-Reglat, A., Bégaud, B. et P., T.-B. (2003). Spontaneous reporting system modelling for data mining methods evaluation in pharmacovigilance. In Workshop Intelligent Data Analysis in Medicine and Pharmacology. Roux, E., Thiessard, F., Fourrier-Réglat, A., Bégaud, B. et Tubert-Bitter, P. (2007). Advances in Statistical Methods for the Health Sciences, chapitre Spontaneous Reporting System Modelling for the Evaluation of Automatic Signal Generation Methods in Pharmacovigilance, pages Birkhauser. Schweder, T. et Spjøtvoll, E. (1982). Plots of p-values to evaluate many tests simultaneously. Biometrika, 69(3): Scott, J. G. et Berger, J. O. (2006). An exploration of aspects of bayesian multiple testing. Journal of Statistical Planning and Inference, 136(7): Storey, J. D. (2002). A direct approach to false discovery rates. Journal of the Royal Statistical Society, Series B, 64(3):

107 BIBLIOGRAPHIE 97 Storey, J. D. et Tibshirani, R. (2003). Statistical significance for genome-wide studies. Proceedings of the National Academy of Sciences, 100: Szarfman, A., Machado, S. et O Neill, R. (2002). Use of screening algorithms and computer systems to efficiently signal higher-than-expected combinations of drugs and events in the US FDA s spontaneous reports database. Drug Safety, 25(6): Thiessard, F. (2004). Détection des effets indésirables des médicaments par un système de génération automatisée du signal adapté à la base nationale française de pharmacovigilance. Thèse de doctorat, Université Victor Segalen - Bordeaux 2. Thiessard, F., Roux, E., Miremont-Salamé, G., Fourrier-Réglat, A., Haramburu, F., Tubert-Bitter, P. et Bégaud, B. (2005). Trends in spontaneous adverse drug reaction reports to the French pharmacovigilance system ( ). Drug Safety, 28(8): van der Heijden, P. G., Van Puijenbroek, E. P., Van Buuren, S. et Van der Hofstede, J. W. (2002). On the assessment of adverse drug reactions from spontaneous reporting systems : the influence of under-reporting on odds ratios. Statistics in Medicine, 21(14): van Puijenbroek, E. P., Bate, A., Leufkens, H. G., Lindquist, M., Orre, R. et Egberts, A. C. (2002). A comparison of measures of disproportionality for signal detection in spontaneous reporting systems for adverse drug reactions. Pharmacoepidemiology and Drug Safety, 11(1):3 10.

108 Annexe A Résultats complémentaires pour l étude de simulations 98

109 99 ψ 0 = 1 ψ 0 = 2 ψ 0 = ROR (a) (b) (c) RFET (d) (e) (f) midrfet (g) (h) (i) Fig. A.1: Histogrammes de la distribution des degrés de signification sous H 0 pour ROR, RFET et midrfet avec n ij 1. Les histogrammes sont obtenus à partir de 50 jeux de données simulés et des degrés de signification pour lesquels ψ ij ψ 0. Les figures tronquent la distribution des degrés de signification proches de 1 afin de représenter plus clairement la distribution des petits degrés de signification.

110 100 ψ 0 = 1 ψ 0 = 2 ψ 0 = ROR (a) (b) (c) RFET (d) (e) (f) midrfet (g) (h) (i) Fig. A.2: Histogrammes de la distribution des degrés de signification sous H 0 pour ROR, RFET et midrfet avec n ij 3. Les histogrammes sont obtenus à partir de 50 jeux de données simulés et des degrés de signification pour lesquels ψ ij ψ 0. Les figures tronquent la distribution des degrés de signification proches de 1 afin de représenter plus clairement la distribution des petits degrés de signification.

111 101 ψ 0 = 1 f(p) (a) ψ 0 = 2 f(p) (b) ψ 0 = 5 f(p) LBE Qvalue (c) Fig. A.3: Estimations de π 0 π 0 obtenues avec LBE et Qvalue à partir de la distribution marginale des degrés de signification transformés (p ) pour ROR. Les histogrammes sont obtenus à partir des cellules non-vides des 500 jeux de simulations. Les lignes horizontales représentent les estimations obtenues pour π 0 π 0 avec les procédures LBE et Qvalue. Les trois figures représentent les résultats pour les trois hypothèses nulles testées.

112 Annexe B Résultats complémentaires pour l application 102

113 103 ψ 0 = 1, RR 0 = 1 ψ 0 = 2, RR 0 = GPS BCPNN GPS midrfet GPS ROR BCPNN midrfet BCPNN ROR midrfet ROR GPS ROR midrfet GPS BCPNN ROR midrfet FDR estimé par GPS (a) ψ 0 = 3, RR 0 = FDR estimé par GPS (b) ψ 0 = 4, RR 0 = FDR estimé par GPS (c) FDR estimé par GPS (d) ψ 0 = 5, RR 0 = FDR estimé par GPS (e) Fig. B.1: Proportion de signaux communs entre les méthodes proposées en fonction du FDR estimé par GPS. L évolution de cette proportion est illustrée pour différents {ψ 0, RR 0 }.

114 Tab. B.1: Signaux de référence (47) avec moins de 3 notifications spontanées au 1 er juillet ATC5 HLT Date d alerte Traduction du code ATC5 Traduction du code MedDRA HLT A-M-J A01AB ANTIINFECTIEUX POUR TRAITEMENT ORAL LOCAL Duodenal ulcers and perforation A02BX AUTRES MEDICAMENTS POUR L ULCERE GASTRO-DUODENAL ET LE Gastrointestinal signs and symptoms NEC REFLUX GASTRO-OESPHAGIEN (RGO) A07AA ANTIBIOTIQUES Cerebellar coordination and balance disturbances A07EC ACIDE AMINOSALICYLIQUE ET ANALOGUES Poisoning and toxicity A08AA MEDICAMENTS CONTRE L OBESITE A ACTION CENTRALE Cardiac valve disorders NEC A12AA CALCIUM Cardiac and vascular procedural complications B02BB FIBRINOGENE Vascular hypotensive disorders C02AA ALCALOIDES DU RAUWOLFIA Inner ear signs and symptoms C02AA ALCALOIDES DU RAUWOLFIA Vertigos NEC C04AX AUTRES VASODILATATEURS PERIPHERIQUES Urinary tract signs and symptoms NEC D07AB CORTICOIDES D ACTIVITE MODEREE (GROUPE II) Diarrhoea (excl infective) G01AD ACIDES ORGANIQUES Encephalopathies toxic and metabolic G03AA PROGESTATIFS ET ESTROGENES EN ASSOCIATION FIXE Purpura and related conditions J01AA TETRACYCLINES Oesophageal ulcers and perforation J01CG INHIBITEURS DE BETALACTAMASES Pustular conditions J01CG INHIBITEURS DE BETALACTAMASES Skin structures and soft tissue infections J01GA STREPTOMYCINES Hearing losses J01XX AUTRES ANTIBACTERIENS Allergic conditions NEC J05AE INHIBITEURS DE PROTEASE Anterior pituitary hyperfunction J05AE INHIBITEURS DE PROTEASE Lactation disorders J05AE INHIBITEURS DE PROTEASE Hypothalamic and pituitary disorders NEC J05AE INHIBITEURS DE PROTEASE Retinal, choroid and vitreous infections and inflammations J07AG VACCINS ANTIHAEMOPHILUS INFLUENZAE B Muscle pains J07AL VACCINS ANTIPNEUMOCOCCIQUES Cardiac and vascular procedural complications J07AL VACCINS ANTIPNEUMOCOCCIQUES Vascular hypotensive disorders J07BL VACCINS CONTRE LA FIEVRE JAUNE Central nervous system and spinal infections J07BL VACCINS CONTRE LA FIEVRE JAUNE Meningitis NEC L01AA MOUTARDES A L AZOTE Poisoning and toxicity L01BC ANALOGUES DE LA PYRIMIDINE Cardiac infections L01BC ANALOGUES DE LA PYRIMIDINE Noninfectious pericarditis M01AE DERIVES DE L ACIDE PROPIONIQUE Bladder infections and inflammations M01AE DERIVES DE L ACIDE PROPIONIQUE Urinary tract infections M01AE DERIVES DE L ACIDE PROPIONIQUE Musculoskeletal and connective tissue infections and inflammations NEC M01AE DERIVES DE L ACIDE PROPIONIQUE Muscle and soft tissue infections M01AH COXIBS Musculoskeletal and connective tissue infections and inflammations NEC M01AH COXIBS Muscle and soft tissue infections 104

115 Tab. B.1: Signaux de référence (47) avec moins de 3 notifications spontanées au 1 er juillet ATC5 HLT Date d alerte Traduction du code ATC5 Traduction du code MedDRA HLT A-M-J M01AX AUTRES ANTIINFLAMMATOIRES ANTIRHUMATISMAUX NON STEROI- DIENS Musculoskeletal and connective tissue infections and inflammations NEC M01AX AUTRES ANTIINFLAMMATOIRES ANTIRHUMATISMAUX NON STEROI- Muscle and soft tissue infections DIENS N02AC DERIVES DE LA DIPHENYLPROPYLAMINE Bile duct infections and inflammations N03AX AUTRES ANTIEPILEPTIQUES Glaucomas (excl congenital) N05AH DIAZEPINES, OXAZEPINES ET THIAZEPINES Cardiomyopathies N06AX AUTRES ANTIDEPRESSEURS Heart failures NEC (excl ventricular failure) N06BC DERIVES DE LA XANTHINE Bile duct infections and inflammations N07CA ANTIVERTIGINEUX Depressive disorders R06AX AUTRES ANTIHISTAMINIQUES A USAGE SYSTEMIQUE Congenital male reproductive tract disorders R06AX AUTRES ANTIHISTAMINIQUES A USAGE SYSTEMIQUE Congenital urethral disorders R06AX AUTRES ANTIHISTAMINIQUES A USAGE SYSTEMIQUE Male reproductive tract disorders congenital 105

116 Tab. B.2: Signaux de référence (216) détectés par le modèle GPS basé sur Pr(H 0 ) et FDR = 5% - Scénario 2. ATC5 HLT Date d alerte Traduction du code ATC5 Traduction du code MedDRA HLT A-M-J A01AB ANTIINFECTIEUX POUR TRAITEMENT ORAL LOCAL Oesophageal ulcers and perforation A01AD AUTRES MEDICAMENTS POUR TRAITEMENT ORAL LOCAL Inflammatory disorders following infection A02BC INHIBITEURS DE LA POMPE A PROTONS Confusion and disorientation A02BC INHIBITEURS DE LA POMPE A PROTONS Cortical dysfunction NEC A02BC INHIBITEURS DE LA POMPE A PROTONS Erection and ejaculation conditions and disorders A02BC INHIBITEURS DE LA POMPE A PROTONS Male gonadal function disorders A02BC INHIBITEURS DE LA POMPE A PROTONS Perception disturbances A02BC INHIBITEURS DE LA POMPE A PROTONS Sexual arousal disorders A02BC INHIBITEURS DE LA POMPE A PROTONS Breast disorders NEC A02BC INHIBITEURS DE LA POMPE A PROTONS Sodium imbalance A03AA ANTICHOLINERGIQUES DE SYNTHESE : ESTERS AVEC GROUPEMENT Leukopenias NEC AMINE TERTIAIRE A03AX AUTRES MEDICAMENTS POUR LES DESORDRES FONCTIONNELS IN- Anaphylactic responses TESTINAUX A03AX AUTRES MEDICAMENTS POUR LES DESORDRES FONCTIONNELS IN- Circulatory collapse and shock TESTINAUX A03AX AUTRES MEDICAMENTS POUR LES DESORDRES FONCTIONNELS IN- Hepatocellular damage and hepatitis NEC TESTINAUX A03FA STIMULANTS DE LA MOTRICITE INTESTINALE Dyskinesias and movement disorders NEC A06AA LAXATIFS LUBRIFIANTS Rashes, eruptions and exanthems NEC A07A ANTIINFECTIEUX INTESTINAUX Liver function analyses A07AA ANTIBIOTIQUES Auditory nerve disorders A07AA ANTIBIOTIQUES Hearing losses A07AA ANTIBIOTIQUES Leukopenias NEC A07DA RALENTISSEURS DE LA MOTRICITE INTESTINALE Hepatocellular damage and hepatitis NEC A07EC ACIDE AMINOSALICYLIQUE ET ANALOGUES Glomerulonephritis and nephrotic syndrome A07EC ACIDE AMINOSALICYLIQUE ET ANALOGUES Nephritis NEC A07EC ACIDE AMINOSALICYLIQUE ET ANALOGUES Nephropathies and tubular disorders NEC A08AA MEDICAMENTS CONTRE L OBESITE A ACTION CENTRALE Pulmonary hypertensions A10BB SULFAMIDES, DERIVES DE L UREE Hepatocellular damage and hepatitis NEC A11AA POLYVITAMINES AVEC ELEMENTS MINERAUX Hepatocellular damage and hepatitis NEC A11HA AUTRES PREPARATIONS VITAMINIQUES NON ASSOCIEES Hepatocellular damage and hepatitis NEC A12CB ZINC Skin structures and soft tissue infections A12CB ZINC Skin and subcutaneous tissue bacterial infections A13A TONIQUES Diarrhoea (excl infective) B01AB GROUPE DE L HEPARINE Erection and ejaculation conditions and disorders B01AB GROUPE DE L HEPARINE Haemorrhages NEC B01AC INHIBITEURS DE L AGREGATION PLAQUETTAIRE, HEPARINE EXCLUE Leukopenias NEC 106

117 Tab. B.2: Signaux de référence (216) détectés par le modèle GPS basé sur Pr(H 0 ) et FDR = 5% - Scénario 2 (suite). ATC5 HLT Date d alerte Traduction du code ATC5 Traduction du code MedDRA HLT A-M-J B01AC INHIBITEURS DE L AGREGATION PLAQUETTAIRE, HEPARINE EXCLUE Marrow depression and hypoplastic anaemias B02AA ACIDES AMINES Seizures and seizure disorders NEC B03XA AUTRES PREPARATIONS ANTIANEMIQUES Therapeutic drug monitoring analyses B05AA SUBSTITUTS DU SANG ET FRACTIONS PROTEIQUES PLASMATIQUES Hepatocellular damage and hepatitis NEC B05AA SUBSTITUTS DU SANG ET FRACTIONS PROTEIQUES PLASMATIQUES Coagulopathies B06AA ENZYMES Diarrhoea (excl infective) C01BC ANTIARYTHMIQUES, CLASSE IC Hepatocellular damage and hepatitis NEC C01BD ANTIARYTHMIQUES, CLASSE III Thyroid disorders NEC C01BG AUTRES ANTIARYTHMIQUES DE CLASSE I Hepatocellular damage and hepatitis NEC C01DX AUTRES VASODILATATEURS EN CARDIOLOGIE Stomatitis and ulceration C01DX AUTRES VASODILATATEURS EN CARDIOLOGIE Ventricular arrhythmias and cardiac arrest C02CA ALPHA-BLOQUANTS Anterior pituitary hyperfunction C02CA ALPHA-BLOQUANTS Lactation disorders C02CA ALPHA-BLOQUANTS Hypothalamic and pituitary disorders NEC C03AA THIAZIDIQUES NON ASSOCIES Acute and chronic pancreatitis C03DB AUTRES DIURETIQUES EPARGNEURS POTASSIQUES Renal failure and impairment C04AX AUTRES VASODILATATEURS PERIPHERIQUES Neurological signs and symptoms NEC C04AX AUTRES VASODILATATEURS PERIPHERIQUES Seizures and seizure disorders NEC C05AX AUTRES ANTIHEMORROIDAIRES A USAGE TOPIQUE Diarrhoea (excl infective) C05CA BIOFLAVONOIDES Hepatocellular damage and hepatitis NEC C05CX AUTRES MEDICAMENTS AGISSANT SUR LES CAPILLAIRES Hepatocellular damage and hepatitis NEC C08EA DERIVES DE LA PHENYLALKYLAMINE Rate and rhythm disorders NEC C09AA INHIBITEURS DE L ENZYME DE CONVERSION (IEC) NON ASSOCIES Lower respiratory tract inflammatory and immunologic conditions C09AA INHIBITEURS DE L ENZYME DE CONVERSION (IEC) NON ASSOCIES Potassium imbalance C09AA INHIBITEURS DE L ENZYME DE CONVERSION (IEC) NON ASSOCIES Taste disorders C09AA INHIBITEURS DE L ENZYME DE CONVERSION (IEC) NON ASSOCIES Eosinophilic disorders C10AA INHIBITEURS DE L HMG-COA REDUCTASE Cataracts (excl congenital) C10AA INHIBITEURS DE L HMG-COA REDUCTASE Erection and ejaculation conditions and disorders C10AA INHIBITEURS DE L HMG-COA REDUCTASE Male gonadal function disorders C10AA INHIBITEURS DE L HMG-COA REDUCTASE Myopathies C10AA INHIBITEURS DE L HMG-COA REDUCTASE Acute and chronic pancreatitis C10AA INHIBITEURS DE L HMG-COA REDUCTASE Parenchymal lung disorders NEC C10AA INHIBITEURS DE L HMG-COA REDUCTASE Sexual arousal disorders C10AA INHIBITEURS DE L HMG-COA REDUCTASE Breast disorders NEC C10AA INHIBITEURS DE L HMG-COA REDUCTASE Tendon disorders C10AB FIBRATES Photosensitivity conditions D01AE AUTRES ANTIFONGIQUES A USAGE TOPIQUE Skin structures and soft tissue infections D01AE AUTRES ANTIFONGIQUES A USAGE TOPIQUE Skin and subcutaneous tissue bacterial infections 107

118 Tab. B.2: Signaux de référence (216) détectés par le modèle GPS basé sur Pr(H 0 ) et FDR = 5% - Scénario 2 (suite). ATC5 HLT Date d alerte Traduction du code ATC5 Traduction du code MedDRA HLT A-M-J D02AC PARAFFINE ET PRODUITS GRAS Rashes, eruptions and exanthems NEC D06AX AUTRES ANTIBIOTIQUES A USAGE TOPIQUE Haemolyses NEC D06AX AUTRES ANTIBIOTIQUES A USAGE TOPIQUE Leukopenias NEC D06AX AUTRES ANTIBIOTIQUES A USAGE TOPIQUE Peripheral neuropathies NEC D06BA SULFAMIDES Dermatitis and eczema D06BA SULFAMIDES Erythemas D09AA PANSEMENTS AVEC ANTIINFECTIEUX Allergic conditions NEC D10AD RETINOIDES ANTIACNEIQUES A USAGE TOPIQUE Cardiomyopathies D10AF ANTIINFECTIEUX POUR LE TRAITEMENT DE L ACNE Hepatocellular damage and hepatitis NEC G01AD ACIDES ORGANIQUES Diarrhoea (excl infective) G01AD ACIDES ORGANIQUES Hepatocellular damage and hepatitis NEC G01AD ACIDES ORGANIQUES Inflammatory disorders following infection G01AX AUTRES ANTIINFECTIEUX ET ANTISEPTIQUES Skin structures and soft tissue infections G01AX AUTRES ANTIINFECTIEUX ET ANTISEPTIQUES Skin and subcutaneous tissue bacterial infections G02CB INHIBITEURS DE LA PROLACTINE Neurological signs and symptoms NEC G03AC PROGESTATIFS Central nervous system vascular disorders NEC G03AC PROGESTATIFS Cerebrovascular and spinal vascular disorders NEC G03AC PROGESTATIFS Non-site specific embolism and thrombosis G03AC PROGESTATIFS Hepatocellular damage and hepatitis NEC G03XA ANTIGONADOTROPHINES ET ANALOGUES Hepatocellular damage and hepatitis NEC J01AA TETRACYCLINES Autoimmunity analyses J01AA TETRACYCLINES Hepatocellular damage and hepatitis NEC J01AA TETRACYCLINES Lower respiratory tract inflammatory and immunologic conditions J01CA PENICILLINES A LARGE SPECTRE Bullous conditions J01CA PENICILLINES A LARGE SPECTRE Pustular conditions J01CA PENICILLINES A LARGE SPECTRE Skin structures and soft tissue infections J01CE PENICILLINES SENSIBLES AUX BETALACTAMASES Pustular conditions J01CF PENICILLINES RESISTANTES AUX BETALACTAMASES Pustular conditions J01CF PENICILLINES RESISTANTES AUX BETALACTAMASES Skin structures and soft tissue infections J01CR ASSOCIATIONS DE PENICILLINES, INHIBITEURS DE BETALACTAMASES Bullous conditions J01CR ASSOCIATIONS DE PENICILLINES, INHIBITEURS DE BETALACTAMASES Pustular conditions J01CR ASSOCIATIONS DE PENICILLINES, INHIBITEURS DE BETALACTAMASES Skin structures and soft tissue infections J01DA CEPHALOSPORINES ET APPARENTES Anaemias haemolytic NEC J01DA CEPHALOSPORINES ET APPARENTES Clostridia infections J01DA CEPHALOSPORINES ET APPARENTES Colitis (excl infective) J01DA CEPHALOSPORINES ET APPARENTES Pustular conditions J01DA CEPHALOSPORINES ET APPARENTES Skin structures and soft tissue infections 108

119 Tab. B.2: Signaux de référence (216) détectés par le modèle GPS basé sur Pr(H 0 ) et FDR = 5% - Scénario 2 (suite). ATC5 HLT Date d alerte Traduction du code ATC5 Traduction du code MedDRA HLT A-M-J J01DH CARBAPENEMS Pustular conditions J01FA MACROLIDES Bullous conditions J01FA MACROLIDES Pustular conditions J01FA MACROLIDES Skin structures and soft tissue infections J01MB AUTRES QUINOLONES Anaphylactic responses J01MB AUTRES QUINOLONES Circulatory collapse and shock J01XC ANTIBACTERIENS STEROIDIENS Haemolyses NEC J01XC ANTIBACTERIENS STEROIDIENS Leukopenias NEC J01XC ANTIBACTERIENS STEROIDIENS Peripheral neuropathies NEC J04AB ANTIBIOTIQUES Hepatocellular damage and hepatitis NEC J05AE INHIBITEURS DE PROTEASE Haemorrhages NEC J05AF INHIBITEURS DE LA TRANSCRIPTASE REVERSE NUCLEOSIDIQUES Ischaemic coronary artery disorders J05AF INHIBITEURS DE LA TRANSCRIPTASE REVERSE NUCLEOSIDIQUES Hepatocellular damage and hepatitis NEC J05AF INHIBITEURS DE LA TRANSCRIPTASE REVERSE NUCLEOSIDIQUES Lipid metabolism and deposit disorders NEC J05AF INHIBITEURS DE LA TRANSCRIPTASE REVERSE NUCLEOSIDIQUES Metabolic acidoses (excl diabetic acidoses) J05AF INHIBITEURS DE LA TRANSCRIPTASE REVERSE NUCLEOSIDIQUES Acute and chronic pancreatitis J05AG INHIBITEURS DE LA TRANSCRIPTASE REVERSE NON NUCLEOSIDIQUES Hepatocellular damage and hepatitis NEC J05AG INHIBITEURS DE LA TRANSCRIPTASE REVERSE NON NUCLEOSIDIQUES Sleep disorders NEC J06BA IMMUNOGLOBULINES HUMAINES POLYVALENTES Anaemias haemolytic NEC J07AF VACCINS ANTIDIPHTERIQUES Asthenic conditions J07AF VACCINS ANTIDIPHTERIQUES Muscle pains J07AG VACCINS ANTIHAEMOPHILUS INFLUENZAE B Asthenic conditions J07AH VACCINS ANTIMENINGOCOCCIQUES Asthenic conditions J07AH VACCINS ANTIMENINGOCOCCIQUES Muscle pains J07AJ VACCINS CONTRE LA COQUELUCHE Asthenic conditions J07AJ VACCINS CONTRE LA COQUELUCHE Muscle pains J07AL VACCINS ANTIPNEUMOCOCCIQUES Bronchospasm and obstruction J07AL VACCINS ANTIPNEUMOCOCCIQUES Muscle pains J07AM VACCINS ANTITETANIQUES Asthenic conditions J07AM VACCINS ANTITETANIQUES Muscle pains J07AN VACCINS ANTITUBERCULEUX Tuberculous infections J07AX AUTRES VACCINS BACTERIENS Bronchospasm and obstruction J07BC VACCINS CONTRE L HEPATITE Asthenic conditions J07BC VACCINS CONTRE L HEPATITE Muscle pains J07BF VACCINS CONTRE LA POLIOMYELITE Asthenic conditions J07BF VACCINS CONTRE LA POLIOMYELITE Muscle pains J07X AUTRES VACCINS Bronchospasm and obstruction J07X AUTRES VACCINS Cardiac and vascular procedural complications L01AA MOUTARDES A L AZOTE Nephropathies and tubular disorders NEC L01AD NITROSOUREES Parenchymal lung disorders NEC L01BC ANALOGUES DE LA PYRIMIDINE Ischaemic coronary artery disorders 109

120 Tab. B.2: Signaux de référence (216) détectés par le modèle GPS basé sur Pr(H 0 ) et FDR = 5% - Scénario 2 (suite). ATC5 HLT Date d alerte Traduction du code ATC5 Traduction du code MedDRA HLT A-M-J L01BC ANALOGUES DE LA PYRIMIDINE Supraventricular arrhythmias L01XD MEDICAMENTS UTILISES DANS LA THERAPIE PHOTODYNAMIQUE Pain and discomfort NEC L01XX AUTRES ANTINEOPLASIQUES Febrile disorders L02AE ANALOGUES DE L HORMONE ENTRAINANT LA LIBERATION DE GONA- Injection and infusion site reactions DOTROPHINES L02BA ANTIESTROGENES Central nervous system vascular disorders NEC L02BA ANTIESTROGENES Cerebrovascular and spinal vascular disorders NEC L02BB ANTIANDROGENES Hepatocellular damage and hepatitis NEC L03A CYTOKINES ET IMMUNOMODULATEURS Bronchospasm and obstruction L03AB INTERFERONS Deliria L03AB INTERFERONS Depressive disorders L03AB INTERFERONS Retinal bleeding and vascular disorders (excl retinopathy) L03AB INTERFERONS Retinal embolism and thrombosis L03AB INTERFERONS Retinal haemorrhagic disorders L03AB INTERFERONS Suicidal and self-injurious behaviour L04AA IMMUNOSUPPRESSEURS SELECTIFS Hepatocellular damage and hepatitis NEC M01AB DERIVES DE L ACIDE ACETIQUE ET APPARENTES Dermatitis and eczema M01AE DERIVES DE L ACIDE PROPIONIQUE Renal failure and impairment M01AH COXIBS Death and sudden death M01AH COXIBS Gastric ulcers and perforation M01AX AUTRES ANTIINFLAMMATOIRES ANTIRHUMATISMAUX NON STEROI- Bullous conditions DIENS M01AX AUTRES ANTIINFLAMMATOIRES ANTIRHUMATISMAUX NON STEROI- Inflammatory disorders following infection DIENS M03BA ESTERS DE L ACIDE CARBAMIQUE Hepatocellular damage and hepatitis NEC M03BA ESTERS DE L ACIDE CARBAMIQUE Rashes, eruptions and exanthems NEC M04AA INHIBITEURS DE LA SYNTHESE DE L ACIDE URIQUE Rashes, eruptions and exanthems NEC N01AX AUTRES ANESTHESIQUES GENERAUX Rate and rhythm disorders NEC N02AC DERIVES DE LA DIPHENYLPROPYLAMINE Anal and rectal disorders NEC N02AE DERIVES DE L ORIPAVINE Hepatocellular damage and hepatitis NEC N02AX AUTRES OPIOIDES Inner ear signs and symptoms N02AX AUTRES OPIOIDES Seizures and seizure disorders NEC N02AX AUTRES OPIOIDES Vertigos NEC N02BE ANILIDES Anal and rectal disorders NEC N02BE ANILIDES Bile duct infections and inflammations N02BE ANILIDES Hepatocellular damage and hepatitis NEC N03AA BARBITURIQUES ET DERIVES Hepatocellular damage and hepatitis NEC N03AA BARBITURIQUES ET DERIVES Rashes, eruptions and exanthems NEC 110

121 Tab. B.2: Signaux de référence (216) détectés par le modèle GPS basé sur Pr(H 0 ) et FDR = 5% - Scénario 2 (suite). ATC5 HLT Date d alerte Traduction du code ATC5 Traduction du code MedDRA HLT A-M-J N03AG DERIVES D ACIDE GRAS Dyskinesias and movement disorders NEC N03AG DERIVES D ACIDE GRAS Neurologic visual problems NEC N03AG DERIVES D ACIDE GRAS Visual field disorders N03AG DERIVES D ACIDE GRAS Coagulopathies N04BC AGONISTES DOPAMINERGIQUES Neurological signs and symptoms NEC N04BX AUTRES DOPAMINERGIQUES Muscle tone abnormal N05AH DIAZEPINES, OXAZEPINES ET THIAZEPINES Gastrointestinal stenosis and obstruction NEC N05AH DIAZEPINES, OXAZEPINES ET THIAZEPINES Non-mechanical ileus N05AN LITHIUM Renal failure and impairment N05CA BARBITURIQUES NON ASSOCIES Thrombocytopenias N05CB BARBITURIQUES EN ASSOCIATION Hepatocellular damage and hepatitis NEC N05CB BARBITURIQUES EN ASSOCIATION Rashes, eruptions and exanthems NEC N05CF MEDICAMENTS RELIES AUX BENZODIAZEPINES Psychiatric symptoms NEC N05CM AUTRES HYPNOTIQUES ET SEDATIFS Asthenic conditions N06AB INHIBITEURS SELECTIFS DE LA RECAPTURE DE LA SEROTONINE Haemorrhages NEC N06AB INHIBITEURS SELECTIFS DE LA RECAPTURE DE LA SEROTONINE Hepatocellular damage and hepatitis NEC N06AB INHIBITEURS SELECTIFS DE LA RECAPTURE DE LA SEROTONINE Sodium imbalance N06AX AUTRES ANTIDEPRESSEURS Joint related signs and symptoms N06AX AUTRES ANTIDEPRESSEURS Rate and rhythm disorders NEC N06AX AUTRES ANTIDEPRESSEURS Seizures and seizure disorders NEC N07CA ANTIVERTIGINEUX Dyskinesias and movement disorders NEC P01AA DERIVES DE L HYDROXYQUINOLINE Liver function analyses P03AX AUTRES ANTIPARASITAIRES EXTERNES, SCABICIDES INCLUS Skin structures and soft tissue infections P03AX AUTRES ANTIPARASITAIRES EXTERNES, SCABICIDES INCLUS Skin and subcutaneous tissue bacterial infections R05CB MUCOLYTIQUES Paraesthesias and dysaesthesias R05DA ALCALOIDES DE L OPIUM ET DERIVES Bile duct infections and inflammations R06AX AUTRES ANTIHISTAMINIQUES A USAGE SYSTEMIQUE Ventricular arrhythmias and cardiac arrest R07AB STIMULANTS RESPIRATOIRES Peripheral neuropathies NEC R07AB STIMULANTS RESPIRATOIRES Physical examination procedures S01JA COLORANTS Anaphylactic responses S01JA COLORANTS Circulatory collapse and shock 111

122 Tab. B.3: Signaux de référence (46) avec au moins 3 notifications spontanées au 1 er juillet 2002 et non détectés par le modèle GPS basé sur Pr(H 0 ) et FDR = 5% - Scénario 2. La dernière colonne indique les signaux de référence pour lesquels le risque observé est inférieur à 1 tout au long de l analyse. ATC5 HLT Date d alerte Traduction du code ATC5 Traduction du code MedDRA HLT RR <1 A-M-J A01AB ANTIINFECTIEUX POUR TRAITEMENT ORAL LOCAL Gastric ulcers and perforation A01AD AUTRES MEDICAMENTS POUR TRAITEMENT ORAL LOCAL Hepatocellular damage and hepatitis NEC A02BC INHIBITEURS DE LA POMPE A PROTONS Lactation disorders A02BC INHIBITEURS DE LA POMPE A PROTONS Hypothalamic and pituitary disorders NEC A03AX AUTRES MEDICAMENTS POUR LES DESORDRES FONCTION- Allergic conditions NEC NELS INTESTINAUX A11AA POLYVITAMINES AVEC ELEMENTS MINERAUX Diarrhoea (excl infective) A11HA AUTRES PREPARATIONS VITAMINIQUES NON ASSOCIEES Diarrhoea (excl infective) A12AA CALCIUM Vascular hypotensive disorders A13A TONIQUES Hepatocellular damage and hepatitis NEC B01AA ANTIVITAMINES K Joint related signs and symptoms B01AB GROUPE DE L HEPARINE Diarrhoea (excl infective) B01AB GROUPE DE L HEPARINE Hepatocellular damage and hepatitis NEC B02BD FACTEURS DE LA COAGULATION SANGUINE Vascular hypotensive disorders B06AA ENZYMES Hepatocellular damage and hepatitis NEC C03BA SULFAMIDES NON ASSOCIES Inner ear signs and symptoms C03BA SULFAMIDES NON ASSOCIES Vertigos NEC C05AX AUTRES ANTIHEMORROIDAIRES A USAGE TOPIQUE Hepatocellular damage and hepatitis NEC C08DA DERIVES DE LA PHENYLALKYLAMINE Dyskinesias and movement disorders NEC C08DB DERIVES DE LA BENZOTHIAZEPINE Dyskinesias and movement disorders NEC C09AA INHIBITEURS DE L ENZYME DE CONVERSION (IEC) NON ASSO- Neurological signs and symptoms NEC CIES D04AB ANESTHESIQUES A USAGE TOPIQUE Diarrhoea (excl infective) D04AB ANESTHESIQUES A USAGE TOPIQUE Hepatocellular damage and hepatitis NEC D07AB CORTICOIDES D ACTIVITE MODEREE (GROUPE II) Hepatocellular damage and hepatitis NEC D10AD RETINOIDES ANTIACNEIQUES A USAGE TOPIQUE Diarrhoea (excl infective) D10AD RETINOIDES ANTIACNEIQUES A USAGE TOPIQUE Hepatocellular damage and hepatitis NEC G03AA PROGESTATIFS ET ESTROGENES EN ASSOCIATION FIXE Bruising, ecchymosis and purpura G03AA PROGESTATIFS ET ESTROGENES EN ASSOCIATION FIXE Thrombocytopenias J01AA TETRACYCLINES Paraesthesias and dysaesthesias J01CE PENICILLINES SENSIBLES AUX BETALACTAMASES Skin structures and soft tissue infections J01DH CARBAPENEMS Skin structures and soft tissue infections J01MA FLUOROQUINOLONES Anaphylactic responses J01MA FLUOROQUINOLONES Circulatory collapse and shock J07AL VACCINS ANTIPNEUMOCOCCIQUES Asthenic conditions J07X AUTRES VACCINS Vascular hypotensive disorders L01XX AUTRES ANTINEOPLASIQUES Hepatocellular damage and hepatitis NEC L03AB INTERFERONS Dyskinesias and movement disorders NEC 112

123 Tab. B.3: Signaux de référence (46) avec au moins 3 notifications spontanées au 1 er juillet 2002 et non détectés par le modèle GPS basé sur Pr(H 0 ) et FDR = 5% - Scénario 2. La dernière colonne indique les signaux de référence pour lesquels le risque observé est inférieur à 1 tout au long de l analyse (suite). ATC5 HLT Date d alerte Traduction du code ATC5 Traduction du code MedDRA HLT RR <1 A-M-J M01AX AUTRES ANTIINFLAMMATOIRES ANTIRHUMATISMAUX NON Hepatocellular damage and hepatitis NEC STEROIDIENS N01AX AUTRES ANESTHESIQUES GENERAUX Death and sudden death N02BE ANILIDES Allergic conditions NEC N04BX AUTRES DOPAMINERGIQUES Febrile disorders N05CA BARBITURIQUES NON ASSOCIES Rashes, eruptions and exanthems NEC N06AX AUTRES ANTIDEPRESSEURS Ischaemic coronary artery disorders N06AX AUTRES ANTIDEPRESSEURS Thrombocytopenias N06DA ANTICHOLINESTERASIQUES Cardiac conduction disorders N07BB MEDICAMENTS UTILISES DANS LA DEPENDANCE ALCOO- Vascular hypertensive disorders NEC LIQUE R02AB ANTIBIOTIQUES Allergic conditions NEC 113

124 Annexe C Publications 114

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Projet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale

Projet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale Projet de thèse Intitulé de la thèse Détection automatisée de signaux en pharmacovigilance : Exploitation conjointe de données de notifications spontanées et médico- administratives. Spécialité du doctorat

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,[email protected]

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, [email protected] 2 Université

Plus en détail

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre. Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

M2 IAD UE MODE Notes de cours (3)

M2 IAD UE MODE Notes de cours (3) M2 IAD UE MODE Notes de cours (3) Jean-Yves Jaffray Patrice Perny 16 mars 2006 ATTITUDE PAR RAPPORT AU RISQUE 1 Attitude par rapport au risque Nousn avons pas encore fait d hypothèse sur la structure de

Plus en détail

Limites finies en un point

Limites finies en un point 8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains. Mémoire d actuariat - promotion 2010 La modélisation des avantages au personnel: complexité et limites du modèle actuariel, le rôle majeur des comportements humains. 14 décembre 2010 Stéphane MARQUETTY

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Cours 9 : Plans à plusieurs facteurs

Cours 9 : Plans à plusieurs facteurs Cours 9 : Plans à plusieurs facteurs Table des matières Section 1. Diviser pour regner, rassembler pour saisir... 3 Section 2. Définitions et notations... 3 2.1. Définitions... 3 2.2. Notations... 4 Section

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine Mortalité observée et mortalité attendue au cours de la vague de chaleur de uillet en France métropolitaine FOUILLET A 1, REY G 1, JOUGLA E, HÉMON D 1 1 Inserm, U75, Villeuif, France. Inserm CépiDc, IFR9,

Plus en détail

FIMA, 7 juillet 2005

FIMA, 7 juillet 2005 F. Corset 1 S. 2 1 LabSAD Université Pierre Mendes France 2 Département de Mathématiques Université de Franche-Comté FIMA, 7 juillet 2005 Plan de l exposé plus court chemin Origine du problème Modélisation

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Modèles et Méthodes de Réservation

Modèles et Méthodes de Réservation Modèles et Méthodes de Réservation Petit Cours donné à l Université de Strasbourg en Mai 2003 par Klaus D Schmidt Lehrstuhl für Versicherungsmathematik Technische Universität Dresden D 01062 Dresden E

Plus en détail

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme Chapitre 3 Quelques fonctions usuelles 1 Fonctions logarithme et eponentielle 1.1 La fonction logarithme Définition 1.1 La fonction 7! 1/ est continue sur ]0, +1[. Elle admet donc des primitives sur cet

Plus en détail

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision Page n 1. Tests du χ 2 une des fonctions des statistiques est de proposer, à partir d observations d un phénomène aléatoire (ou modélisé comme tel) une estimation de la loi de ce phénomène. C est que nous

Plus en détail

Continuité en un point

Continuité en un point DOCUMENT 4 Continuité en un point En général, D f désigne l ensemble de définition de la fonction f et on supposera toujours que cet ensemble est inclus dans R. Toutes les fonctions considérées sont à

Plus en détail

Les débats sur l évolution des

Les débats sur l évolution des D o c u m e n t d e t r a v a i l d e l a B r a n c h e R e t r a i t e s d e l a C a i s s e d e s d é p ô t s e t c o n s i g n a t i o n s n 9 8-0 7 C o n t a c t : La u re nt V e r n i è r e 0 1 4

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Format de l avis d efficience

Format de l avis d efficience AVIS D EFFICIENCE Format de l avis d efficience Juillet 2013 Commission évaluation économique et de santé publique Ce document est téléchargeable sur www.has-sante.fr Haute Autorité de santé Service documentation

Plus en détail

Résumé des communications des Intervenants

Résumé des communications des Intervenants Enseignements de la 1ere semaine (du 01 au 07 décembre 2014) I. Titre du cours : Introduction au calcul stochastique pour la finance Intervenante : Prof. M hamed EDDAHBI Dans le calcul différentiel dit

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Loi binomiale Lois normales

Loi binomiale Lois normales Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Docteur José LABARERE

Docteur José LABARERE UE7 - Santé Société Humanité Risques sanitaires Chapitre 3 : Epidémiologie étiologique Docteur José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone... Liste des notes techniques.................... xxi Liste des encadrés....................... xxiii Préface à l édition internationale.................. xxv Préface à l édition francophone..................

Plus en détail

Chapitre 2/ La fonction de consommation et la fonction d épargne

Chapitre 2/ La fonction de consommation et la fonction d épargne hapitre 2/ La fonction de consommation et la fonction d épargne I : La fonction de consommation keynésienne II : Validations et limites de la fonction de consommation keynésienne III : Le choix de consommation

Plus en détail

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT) OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT) LAGGOUNE Radouane 1 et HADDAD Cherifa 2 1,2: Dépt. de G. Mécanique, université de Bejaia, Targa-Ouzemour

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Plus en détail

Image d un intervalle par une fonction continue

Image d un intervalle par une fonction continue DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction

Plus en détail

Chp. 4. Minimisation d une fonction d une variable

Chp. 4. Minimisation d une fonction d une variable Chp. 4. Minimisation d une fonction d une variable Avertissement! Dans tout ce chapître, I désigne un intervalle de IR. 4.1 Fonctions convexes d une variable Définition 9 Une fonction ϕ, partout définie

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour [email protected] Une grande partie des illustrations viennent

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

Théorème du point fixe - Théorème de l inversion locale

Théorème du point fixe - Théorème de l inversion locale Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

PROGRAMME (Susceptible de modifications)

PROGRAMME (Susceptible de modifications) Page 1 sur 8 PROGRAMME (Susceptible de modifications) Partie 1 : Méthodes des revues systématiques Mercredi 29 mai 2013 Introduction, présentation du cours et des participants Rappel des principes et des

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Soutenance de stage Laboratoire des Signaux et Systèmes

Soutenance de stage Laboratoire des Signaux et Systèmes Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

La mesure de Lebesgue sur la droite réelle

La mesure de Lebesgue sur la droite réelle Chapitre 1 La mesure de Lebesgue sur la droite réelle 1.1 Ensemble mesurable au sens de Lebesgue 1.1.1 Mesure extérieure Définition 1.1.1. Un intervalle est une partie convexe de R. L ensemble vide et

Plus en détail

EXERCICES - ANALYSE GÉNÉRALE

EXERCICES - ANALYSE GÉNÉRALE EXERCICES - ANALYSE GÉNÉRALE OLIVIER COLLIER Exercice 1 (2012) Une entreprise veut faire un prêt de S euros auprès d une banque au taux annuel composé r. Le remboursement sera effectué en n années par

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Économetrie non paramétrique I. Estimation d une densité

Économetrie non paramétrique I. Estimation d une densité Économetrie non paramétrique I. Estimation d une densité Stéphane Adjemian Université d Évry Janvier 2004 1 1 Introduction 1.1 Pourquoi estimer une densité? Étudier la distribution des richesses... Proposer

Plus en détail

Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur

Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur Ismaëlh Cissé Directeur : Carlos Ordás Criado Problématique Transports

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 Tests du χ 2 Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 A. Lourme http://alexandrelourme.free.fr Outline

Plus en détail

CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité

CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité 1 CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité Une situation fréquente en pratique est de disposer non pas d un résultat mais de plusieurs. Le cas se présente en assurance, par exemple :

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

Document d orientation sur les allégations issues d essais de non-infériorité

Document d orientation sur les allégations issues d essais de non-infériorité Document d orientation sur les allégations issues d essais de non-infériorité Février 2013 1 Liste de contrôle des essais de non-infériorité N o Liste de contrôle (les clients peuvent se servir de cette

Plus en détail

MODELES DE DUREE DE VIE

MODELES DE DUREE DE VIE MODELES DE DUREE DE VIE Cours 1 : Introduction I- Contexte et définitions II- Les données III- Caractéristiques d intérêt IV- Evènements non renouvelables/renouvelables (unique/répété) I- Contexte et définitions

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Incertitude et variabilité : la nécessité de les intégrer dans les modèles Incertitude et variabilité : la nécessité de les intégrer dans les modèles M. L. Delignette-Muller Laboratoire de Biométrie et Biologie Evolutive VetAgro Sup - Université de Lyon - CNRS UMR 5558 24 novembre

Plus en détail

Qu est-ce qu une probabilité?

Qu est-ce qu une probabilité? Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont

Plus en détail

Probabilités Loi binomiale Exercices corrigés

Probabilités Loi binomiale Exercices corrigés Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

Introduction à la Statistique Inférentielle

Introduction à la Statistique Inférentielle UNIVERSITE MOHAMMED V-AGDAL SCIENCES FACULTE DES DEPARTEMENT DE MATHEMATIQUES SMI semestre 4 : Probabilités - Statistique Introduction à la Statistique Inférentielle Prinemps 2013 0 INTRODUCTION La statistique

Plus en détail

Sur certaines séries entières particulières

Sur certaines séries entières particulières ACTA ARITHMETICA XCII. 2) Sur certaines séries entières particulières par Hubert Delange Orsay). Introduction. Dans un exposé à la Conférence Internationale de Théorie des Nombres organisée à Zakopane

Plus en détail

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01)

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01) (19) TEPZZ 8 8 4_A_T (11) EP 2 838 241 A1 (12) DEMANDE DE BREVET EUROPEEN (43) Date de publication: 18.02.1 Bulletin 1/08 (1) Int Cl.: H04L 29/06 (06.01) G06F 21/ (13.01) (21) Numéro de dépôt: 141781.4

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061 Value at Risk 27 février & 13 mars 20061 CNAM Gréory Taillard CNAM Master Finance de marché et estion de capitaux 2 Value at Risk Biblioraphie Jorion, Philippe, «Value at Risk: The New Benchmark for Manain

Plus en détail

De la mesure à l analyse des risques

De la mesure à l analyse des risques De la mesure à l analyse des risques Séminaire ISFA - B&W Deloitte Jean-Paul LAURENT Professeur à l'isfa, Université Claude Bernard Lyon 1 [email protected] http://laurent.jeanpaul.free.fr/ 0 De

Plus en détail

Dérivées d ordres supérieurs. Application à l étude d extrema.

Dérivées d ordres supérieurs. Application à l étude d extrema. Chapitre 5 Dérivées d ordres supérieurs. Application à l étude d extrema. On s intéresse dans ce chapitre aux dérivées d ordre ou plus d une fonction de plusieurs variables. Comme pour une fonction d une

Plus en détail